python网络爬虫与信息提取-python网络爬虫视频
Requests库主要方法解析(重点掌握head和get这两个方法)请求方法
Requests的eequest方法是所有方法的基础方法
requests.request(方法, url, **kwargs)
method(7):请求方法,对应get/put/post等7种类型
url:要获取的页面的url链接
**kwargs(13):控制访问的参数,共13个
前6种已经介绍过了,option是从服务器端获取一些服务器端和客户端可以打交道的参数,一般用的比较少
---------------------------------------------- ----------
我们可以模拟任何我们想模拟的浏览器,发起对服务器的访问。模拟浏览器的方式是在headers字段中实现
cookies和auth字段都是requests库的高级字段
可有效隐藏用户爬取网页的源IP地址信息,可有效防止爬虫反向追踪
对应一些高级功能
get方法(所以方法中最常用的方法)
**kwargs和params与请求方式相同
头法
**kwargs 与请求方式相同
发布方法
put 方法
修补法
删除方法
为什么这些方法的 **kwargs 不同?
在使用最后6种方法时,由于这些方法经常会用到一些访问控制参数,所以将这些参数作为显式定义的参数量放入函数设计中,而那些不是很常用的参数放在access的可选参数中控制
网络爬虫大小
网络爬虫引起的问题 骚扰问题
对于一个网站来说,网络爬虫就像是骚扰电话python网络爬虫与信息提取,可以给这个网站带来致命的骚扰功能
网络爬虫的法律风险
服务器上的数据拥有所有权
网络爬虫获取数据获利后会带来法律风险
曾有法院责令网络爬虫赔偿网站服务器的巨额费用
网络爬虫泄露隐私
网络爬虫或有能力突破简单的访问控制,获取受保护数据,泄露个人隐私
网络爬虫的局限性
在实际使用中,一些较大的网站对网络爬虫有相关限制。在整个互联网中,网络爬虫也被视为一种规范功能
对于一般服务器,网络爬虫可以通过两种方式进行限制:来源审查和公告
来源审查
如果服务器/网站的所有者有一定的技术能力,网络爬虫可以通过源审查来限制
浏览器访问时,无论是浏览器还是访问软件,都会给自己设置一个标识,放在User-Agent中。对于web服务器来说,判断你的HTT[协议头,如果User-Agent字段是不是预期的浏览器,它很可能是一个爬虫
宣布
像布告牌一样,告诉所有的爬虫你可以爬取网站的哪些部分,哪些部分不能爬取。
但是由网络爬虫决定是否遵守
机器人协议
机器人协议必须放在网站的根目录下。 并不是所有的网站都有机器人协议(比如教育部的网站)。 没有robots协议的网站默认允许所有爬虫不受限制地爬取其页面内容。
遵守机器人协议
求库网络爬虫实战①爬取京东页面商品
爬取页面:【华为荣耀8】荣耀8 4GB+64GB全网通4G手机魅海蓝【行情价格测评】-京东(某手机)
状态码为200python网络爬虫与信息提取,表示返回信息正确,已获取到该链接对应内容