python网络爬虫与信息提取-python网络爬虫视频
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/2019051501064255.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
Requests库主要方法解析(重点掌握head和get这两个方法)请求方法
Requests的eequest方法是所有方法的基础方法
requests.request(方法, url, **kwargs)
method(7):请求方法,对应get/put/post等7种类型
url:要获取的页面的url链接
**kwargs(13):控制访问的参数,共13个
![python网络爬虫视频_[python]网络爬虫_python网络爬虫与信息提取](https://img-blog.csdnimg.cn/20190520162836747.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
前6种已经介绍过了,option是从服务器端获取一些服务器端和客户端可以打交道的参数,一般用的比较少
---------------------------------------------- ----------
![python网络爬虫与信息提取_python网络爬虫视频_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163047923.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![[python]网络爬虫_python网络爬虫与信息提取_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520163111691.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_[python]网络爬虫_python网络爬虫与信息提取](https://i2.wp.com/img-blog.csdnimg.cn/20200427222532872.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDE4MTc0NA==,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_[python]网络爬虫_python网络爬虫与信息提取](https://img-blog.csdnimg.cn/20190520163211984.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163253283.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
我们可以模拟任何我们想模拟的浏览器,发起对服务器的访问。模拟浏览器的方式是在headers字段中实现
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163432543.png)
cookies和auth字段都是requests库的高级字段
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163515955.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163538733.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520163548460.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
可有效隐藏用户爬取网页的源IP地址信息,可有效防止爬虫反向追踪
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520163730396.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
对应一些高级功能
get方法(所以方法中最常用的方法)
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20210708121814377.jpeg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L25va2lhZ3V5,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520163915516.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
**kwargs和params与请求方式相同
头法
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520163957311.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
**kwargs 与请求方式相同
发布方法
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520164006620.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
put 方法
![python网络爬虫与信息提取_python网络爬虫视频_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520164126737.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
修补法
![python网络爬虫与信息提取_python网络爬虫视频_[python]网络爬虫](https://img-blog.csdnimg.cn/20190520164133199.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
删除方法
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://ewr1.vultrobjects.com/imgur2/000/004/484/225_97a_ff5.jpg)
![[python]网络爬虫_python网络爬虫视频_python网络爬虫与信息提取](https://img-blog.csdnimg.cn/20190520164140896.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
为什么这些方法的 **kwargs 不同?
在使用最后6种方法时,由于这些方法经常会用到一些访问控制参数,所以将这些参数作为显式定义的参数量放入函数设计中,而那些不是很常用的参数放在access的可选参数中控制
网络爬虫大小
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190505174125419.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
网络爬虫引起的问题 骚扰问题
对于一个网站来说,网络爬虫就像是骚扰电话python网络爬虫与信息提取,可以给这个网站带来致命的骚扰功能
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190505174433306.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
网络爬虫的法律风险
服务器上的数据拥有所有权
网络爬虫获取数据获利后会带来法律风险
曾有法院责令网络爬虫赔偿网站服务器的巨额费用
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](http://upload-images.jianshu.io/upload_images/11023671-3a8cf2c0e313a957.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
网络爬虫泄露隐私
网络爬虫或有能力突破简单的访问控制,获取受保护数据,泄露个人隐私
网络爬虫的局限性
在实际使用中,一些较大的网站对网络爬虫有相关限制。在整个互联网中,网络爬虫也被视为一种规范功能
对于一般服务器,网络爬虫可以通过两种方式进行限制:来源审查和公告
来源审查
如果服务器/网站的所有者有一定的技术能力,网络爬虫可以通过源审查来限制
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://img-blog.csdnimg.cn/20190505175258936.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
浏览器访问时,无论是浏览器还是访问软件,都会给自己设置一个标识,放在User-Agent中。对于web服务器来说,判断你的HTT[协议头,如果User-Agent字段是不是预期的浏览器,它很可能是一个爬虫
宣布
![python网络爬虫与信息提取_python网络爬虫视频_[python]网络爬虫](https://img-blog.csdnimg.cn/20190505175423123.png)
像布告牌一样,告诉所有的爬虫你可以爬取网站的哪些部分,哪些部分不能爬取。
![python网络爬虫视频_python网络爬虫与信息提取_[python]网络爬虫](https://www.h5w3.com/wp-content/uploads/2021/03/1604268035661579.png)
但是由网络爬虫决定是否遵守
机器人协议
机器人协议必须放在网站的根目录下。 并不是所有的网站都有机器人协议(比如教育部的网站)。 没有robots协议的网站默认允许所有爬虫不受限制地爬取其页面内容。
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190505180403954.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫视频_[python]网络爬虫_python网络爬虫与信息提取](https://img-blog.csdnimg.cn/20190505180427432.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190505180458887.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
遵守机器人协议
![python网络爬虫视频_[python]网络爬虫_python网络爬虫与信息提取](https://img-blog.csdnimg.cn/201905201650174.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
![[python]网络爬虫_python网络爬虫与信息提取_python网络爬虫视频](https://img-blog.csdnimg.cn/20190520165119748.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
求库网络爬虫实战①爬取京东页面商品
爬取页面:【华为荣耀8】荣耀8 4GB+64GB全网通4G手机魅海蓝【行情价格测评】-京东(某手机)
![python网络爬虫与信息提取_[python]网络爬虫_python网络爬虫视频](https://img-blog.csdnimg.cn/20190506101806433.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2h4eGp4dw==,size_16,color_FFFFFF,t_70)
状态码为200python网络爬虫与信息提取,表示返回信息正确,已获取到该链接对应内容

 
上一篇 
  
        