当前位置: 主页 > Python语言

python智能爬虫框架-python的爬虫框架

发布时间:2023-02-12 14:20   浏览次数:次   作者:佚名

除非遇到一个拥有丰富数据资源的“土豪爸爸”做导师python智能爬虫框架,否则越来越多的研究生甚至经济学专业的本科生都被导师“要求”学习爬虫技能。 那么对于经济学专业的学生来说,如何使用Python获取网页中的信息,完成所谓的爬虫作业呢?

本文将告诉你,学习Python爬虫需要学习哪些知识?

1 HTML:了解网页基础,知道抓取什么

现在,我们习惯打开浏览器查看各种网页内容,浏览器中出现的所有内容可以简单概括为HTML+CSS+Javascript:(1)HTML用于存储网页内容;

(2)CSS用于存储网页的样式;

(3) Javascript负责网页的交互。

因此,要获取数据,就要从HTML入手。

学习和理解 HTML 已成为必须。 当然,您不必担心或抱怨“学习一门新语言”。 HTML 是一种标记语言。 所谓的标记语言类似于:

你好 HTML

非常容易理解,

是一个标记,标记中的内容属于h1,即一级标题。 不同的标签代表不同的功能。 例如h2代表二级标题,p代表段落等,浏览器根据这个标记显示内容的样式。 所以对于爬取数据,你只需要知道哪个是mark,哪个是content,就可以找出你需要的内容在哪个mark级别下。

2 浏览器的开发者接口:访问网页背后的代码

为了能够理解 HTML,您还需要知道在哪里可以找到代码。 这时候你就需要学习如何使用浏览器的开发者模式了。

Chrome浏览器是一款常用的软件,可以更好的显示网页的源代码。 可以在界面右上角选择更多工具,然后打开开发者工具:

打开后可以看到网页的源代码。 浏览器根据这些代码显示网页。

寻找职业

一般来说,Chrome 提供以下功能[1]:

Elements:允许我们从浏览器的角度来看页面,也就是说,我们可以看到chrome渲染页面所需要的HTML、CSS和DOM(Document Object Model)对象。 那就是给我们看源代码。

网络:可以看到页面向服务器请求了哪些资源,资源的大小,资源加载的时间。 当然你也可以看到哪些资源加载不成功。 此外,还可以查看HTTP请求头、返回内容等;

资源:确认和编辑本地缓存中的数据(IndexedDB、Web SQL、Cookie、应用程序缓存、Web Storage); 记录cookies等信息,可以用来爬取一些需要登录的网址。

下面是一些我们不经常用到的,但是大家可以看一下: sources:主要用来调试js(对我们学经济学的学生学爬虫没那么重要);

Timeline:提供完整的页面加载耗时分析,包括所有事件(从下载资源到处理Javascript、计算CSS样式等)耗时都显示在Timeline中;

Profiles:分析Web应用程序或页面的执行时间和内存使用情况;

审计:分析页面加载过程,然后提供减少页面加载时间和提高响应速度的解决方案;

控制台:显示各种警告和错误消息python智能爬虫框架,并提供与文档和开发人员工具交互的外壳。

总之,通过这个开发者接口,可以获取Xpath、Cookie等对爬虫非常重要的信息。 学习使用它对于爬虫来说是必不可少的。

3 Python爬虫框架

最后就是使用各种爬虫框架进行爬取,使用不同的爬虫框架来应对不同的情况。 各种框架的上手难度和自由度也不同。 比较常用的有: Requests library:: 适合初学者的爬虫框架。 如果你有一定的Python基础,一般先使用Requests库是正确的。

Beautiful Soup:: 一种爬虫解决方案,将网页变成“Soup”,然后从 Soup 中提取 HTML 格式的信息。 它也相对容易学习和易于使用。

Scrapy:这是一个为爬取网站数据和提取结构化数据而编写的应用程序框架。 更适合结构化数据的抽取。

Pyspider:带有GUI的爬虫框架,可以直接在GUI上编写爬虫脚本。

科学园/科学园

什么是 GUI? GUI是Graphical User Interface的缩写,即所谓的图形用户界面,是指以图形方式显示的计算机操作用户界面。 我们常用的QQ、微信等软件都包含GUI软件,我们的Windows也有CMD、PowerShell等软件,都是不包含GUI的软件。 他们都通过输入命令与软件交互。

此外,还有许多不同类型的爬虫框架。 大家可以根据自己的需要在网上简单搜索一下,就能找到各种比较不同库的文章。 然后就可以选择自己比较能接受的套餐了。

以上三部分就是爬虫运营需要知道的三大知识点。 此外,你可能还需要一定的网络知识来应对爬虫实践中的不同类型的错误。 而且,爬行是一个可以不断深化的领域。 不同类型的网站会有不同的“反爬”策略。 为了处理这些策略,可能需要更多不同的知识。 对于经济学专业的同学来说,再深一点可能有点“得不偿失”。 只有那些爬虫成本较低的网站才符合利润最大化的原则。

所以简单总结一下,爬虫需要了解HTML的基础知识,然后学习使用浏览器开发者模式,查看源代码和网络信息,最后选择爬取操作得心应手的第三个包。

最后,最重要的提醒:爬虫本身并不违法(搜索引擎是爬虫技术最经典的应用场景),但强制爬取可能涉及侵犯隐私、窃取机密、商业侵权等违法风险。 所以一定要注意不要违反相关法律法规,不要违法,不要违法,不要违法! 重要的事说三遍~~~

本文首发于公众号数据研讨会数据资源丨聚焦! 经济学专业学Python:爬虫 mp.weixin.qq.com