python智能爬虫框架-python的爬虫框架

发布时间：2023-02-12 14:20 浏览次数：次作者：佚名

除非遇到一个拥有丰富数据资源的“土豪爸爸”做导师python智能爬虫框架，否则越来越多的研究生甚至经济学专业的本科生都被导师“要求”学习爬虫技能。那么对于经济学专业的学生来说，如何使用Python获取网页中的信息，完成所谓的爬虫作业呢？

本文将告诉你，学习Python爬虫需要学习哪些知识？

1 HTML：了解网页基础，知道抓取什么

现在，我们习惯打开浏览器查看各种网页内容，浏览器中出现的所有内容可以简单概括为HTML+CSS+Javascript：（1）HTML用于存储网页内容；

(2)CSS用于存储网页的样式；

(3) Javascript负责网页的交互。

因此，要获取数据，就要从HTML入手。

学习和理解 HTML 已成为必须。当然，您不必担心或抱怨“学习一门新语言”。 HTML 是一种标记语言。所谓的标记语言类似于：

你好 HTML

非常容易理解，

是一个标记，标记中的内容属于h1，即一级标题。不同的标签代表不同的功能。例如h2代表二级标题，p代表段落等，浏览器根据这个标记显示内容的样式。所以对于爬取数据，你只需要知道哪个是mark，哪个是content，就可以找出你需要的内容在哪个mark级别下。

2 浏览器的开发者接口：访问网页背后的代码

为了能够理解 HTML，您还需要知道在哪里可以找到代码。这时候你就需要学习如何使用浏览器的开发者模式了。

Chrome浏览器是一款常用的软件，可以更好的显示网页的源代码。可以在界面右上角选择更多工具，然后打开开发者工具：

打开后可以看到网页的源代码。浏览器根据这些代码显示网页。

寻找职业

一般来说，Chrome 提供以下功能[1]：

Elements：允许我们从浏览器的角度来看页面，也就是说，我们可以看到chrome渲染页面所需要的HTML、CSS和DOM（Document Object Model）对象。那就是给我们看源代码。

网络：可以看到页面向服务器请求了哪些资源，资源的大小，资源加载的时间。当然你也可以看到哪些资源加载不成功。此外，还可以查看HTTP请求头、返回内容等；

资源：确认和编辑本地缓存中的数据（IndexedDB、Web SQL、Cookie、应用程序缓存、Web Storage）；记录cookies等信息，可以用来爬取一些需要登录的网址。

下面是一些我们不经常用到的，但是大家可以看一下： sources：主要用来调试js（对我们学经济学的学生学爬虫没那么重要）；

Timeline：提供完整的页面加载耗时分析，包括所有事件（从下载资源到处理Javascript、计算CSS样式等）耗时都显示在Timeline中；

Profiles：分析Web应用程序或页面的执行时间和内存使用情况；

审计：分析页面加载过程，然后提供减少页面加载时间和提高响应速度的解决方案；

控制台：显示各种警告和错误消息python智能爬虫框架，并提供与文档和开发人员工具交互的外壳。

总之，通过这个开发者接口，可以获取Xpath、Cookie等对爬虫非常重要的信息。学习使用它对于爬虫来说是必不可少的。

3 Python爬虫框架

最后就是使用各种爬虫框架进行爬取，使用不同的爬虫框架来应对不同的情况。各种框架的上手难度和自由度也不同。比较常用的有： Requests library:: 适合初学者的爬虫框架。如果你有一定的Python基础，一般先使用Requests库是正确的。

Beautiful Soup:: 一种爬虫解决方案，将网页变成“Soup”，然后从 Soup 中提取 HTML 格式的信息。它也相对容易学习和易于使用。

Scrapy：这是一个为爬取网站数据和提取结构化数据而编写的应用程序框架。更适合结构化数据的抽取。

Pyspider：带有GUI的爬虫框架，可以直接在GUI上编写爬虫脚本。

科学园/科学园

什么是 GUI？ GUI是Graphical User Interface的缩写，即所谓的图形用户界面，是指以图形方式显示的计算机操作用户界面。我们常用的QQ、微信等软件都包含GUI软件，我们的Windows也有CMD、PowerShell等软件，都是不包含GUI的软件。他们都通过输入命令与软件交互。

此外，还有许多不同类型的爬虫框架。大家可以根据自己的需要在网上简单搜索一下，就能找到各种比较不同库的文章。然后就可以选择自己比较能接受的套餐了。

以上三部分就是爬虫运营需要知道的三大知识点。此外，你可能还需要一定的网络知识来应对爬虫实践中的不同类型的错误。而且，爬行是一个可以不断深化的领域。不同类型的网站会有不同的“反爬”策略。为了处理这些策略，可能需要更多不同的知识。对于经济学专业的同学来说，再深一点可能有点“得不偿失”。只有那些爬虫成本较低的网站才符合利润最大化的原则。

所以简单总结一下，爬虫需要了解HTML的基础知识，然后学习使用浏览器开发者模式，查看源代码和网络信息，最后选择爬取操作得心应手的第三个包。

最后，最重要的提醒：爬虫本身并不违法（搜索引擎是爬虫技术最经典的应用场景），但强制爬取可能涉及侵犯隐私、窃取机密、商业侵权等违法风险。所以一定要注意不要违反相关法律法规，不要违法，不要违法，不要违法！重要的事说三遍~~~

本文首发于公众号数据研讨会数据资源丨聚焦！经济学专业学Python：爬虫 mp.weixin.qq.com

python智能爬虫框架-python 爬虫框架

python norm函数-python l2 norm