当前位置: 主页 > JAVA语言

java爬虫技术-主流的java爬虫技术

发布时间:2023-06-01 22:09   浏览次数:次   作者:佚名

结合作者多年网络爬虫开发经验

全面系统讲解了网络爬虫相关技术并以Java实现

通俗易懂、代码清晰、案例丰富实用

本书内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息java爬虫技术,以及针对抓取到的文本进行有效信息的提取。

为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。

最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。

主流的java爬虫技术_java爬虫超级经典_java爬虫技术

其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。

本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

内容简介

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和……

前言

java爬虫技术_java爬虫超级经典_主流的java爬虫技术

现代社会,有效信息对人来说就像氧气一样不可或缺。互联网让有效信息的收集工作变得更容易。当你在网上冲浪时,网络爬虫也在网络中穿梭,自动收集互联网上有用的信息。自动收集和筛选信息的网络爬虫让有效信息的流动性增强,让我们更加高效地获取信息。随着越来越多的信息显现于网络,网络爬虫也越来越有用。各行业都离……

第1章技术基础

很多种编程语言都可以用来开发爬虫。相对于Python,Java由于严谨的语法结构和体系结构,所以在开发爬虫方面有后发优势。很多网络爬虫是使用Java或者C#语言开发的。如果是开发采集器那样的客户端爬虫,那么可以使用C#开发爬虫。如果是运行在服务器端的爬虫,则可以用Java开发。只要有目标,你可以……

第2章网络爬虫入门

大的搜索引擎,例如Google,对整个互联网做了一个镜像。很多有专门用途的信息也需要汇总,例如网上购物或者旅游。这些专门收集互联网信息的程序叫作网络爬虫。如果把互联网比喻成一个覆盖地球的蜘蛛网,那么抓取程序就是在网上爬来爬去的蜘蛛。虽然存在一些通用的采集器,但是因为应用目的不同java爬虫技术,很多爬虫程序都是定……

java爬虫超级经典_java爬虫技术_主流的java爬虫技术

第3章定向采集

有些B2B网站需要从一些指定网站采集求购信息,也就是询盘信息(Inquiry)。询盘信息往往需要登录到一些行业网站后抓取。首先生成每个网站的配置信息,然后根据配置信息采集。例如,根据目录页遍历求购信息。另外,一些B2B网站需要抓取指定的几十个网站。首先自动查找目录页,然后提取详细页中的信息。……

第4章数据存储

建设数据仓库时,需要把数据从数据库加载到数据仓库,这个过程叫作ETL。ETL是Extraction-Transformation-Loading的缩写。参考ETL加载数据到目标的方法,实现灵活的加载对象选择。定义加载数据的接口。public interface Loader {pub……

第5章信息提取

java爬虫超级经典_主流的java爬虫技术_java爬虫技术

搜索引擎经常要处理的文档格式包括HTML、Word、PDF等。这些文档格式中,有的文档是专有和非公开的格式,例如Word和PDF;有的文档虽然是公开的标准,但是具体的实现却千差万别,例如HTML。而且文档格式往往存在不同的版本,例如,Word包括doc和docx两种格式,PDF有从1.0到1.7及其……

第6章Crawler4j

Crawler4j是一个容易使用的单机版爬虫软件。……

第7章网页排重

不同的网站间转载内容的情况很常见。即使在同一个网站,有时候不同的URL地址可能对应同一个页面,或者存在同样的内容以多种方式显示出来,所以,网页需要按内容做文档排重。例如,一个企业商品搜索。搜商品名,有一家公司发的商品名字都一样,结果这家公司发的商品都显示在前面,但是要求一家企业只显示一条相似的商品……

java爬虫技术_java爬虫超级经典_主流的java爬虫技术

第8章网页分类

用户不太可能输入关键词搜索一个词,更有可能浏览信息分类目录,所以要能准确的对网页分类。网页可以按功能分类,也可以按内容分类。这里考虑如何按内容自动分类。文本分类程序把一个没见过的文档分成已知类别中的一个或多个,例如,把新闻分成国内新闻和国际新闻。利用文本分类技术可以对网页分类,也可以用于为用户提供……

第9章案例分析

信息采集往往是大的软件系统中的一部分,本章介绍爬虫在软件系统中的应用。……

后记

作者最早使用网络爬虫是在2000年的时候,帮助华大基因公司抓取日本水稻基因数据。当时,使用了一个叫作Teleport Pro的离线浏览器软件,这个软件的功能类似Crawler4J,不过Teleport Pro用图形化能更直观地显示抓取进度。很多公司的网络爬虫相关的开发岗位并不长久,所以鼓励技术人员……