java 自定义表单开源-19款Java开源Web爬虫的收藏方法！！

发布时间：2023-06-16 22:09 浏览次数：次作者：佚名

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

今天将为大家介绍19款Java开源Web爬虫，需要的小伙伴们赶快收藏吧。

java动态表单开源_java 自定义表单开源_自定义表单开源

一、Heritrix

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

Heritrix 是个“Archival Crawler”——来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫主要通过Web用户界面启动、监控和调整，允许弹性的定义要获取的url。

Heritrix是按多线程方式抓取的爬虫，主线程把任务分配给Teo线程(处理线程)，每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。

(1)预取链：主要是做一些准备工作，例如，对处理进行延迟和重新处理，否决随后的操作。

(2)提取链：主要是下载网页，进行DNS转换，填写请求和响应表单。

(3)抽取链：当提取完成时，抽取感兴趣的HTML和JavaScript，通常那里有新的要抓取的URL。

(4)写链：存储抓取结果，可以在这一步直接做全文索引。Heritrix提供了用ARC格式保存下载结果的ARCWriterProcessor实现。

(5)提交链：做和此URL相关操作的最后处理。检查哪些新提取出的URL在抓取范围内，然后把这些URL提交给Frontier。另外还会更新DNS缓存信息。

自定义表单开源_java动态表单开源_java 自定义表单开源

Heritrix系统框架图

java 自定义表单开源_java动态表单开源_自定义表单开源

heritrix处理一个url的流程

自定义表单开源_java 自定义表单开源_java动态表单开源

二、WebSPHINX

WebSPHINX 是一个 Java 类包和 Web 爬虫的交互式开发环境。 Web 爬虫 ( 也叫作机器人或蜘蛛 ) 是可以自动浏览与处理 Web 页面的程序。 WebSPHINX 由两部分组成：爬虫工作平台和 WebSPHINX 类包。

WebSPHINX – 用途

1.可视化显示页面的集合

2.下载页面到本地磁盘用于离线浏览

3.将所有页面拼接成单个页面用于浏览或者打印

4.按照特定的规则从页面中抽取文本字符串

5.用Java或Javascript开发自定义的爬虫

三、WebLech

WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

WebLech是一个功能强大的Web站点下载与镜像免费开源工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

这款爬虫足够简单，如果初学如果编写爬虫，可做入门参考。所以我选择了用这个爬虫开始我的研究。如果只是做要求不高的应用，也可试试。如果想找一款功能强大，就别在WebLech上浪费时间了。

该项目主页:

特点：

java动态表单开源_java 自定义表单开源_自定义表单开源

1）开源，免费

2）代码是用纯Java写的，可以在任何支持Java的平台上也行

3）支持多线程下载网页

4）可维持网页间的链接信息

5）可配置性强：深度优先或宽度优先爬行网页可定制URL过滤器，这样就可以按需要爬行单个web服务器，单个目录或爬行整个WWW网络可设置URL的优先级，这样就可以优先爬行我们感兴趣或重要的网页可记录断点时程序的状态，一边重新启动时可接着上次继续爬行。

四、Arale

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

五、JSpider

JSpider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。

Spider是一个用Java实现的WebSpider，JSpider的执行格式如下：

jspider [URL] [ConfigName]

URL一定要加上协议名称，如：，否则会报错。如果省掉ConfigName，则采用默认配置。

JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的配置种类很少，用途也不大。但是JSpider非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对JSpider的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。

Spider是:

一个高度可配置和和可定制Web爬虫

自定义表单开源_java动态表单开源_java 自定义表单开源

LGPL开源许可下开发

100％纯Java实现

您可以使用它来：

检查您网站的错误(内部服务器错误, …)

传出或内部链接检查

分析你网站的结构(创建一个sitemap, …)

下载整修网站

通过编写JSpider插件实现任何功能.

该项目主页:

六、spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

七、Arachnid

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

该项目主页:

八、LARM

自定义表单开源_java 自定义表单开源_java动态表单开源

LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

该项目主页:

九、JoBo

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

十、snoics-reptile

1、snoics-reptile是什么？

是用纯Java开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的URL入口，把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地，包括网页和各种类型的文件，如：图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如：Apache)中，就可以实现完整的网站镜像。

2、现在已经有了其他的类似的软件，为什么还要开发snoics-reptile？

因为有些在抓取的过程中经常会出现错误的文件，而且对很多使用javascript控制的URL没有办法正确的解析，而snoics-reptile通过对外提供接口和配置文件的形式，对特殊的URL，可以通过自由的扩展对外提供的接口java 自定义表单开源，并通过配置文件注入的方式，基本上能实现对所有的网页都正确的解析和抓取。

该项目主页:

十一、Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。

Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的，你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面，它也能通过写自己的Java 方法来轻易扩展其提取能力。

Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法，而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程，每一个处理器被看作是一个函数，它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式，这样使得它们可以以链式的形式来执行，此外为了更易于数据操作和重用，Web-Harvest 还提供了变量上下方用于存储已经声明的变量。

web-harvest 启动，可以直接双击jar包运行，不过该方法不能指定web-harvest java虚拟机的大小。第二种方法，在cmd下切到web-harvest的目录下，敲入命令“java -jar -Xms400m webharvest_all_2.jar” 即可启动并设置起java虚拟机大小为400M。

java动态表单开源_自定义表单开源_java 自定义表单开源

该项目主页:

十二、ItSucks

ItSucks是一个Java Web爬虫开源项目。可灵活定制，支持通过下载模板和正则表达式来定义下载规则。提供一个控制台和Swing GUI操作界面。

功能特性:

该项目主页:

十三、Smart and Simple Web Crawler

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器限制爬回来的链接，默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter，这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。

十四、Crawler4j

crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口，可以在几分钟内创建一个多线程网络爬虫。

crawler4j的使用主要分为两个步骤：

实现一个继承自WebCrawler的爬虫类；

通过CrawlController调用实现的爬虫类。

WebCrawler是一个抽象类，继承它必须实现两个方法：shouldVisit和visit。其中：

shouldVisit是判断当前的URL是否已经应该被爬取（访问）；

visit则是爬取该URL所指向的页面的数据，其传入的参数即是对该web页面全部数据的封装对象Page。

另外，WebCrawler还有其它一些方法可供覆盖java 自定义表单开源，其方法的命名规则类似于Android的命名规则。如getMyLocalData方法可以返回WebCrawler中的数据；onBeforeExit方法会在该WebCrawler运行结束前被调用，可以执行一些资源释放之类的工作。

许可

java的反射机制是什么-强制类型转换（cast）的应用Class

java xpath获取属性值-宜家控股企业InterogoHolding斥资17亿美元买入海恩斯莫里斯（HM）集团0.6%

java 自定义表单 开源-19款Java开源Web爬虫的收藏方法！！

java 自定义表单开源-19款Java开源Web爬虫的收藏方法！！