建站软件有筛选模块-33款可用来抓数据的开源爬虫软件工具

115资源网 14小时前网络软件浏览：1 0

该项目还很不成熟，但功能基本完成。用户需要熟悉 XML 和正则表达式。目前，该工具可以抓取各种论坛，帖子栏和各种CMS系统。像Discuz！，phpbb，论坛和博客这样的文章可以通过此工具轻松抓取。抓取定义完全是XML，适合Java开发人员。

使用方法：1.下载右侧的.war软件包并将其导入eclipse，2.使用WebContent/sql下的wcc.sql文件创建示例数据库，3.修改src包下wcc.core的dbConfig.txt，并将用户名和密码设置为自己的mysql用户名和密码。4.然后运行SystemCore建站软件有筛选模块，在控制台运行时，没有参数会执行默认的示例.xml配置文件，参数名称为配置文件名时。

该系统带有3个示例，即百度.xml抓取百度知道，.xml抓取我的javaeye博客的示例，以及使用discuz论坛抓取内容的bbs.xml。

12、蜘蛛侠蜘蛛

侠是一款基于微内核+插件架构的网络蜘蛛，其目标是通过简单的方法将复杂的登陆页面信息抓取和解析为你需要的业务数据。

如何使用？

首先，确定您的目标网站和登录页面（即您想要从中获取数据的某种类型的页面，例如网易新闻的新闻页面）。

然后，打开目标页面，分析页面的HTML结构，并获取XPath

你想要的数据，如何获取具体的XPath，请看下面。

最后，在xml配置文件中填写参数并运行蜘蛛侠！

13、网络魔术

webmagic是一个非配置，易于开发的爬虫框架，它提供了一个简单灵活的API，只需少量的代码来实现爬虫。

WebMagic采用完全模块化设计，功能覆盖整个爬虫生命周期（链接提取、页面下载、内容提取、持久化），支持多线程爬网、分布式爬网，并支持自动重试、自定义UA/Cookie等功能。

WebMagic包含强大的页面提取功能，开发者可以轻松使用CSS选择器，XPath和正则表达式进行链接和内容提取，并支持多个选择器链调用。

WebMagic使用文档：

查看源代码：

14、网收

Web-Harvest是一个Java开源Web数据提取工具。它能够收集指定的网页并从这些页面中提取有用的数据。Web-Harvest主要使用XSLT，XQuery，正则表达式等技术来实现文本/XML操作。

实现原则是使用 httpclient 获取

页面根据预定义的配置文件（关于httpclient的内容，本博客中已经介绍了一些文章），然后使用XPath，XQuery，正则表达式等技术实现文本/XML内容过滤操作并选择准确的数据。前两年比较流行的垂直搜索（比如：Kuxun等）也是用类似的原理实现的。Web-Harvest 应用程序的关键是理解和定义配置文件，其余的就是考虑如何处理带有数据的 Java 代码。当然，在爬虫启动之前，您也可以将 Java 变量填充到配置文件中以实现动态配置。

15、网络智网

WebSPHINX是Java类包和Web爬虫的交互式开发环境。网络爬虫（也称为机器人或蜘蛛）是自动浏览和处理网页的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

16、雅西

YaCy是一个基于p2p的分布式网络搜索引擎。它也是一个 Http 缓存代理服务器。该项目是构建p2p网络索引网络的新方法。它可以搜索您自己的或全局索引，抓取您自己的网页或开始分布式爬网等

蟒蛇爬虫

17、快速侦察

QuickRecon 是一个简单的信息收集工具，可以帮助您查找子域名、执行区域转换、收集电子邮件地址、使用微格式查找关系等。QuickRecon是用Python编写的，支持Linux和Windows操作系统。

18、轨道炮

这是一个非常简单易用的抓取工具。简单、实用、高效的python网络爬虫爬行模块，支持抓取JavaScript呈现的页面

Github下载：#readme

19、刮擦

Scrapy是一套基于Twisted的爬虫框架异步处理框架，纯python实现，用户只需要定制和开发几个模块就能轻松实现一个爬虫，用来抓取网页内容和各种图片，非常方便~

C++爬虫

20、海蜘蛛

HiSpider是一款快速高性能的高速蜘蛛

严格来说，它只能

作为一个爬虫系统框架，没有详细的要求，目前只能提取URL、URL调度、异步DNS解析、排队任务，支持N机分布式下载建站软件有筛选模块，支持网站定向下载（需要配置hispiderd.ini白名单）。

特点和用法：

工作流程：

从中心节点获取 URL（包括任务号、IP 和 URL 对应的端口，可能也需要自己解析）。

连接服务器发送请求

等待数据头判断是否需要数据（目前主要取文本类型数据）。等待

完成数据（直接等待带有长度标头的长度数据，否则等待更大的数字，然后设置超时）。

当数据

完成或超时时，zlib 压缩数据并返回给中心服务器，数据可能包括自行解析 DNS 信息、压缩数据长度 + 压缩数据，如果出现错误，将直接返回任务编号和相关信息

中央服务器接收带有任务编号的数据，检查数据是否包括在内，如果有

无数据直接将任务编号对应的状态设置为Error，如果有数据提取数据链接，则将数据存储到文档文件中

完成后返回新任务

21、拉宾

Larbin是由法国年轻人Sébastien Ailleret独立开发的开源网络爬虫/蜘蛛。Larbin的目的是能够跟踪页面的URL进行扩展抓取，最终为搜索引擎提供广泛的数据源。Labbin 只是一个爬虫，这意味着 Labbin 只抓取网络，用户做关于如何解析的事情。此外，如何存储到数据库和索引的东西larbin不提供。一个简单的larbin爬虫每天可以获取500万个网页。

使用larbin，我们可以轻松获取/确定指向单个网站的所有链接，甚至可以镜像网站;还可以使用它来创建 URL 列表组（如所有网页的 URL 检索），然后检索 XML 链接。或mp3或自定义larbin，可以作为搜索引擎的信息来源。

22、美沙博特

Methabot是一个速度优化，高度可配置的WEB，FTP，本地文件系统爬虫。

源代码：

C# 爬网程序

23、NWeb爬虫

NWebCrawler是一个开源的C#网络爬虫。

特征：

可配置：线程数、等待时间、连接超时、允许的 MIME 类型和优先级、下载文件夹。

统计信息：URL 数、下载的文件总数、下载的总字节数、CPU 利用率和可用内存。

优先爬网程序：用户可以优先处理的 MIME 类型。

健壮：10+ URL 规范化规则，爬虫陷阱避免规则。

24、西诺勒

中国第一个微博数据爬虫！原名“新浪微博爬虫”。

登录后，可以指定用户为起点，以用户的关注者和粉丝为线索，延伸人脉，收集用户基本信息、微博数据、评论数据。

本应用获取的数据可作为科学研究、新浪微博相关研发等的数据支持，但请勿用于商业目的。该应用程序基于 ..NET 2.0 框架需要 SQL Server 作为后台数据库，并为 SQL Server 提供数据库脚本文件。

此外，由于新浪微博API的限制，抓取的数据可能不完整（如获取关注者数量限制、微博获取数量限制等）。

本程序的版权属于作者。您可以免费复制、分发、展示和表演当前作品，并制作衍生作品。您不得将当前的作品用于商业目的。

5.x 版本已发布！此版本中有 6 个后台工作线程：抓取用户基本信息的机器人、抓取用户关系的机器人、抓取用户标签的机器人、抓取微博内容的机器人、抓取微博评论的机器人和调整请求频率的机器人。更高的性能！最大化您的爬虫潜力！从目前的测试结果来看，已经可以满足自用的需求了。

该程序的特点：

6 个后台工作线程，以最大限度地提高爬虫的性能潜力！

界面提供参数设置，灵活方便

放弃 app.config 配置文件，实现配置信息的加密存储，保护数据库帐户信息

自动调整请求频率，防止超限，又避免过慢而降低效率

任何控制爬虫，可以随时暂停、恢复、停止爬虫

良好的用户体验

25、蜘蛛网

SpiderNet是一个多线程网络爬虫，以递归树为模型，支持文本/ html资源的检索。您可以设置爬网深度，最大下载字节限制，支持gzip解码，支持以gbk（GB2312）和utf8编码的资源;存储在SQLite数据文件中

源代码中的 TODO：标签描述了未完成的函数，您要提交代码

26、网络爬虫

Mart and Simple Web Crawler是一个Web爬虫框架。集成的 Lucene 支持。爬网程序可以从单个链接或链接数组开始，提供两种遍历模式：最大迭代和最大深度。您可以设置过滤器来限制爬回的链接，默认情况下提供三个过滤器 ServerFilter、BeginningPathFilter 和 RegularExpressionFilter，它们可以与 AND、OR 和 NOT 结合使用。可以在解析之前和之后或在页面加载之前和之后添加侦听器。介绍来自 Open-Open

27. 网络矿工

网站数据收集软件网络矿工收集器（原Soukey拾取）。

搜基采摘网站数据采集软件是

基于.Net平台的开源软件，也是网站数据采集软件类型中唯一的开源软件。虽然Soukey选择开源，但并不影响软件功能的提供，甚至比一些商业软件的功能还要丰富。

PHP 爬虫

28、开放网络蜘蛛

OpenWebSpider是一个开源的多线程网络蜘蛛（robot：robot，crawler：crawler）和搜索引擎，具有许多有趣的功能。

29、PhpDig

PhpDig是一个使用PHP开发的网络爬虫和搜索引擎。通过索引动态和静态页面来构建词汇表。搜索查询时，它会显示包含特定排序规则中的关键字的搜索结果页。PhpDig包括一个模板系统，能够索引PDF，Word，Excel和PowerPoint文档。PHPdig适用于更专业、更深入的个性化搜索引擎，是用它来构建某个领域的垂直搜索引擎的最佳选择。

演示：

30、思考

ThinkUp是一个社交媒体视角引擎，可以从Twitter和Facebook等社交网络收集数据。交互式分析工具，可从个人的社交网络帐户收集数据，对其进行存档和处理，并可视化数据以便更直观地查看。

31. 微购

微购社交购物系统是基于ThinkPHP框架开发的开源购物分享系统，也是一套面向站长和开源的淘宝网站程序，集成了淘宝、天猫、淘宝等300多个商品数据采集接口，为广大淘宝站长提供傻瓜式淘宝建站服务，会HTML会做程序模板，免费开放下载，是广大淘宝站长的首选。

二郎爬虫

32、电子机器人

Ebot是一个可扩展的分布式网络爬虫，用ErLang语言开发，URL存储在数据库中，可以通过RESTful HTTP请求进行查询。

红宝石爬虫

33、斯皮德

Spidr 是一个 Ruby 网络爬虫库，可以完全在本地抓取整个网站、多个网站和一个链接。

相关文章