软件推荐丨GoldDataSpider —— 网页数据抽取工具

如题所述

第1个回答  2022-06-23
GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。

该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。

该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据字段,比如某些字段需要向词典提供翻译这样的字段等等。

该项目还可支持从各种类型文档抽取数据,比如html/xml/json/javascript/text等。

我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数量不受限、导出数据数量不受限的完全免费金色数据平台社区版 。以及详尽的文档

使用入门

首先,我们需要将依赖加入项目当中,如下:

1、对于maven项目

2、对于gradle项目

然后你将可以使用该依赖所提供的简洁清晰的API,如下:

运行上面的测试,你将可以看类似下面的输出:

当作Service或者API使用

你可以在项目中,可以当作调用服务和API使用。例如如下:

对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍 ,详情见官网!

免费社区版:

开源/免费

让用户更好理解和使用产品

我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。 让用户在各种场景应用金色数据采集带来的便利,我们有信心让客户见到一个开放的数据平台,让用户放心/省心/省力。

自由/灵活

透出一股强大的采集核心

我们的采集器,将向用户暴露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各种解析工具和函数,让用户不仅能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。

分布式采集

私有云,更灵活,更安全,更放心

可以根据自身需求,随意部署采集器数量,7*24小时不间断运行,采集后端集中灵活控制。可自由指挥数据在哪个采集器采集。可定义定时采集,无需人员值守。

数据可关联可追踪

恢复/重建数据内在与外在价值

可以让每条数据随着目标网站目标内容更新(如商品价格)、而更新用户应用表该条数据相关字段内容。

非侵入式融合

融合从未如此现实和简单

完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。

自动化/一体化

无需人力操作,即抓即用

不只是采集可以自动化抓取,融合也提供了手动化和强大自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!

点击下方链接,获取软件下载地址↓↓↓

GoldDataSpider首页、文档和下载 - 网页数据抽取工具 - 开源中国