快捷导航

查看数据结果

2016-9-28 11:40| 发布者: ym| 查看: 45254| 评论: 8

摘要: 采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中,在DS打数机的文件菜单-存储路径中可以找到文件路径。 在对应主题名的子文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的, ...

配套软件版本:V9及更低 集搜客网络爬虫

新版本对应教程:V10及更高 数据管家——增强版网络爬虫  的对应教程是《打包下载Excel格式的采集结果数据


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

1. 采集结果存储位置

打数机采集下来的数据保存在哪里?在DS打数机的文件菜单->存储路径中可以找到文件路径。采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中。


2. 采集结果文件格式

在对应主题名的文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的,一页会生成一个xml文件。

注意:一个文件夹默认存储10000个xml文件,超过的话就会创建一个子文件夹m,继续存储新的xml文件,如需修改这个存储量的大小,请到DS打数机的文件菜单->存储路径里修改文件数量。


3. 采集结果文件处理方法

xml文件可以用浏览器、记事本、excel打开,通过一些工具可以转为其他文件格式。例如:用集搜客会员中心的数据管理功能可以转换为excel格式,操作见《xml转为excel》,可以得到如下图的数据表。

Tips:转为excel或其他格式可以方便导入到自己的数据库。


上篇文章:《DS打数机采集数据》                                                                           下篇文章:《xml转为excel》



若有疑问可以集搜客爬虫软件
11

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (11 人)

相关阅读

发表评论

最新评论

评论 bowieD 2017-12-7 09:19
KE_WEI: 生成的XML文件,用浏览器打开还是一堆乱码
是不是采集的网页片段,如果是网页片段,看起来会比较乱,转成excel就好了。
评论 KE_WEI 2017-12-6 22:02
生成的XML文件,用浏览器打开还是一堆乱码
评论 shengchengx 2017-8-10 14:07
木可: 没有保存的数据是怎么回事呢
看看是不是规则有问题
评论 木可 2017-8-10 13:20
没有保存的数据是怎么回事呢
评论 shenzhenwan10 2017-4-27 18:05
3085775941: 如果这样操作只输出一行数据,那我算是成功了
为什么只输出一行数据算成功?
评论 3085775941 2017-4-27 17:42
如果这样操作只输出一行数据,那我算是成功了
评论 shenzhenwan10 2017-3-25 13:45
byjinhit: 方式2 为啥一直不成功
做什么操作不成功?
评论 byjinhit 2017-3-25 12:28
方式2 为啥一直不成功

查看全部评论(8)

GMT+8, 2024-3-19 11:13