快捷导航

查看数据结果

2016-9-28 11:40| 发布者: ym| 查看: 12566| 评论: 6

摘要: 采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中,在DS打数机的文件菜单-存储路径中可以找到文件路径。 在对应主题名的子文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的, ...

1. 采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中,在DS打数机的文件菜单->存储路径中可以找到文件路径。另外关于xml文件请查阅《xml文件结构怎么看》


2. 在对应主题名的文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的,一个网页会生成一个xml文件,如果涉及到翻页采集,就会对应每一页得到N个xml文件,所以,并不是按网址生成xml文件的。

注意:一个文件夹默认存储10000个xml文件,超过的话就会创建一个子文件夹m,继续存储新的xml文件,如需修改这个存储量的大小,请到DS打数机的文件菜单->存储路径里修改。


3. xml文件可以用浏览器、记事本、excel打开,通过一些工具可以转为其他文件格式。例如:用集搜客会员中心的数据管理功能可以转换为excel格式,操作见《xml转为excel》,可以得到如下图的数据表。

Tips:转为excel或其他格式可以方便导入到自己的数据库。


上篇文章:《DS打数机采集数据》                                                                           下篇文章:《xml转为excel》



若有疑问可以集搜客爬虫软件
5

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (5 人)

相关阅读

发表评论

最新评论

评论 shengchengx 2017-8-10 14:07
木可: 没有保存的数据是怎么回事呢
看看是不是规则有问题
评论 木可 2017-8-10 13:20
没有保存的数据是怎么回事呢
评论 shenzhenwan10 2017-4-27 18:05
3085775941: 如果这样操作只输出一行数据,那我算是成功了
为什么只输出一行数据算成功?
评论 3085775941 2017-4-27 17:42
如果这样操作只输出一行数据,那我算是成功了
评论 shenzhenwan10 2017-3-25 13:45
byjinhit: 方式2 为啥一直不成功
做什么操作不成功?
评论 byjinhit 2017-3-25 12:28
方式2 为啥一直不成功

查看全部评论(6)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-18 19:47