集搜客GooSeeker网络爬虫

标题: 采集结果里面有DSEngine和ds_browser_sample,这是什么东西 [打印本页]

作者: umsung    时间: 2017-11-30 15:06
标题: 采集结果里面有DSEngine和ds_browser_sample,这是什么东西
如图,不知道是不是我的规则有问题?

作者: bowieD    时间: 2017-11-30 15:07
本帖最后由 bowieD 于 2017-11-30 15:08 编辑

通常情况下,这些字段可以忽略,这些字段都是用来关联多个结果文件,或者关联多层结果文件用的,还有更多字段,具体参看《XML文件结构

从8.0.3版本开始,增加了两个字段 <prestamp> 和 <currentstamp>。这两个字段的内容格式完全一样,都是三段组成,中间用符号-+-分割,内容含义是:爬虫名称-+-DS打数机窗口名称-+-时间戳如果有连续动作,尤其是连发弹仓的连续输入,他们的线索编号不变,也就是结果文件中的clueid不变,以前版本的字段无法把动作前和动作后的结果文件关联起来,如果再加上飞掠功能,窗口都是新的了,就更难把上下级的结果文件匹配起来。所以引入了这两个字段,分别表示上一级的窗口信息和本级的窗口信息

prestamp:记录了抓取上级线索时的爬虫名称、窗口名称和时间戳。
currentstamp:记录了抓取当前结果文件的爬虫名称、窗口名称和时间戳

如果你不做文件匹配,就不用管他们






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2