我在做两层数据采集时,出现上级线索采集正常不重复,下次线索采集时在excel里删除重复项却删掉了一万多条记录(总共18596条记录),请问这是什么原因呢?
下级规则名称是:私募基金管理人信息抓取A
上级规则名称是:私募基金管理人列表抓取A(已重新编辑把下级线索名称改了,打算再另外试一下)。
过程描述:
在DS谋数台中单搜抓取了所有的列表信息(含机构名称及跳转链接),此步骤正常;
列表信息采集完毕后,在爬虫群调度中把下级规则添加进去,启用了两个爬虫,同时抓取数据,但没有勾选自动入库;
数据抓取完毕后,因单个zip大小的缘故,分成两次导入,一次一万条记录,一次剩下的8596条记录;
系统自动xml转excel后,导出数据发现存在大量重复。
求解,谢谢
|
|
|
|
|
共 8 个关于本帖的回复 最后回复于 2017-4-5 09:10