我在做两层数据采集时,出现上级线索采集正常不重复,下次线索采集时在excel里删除重复项却删掉了一万多条记录(总共18596条记录),请问这是什么原因呢?

下级规则名称是:私募基金管理人信息抓取A

上级规则名称是:私募基金管理人列表抓取A(已重新编辑把下级线索名称改了,打算再另外试一下)。

过程描述:
在DS谋数台中单搜抓取了所有的列表信息(含机构名称及跳转链接),此步骤正常;
列表信息采集完毕后,在爬虫群调度中把下级规则添加进去,启用了两个爬虫,同时抓取数据,但没有勾选自动入库;
数据抓取完毕后,因单个zip大小的缘故,分成两次导入,一次一万条记录,一次剩下的8596条记录;
系统自动xml转excel后,导出数据发现存在大量重复。

求解,谢谢

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-5 09:10

沙发
Fuller 管理员 发表于 2017-4-3 15:48:41 | 只看该作者
我加载看了,你现在是用第一级生成第二级线索,不用手工导入线索了。你统计一下第二级线索的数量,第二级线索是不会重复的,是否与你的结果数量一样?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-3 15:51:51 | 只看该作者
你做重复判断的时候,采用什么依据?我现在还没有测试完,但是根据现在的进度看,似乎第二级网址数量是正常的,没有重复
举报 使用道具
地板
willcui 新手上路 发表于 2017-4-3 17:34:35 | 只看该作者
本帖最后由 willcui 于 2017-4-3 17:36 编辑
Fuller 发表于 2017-4-3 15:51
你做重复判断的时候,采用什么依据?我现在还没有测试完,但是根据现在的进度看,似乎第二级网址数量是正常 ...

DS打数机中,第二级统计线索时数量是对的,数据跑完导入系统再到处excel发现有重复,而且重复的不规律,有些重复2次,有些重复3次。

我在跑第二轮,再试一下,开了6个爬虫,希望可以顺利。

PS.目前没有在数据抓取过程中设置判断重复,理论上照着第一级线索爬数据的话不会重复吧?
举报 使用道具
5#
Fuller 管理员 发表于 2017-4-3 17:49:46 | 只看该作者
willcui 发表于 2017-4-3 17:34
DS打数机中,第二级统计线索时数量是对的,数据跑完导入系统再到处excel发现有重复,而且重复的不规律,有 ...


你把爬虫群的滚屏功能打开吧,注意对照这几个参数,这样能放慢抓取速度,很可能抓取的时候,新网页内容还没有加载上来就启动抓取了,把上页的内容抓下来了
举报 使用道具
6#
willcui 新手上路 发表于 2017-4-3 21:23:03 | 只看该作者
Fuller 发表于 2017-4-3 17:49
你把爬虫群的滚屏功能打开吧,注意对照这几个参数,这样能放慢抓取速度,很可能抓取的时候,新网页内容 ...

好建议,的确存在页面加载不全而抓取错误的可能,下次留意这个。

前面提到的二度尝试,开了6个爬虫,有58条抓取失败,激活失败线索后,现在都顺利爬到咯,运气不错。

多谢指导,GooSeeker的功能很强大,交流区也很方便,照着教程一点点学,还是很快的,软件做的不错!

话说,充了专业版,也不能清空规则里的数据吗?每次只能重新建个规则导进去?

举报 使用道具
7#
Fuller 管理员 发表于 2017-4-3 21:36:57 | 只看该作者
willcui 发表于 2017-4-3 21:23
好建议,的确存在页面加载不全而抓取错误的可能,下次留意这个。

前面提到的二度尝试,开了6个爬虫,有5 ...

为什么要清空规则的数据?因为数据量达到了专业版上限吗?有三种应对方案
1,购买更大的数据仓库
2,购买仓库清扫
3,购买旗舰版,是无限量的。

当然,换个主题名又可以获得新的存储容量,也算作一个方案吧。
举报 使用道具
8#
willcui 新手上路 发表于 2017-4-5 08:53:11 | 只看该作者
Fuller 发表于 2017-4-3 21:36
为什么要清空规则的数据?因为数据量达到了专业版上限吗?有三种应对方案
1,购买更大的数据仓库
2,购买 ...

仓库清扫是容量达到上限时会出来的功能,买了专业版后,记录数量没有达到上限,但是比如出现前面导入的数据存在错误需要删除时,却无法实现,只能重新复制规则了。部分情况下,甚至得重新编辑规则,因为有些通过xpath抓取的数据,后续分析时会丢失定位线索。
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-5 09:10:39 | 只看该作者
willcui 发表于 2017-4-5 08:53
仓库清扫是容量达到上限时会出来的功能,买了专业版后,记录数量没有达到上限,但是比如出现前面导入的数 ...

如果规则改变了,而且改变的很大,很可能会影响到导入和导出,因为表的结构都不一样了。所以,如果表结构都变化了,最好另存一个规则,如果觉得以前那个规则放在那里碍事,可以删除规则
万一不小心把规则改了,有特别想要以前导入的数据,可以发帖说明一下,我们可以协助解决。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 05:28