下级页面数和统计下及线索数不一致

乡下人0004

我看了下抓取后的结果文件，1000个下级线索是都抓取到了的，但在二级页面抓取时，统计线索却只有400多条呢？

xandy · 发表于 2017-1-4 11:01:47

本帖最后由 xandy 于 2017-1-4 14:37 编辑

可能有几个原因：
1、你做的规则不适用，导致网址漏采了，你要回去抽样检查下结果文件，看网址是否漏采了；
2、下级线索的网址太长，如果超过255个字符，网址之间的区别是在255个字符之后，就区分不出来，这样导致部分网址是重复的，而下级线索是会自动去重的；
3、采集到的网址本身就是有重复的，和原因2一样，这样统计的线索数就会减少。

sanmuluoluo · 发表于 2017-1-4 14:39:34

遇到了同样的问题，检查后感觉并不是上述原因。

xandy · 发表于 2017-1-4 14:41:38

sanmuluoluo 发表于 2017-1-4 14:39
遇到了同样的问题，检查后感觉并不是上述原因。

3种原因都认真排查一下，因为有那么多的话肯定会采集到的

xandy · 发表于 2017-1-4 15:06:10

应用场景参看：《抓取了1000个网址作为下级线索，但二级页面抓取时统计线索只有400多条？》

下级页面数和统计下及线索数不一致

共 4 个关于本帖的回复最后回复于 2017-1-4 15:06

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

下级页面数和统计下及线索数不一致

共 4 个关于本帖的回复 最后回复于 2017-1-4 15:06

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2017-1-4 15:06