瀑布流数据重复

加为好友

你好，我在wish这个网站进行产品评论采集时，第一级网页是瀑布流的形式，每次滚屏采集到的XML文件内容前半部分产品链接都是重复的，该如何处理？这是否会导致第二级采集评论时候也会重复采集？

scraper · 发表于 2016-10-18 19:48:36

瀑布流是会重复采集的最后导入excel去重就可以了
第二级不会重复采集的因为第二级的线索程序会自动去重的相同网址只存在一个

beanbing · 发表于 2016-10-19 10:02:53

针对这种瀑布流的如何采集呢？不能翻页呀？刷到底再进行采集？这种不现实吧（数据太多了）

Fuller · 发表于 2016-10-19 10:06:45

beanbing 发表于 2016-10-19 10:02
针对这种瀑布流的如何采集呢？不能翻页呀？刷到底再进行采集？这种不现实吧（数据太多了） ...

不能刷到底，要用连续动作的滚屏功能，滚一屏抓一次，具体参看应用场景二：http://www.gooseeker.com/doc/article-141-1.html

共 3 个关于本帖的回复最后回复于 2016-10-19 10:06

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页