集搜客GooSeeker网络爬虫
标题:
天猫数据采集
[打印本页]
作者:
lvkunjxk
时间:
2017-12-27 13:18
标题:
天猫数据采集
今天使用爬虫路径的方式采集天猫数据,采集前100页,但是到了100页的时候,记号标识“下一页”并没有变成灰色,如果抓的话,又回到第一页重复抓了,请问,如何让爬虫抓到100页的时候,就停下来呢》?
作者:
bowieD
时间:
2017-12-27 14:04
本帖最后由 bowieD 于 2017-12-27 14:06 编辑
为记号线索的存在,爬虫会一直做翻页动作而不停止。
解决办法:
1)通过“单搜”/“集搜”采集的话,要设置DS打数机的高级菜单->勾上重复内容,这样的话,当一个页面重复采集达到3次,爬虫就会停止采集该网址,然后跳到采集下一条网址。最后,可以通过excel过滤掉重复的数据。
[attach]8597[/attach]
2)通过爬虫群采集的话,要在规则的调度中把重复内容中断选择为是。
[attach]8598[/attach]
作者:
谢蜜胖
时间:
2023-2-2 16:22
选了全部采集,但是为啥只能采集到80条
作者:
maomao
时间:
2023-2-2 17:03
谢蜜胖 发表于 2023-2-2 16:22
选了全部采集,但是为啥只能采集到80条
采集之前,在数据管家打开tb,并且登陆一个tb账号
作者:
18318843028
时间:
2023-2-23 21:56
maomao 发表于 2023-2-2 17:03
采集之前,在数据管家打开tb,并且登陆一个tb账号
天猫只能看两页评论,后面的评论只能手机上查看,怎么解决?
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2