本帖最后由 TYEd_傑 于 2019-2-18 13:40 编辑

大神们,在抓取淘宝数据的时候,抓取过程中显示需要认证,然后就一直重复在抓重复的数据,跳转不了下一页,请问怎么解决呢?操作步骤是这样的:   

第一步:搜索关键词;
第二步:进行翻页操作;
第三步:抓取到一半的时候,平台跳出需要验证的信息,然后gooseeker就一直抓取重复的数据。

1550468105(1).jpg (83.52 KB, 下载次数: 503)

1550468105(1).jpg
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-9-9 15:40

沙发
Fuller 管理员 发表于 2019-2-18 14:16:42 | 只看该作者
淘宝和天猫的关键词搜索对网络爬虫封锁很厉害,翻页没有多久就会出现滑块验证,要手工滑,滑几次就不让采集了。目前这个没有办法突破,可以换IP地址,清理缓存和cookie,换另外的淘宝账号,用这些手段能减缓一些。

为了解决重复抓取问题,用DS打数机菜单 高级-》终点标志-》重复内容,选上以后就会自动中断
举报 使用道具
板凳
maomao 论坛元老 发表于 2019-9-9 15:40:10 | 只看该作者
集搜客有淘宝快捷采集工具,下载爬虫软件后,输入淘宝网址,即可采集。注意,采集淘宝之前,要先在集搜客浏览器登录淘宝。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 15:17