采集页面:https://tao.1688.com/page/28d2b9ce.html

采集内容:商品列表属性

度娘说该页面应用懒加载技术,咱也不懂,问题就是滚动到底部,上面的商品就不加载实际数据,怎么抓都没办法把商品全部抓取,请大神指点一下,谢谢了
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-9-26 12:01

沙发
shenzhenwan10 金牌会员 发表于 2018-9-25 14:14:37 | 只看该作者
你可以用集搜客爬虫的连续动作试试, 在连续动作里定义"滚屏"动作

举报 使用道具
板凳
文学作品动态扫描 金牌会员 发表于 2018-9-25 22:38:04 | 只看该作者
集搜客网络爬虫不论快加载还是懒加载,都一样抓取,在DS打数机上有个菜单 配置-》自动滚屏,把滚屏次数设置成>0的数字,就能自动滚屏,懒加载的内容如果没有滚动到显示位置是不加载的,所以要用自动滚屏
举报 使用道具
地板
hxb1019 新手上路 发表于 2018-9-25 23:08:32 | 只看该作者
shenzhenwan10 发表于 2018-9-25 14:14
你可以用集搜客爬虫的连续动作试试, 在连续动作里定义"滚屏"动作

谢谢解答,用了连续滚屏抓取了,比原来彩的多了,不过同时也出现了漏数据和重复数据的问题,不断调整每次滚屏数,时间,总屏还是一样的问题,请问还有没有方法解决抓漏跟重复的问题
举报 使用道具
5#
hxb1019 新手上路 发表于 2018-9-25 23:12:30 | 只看该作者
本帖最后由 hxb1019 于 2018-9-25 23:13 编辑
文学作品动态扫描 发表于 2018-9-25 22:38
集搜客网络爬虫不论快加载还是懒加载,都一样抓取,在DS打数机上有个菜单 配置-》自动滚屏,把滚屏次数设置 ...

这个一开始就是先滚到底的,但只能抓取到最底下一屏的数据,滚上去的又变回了一张图片,要抓取的数据都没了。后来改为连续动作,边滚屏边抓取,又出现漏抓跟重复抓取问题
举报 使用道具
6#
tuesday1 初级会员 发表于 2018-9-26 12:01:35 | 只看该作者
hxb1019 发表于 2018-9-25 23:12
这个一开始就是先滚到底的,但只能抓取到最底下一屏的数据,滚上去的又变回了一张图片,要抓取的数据都没 ...

连续动作滚屏一定会抓到重复数据的,因为每滚动一次就抓一次,当前页面上不可能只加载本屏的,还会加载上下其它屏,所以结果文件一定有重叠

至于漏数据,是规则的适应性不高,我帮你看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 22:22