快捷导航
10 16792

滚屏只滚一次

数据菊 于 2020-5-30 03:40 发表 [复制链接]
捕获.PNG 捕获2.PNG 捕获3.PNG
录屏在附件里。我需要滚屏结束后采集全部信息,所以关键信息设置成“没有更多了”。但是实际采集的时候我在浏览器和连续动作都设置滚屏,爬虫还是只滚一次。我手动滚到底就可以采集了,自动的就不行了。

907769f892815c2e568a1cfd0ad3703f.rar

1.69 MB, 下载次数: 1

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2020-5-31 11:30

Fuller 管理员 发表于 2020-5-30 09:14:20 | 显示全部楼层
滚屏和连续动作不能同时用,连续动作滚屏优先于普通的滚屏。

如果网页能够滚动到“没有更多了”,那么就不要开连续动作的滚屏。就用普通滚屏。滚屏次数设置大一点,比如,20。实际上并不是20次,而是发现网页再不加载新内容的时候额外再滚20次。除非遇到特殊的网页,这种判断偶尔会失效。
举报 使用道具
数据菊 中级会员 发表于 2020-5-30 11:22:09 | 显示全部楼层
Fuller 发表于 2020-5-30 09:14
滚屏和连续动作不能同时用,连续动作滚屏优先于普通的滚屏。

如果网页能够滚动到“没有更多了”,那么就不 ...

1.PNG 2.PNG 3.PNG

我刚开始就是只在调度里设置了滚屏,发现不行再去做连续动作的。现在把连续动作删了,也还是只滚一次。
举报 使用道具
Fuller 管理员 发表于 2020-5-30 12:53:12 | 显示全部楼层
数据菊 发表于 2020-5-30 11:22
我刚开始就是只在调度里设置了滚屏,发现不行再去做连续动作的。现在把连续动作删了,也还是只滚一次。 ...

这是哪个网页?把网址发出来看看
举报 使用道具
数据菊 中级会员 发表于 2020-5-30 14:13:29 | 显示全部楼层
Fuller 发表于 2020-5-30 12:53
这是哪个网页?把网址发出来看看

https://ask.dxy.com/ama/index#/find/user/3144218/public-issue
主题名叫问题列表页日期
举报 使用道具
数据菊 中级会员 发表于 2020-5-30 14:49:08 | 显示全部楼层
Fuller 发表于 2020-5-30 12:53
这是哪个网页?把网址发出来看看

https://ask.dxy.com/ama/index#/find/user/17214799/comment 这个网址也滚不到底,只滚2次。主题名叫评论列表页。
举报 使用道具
Fuller 管理员 发表于 2020-5-30 22:48:14 | 显示全部楼层
数据菊 发表于 2020-5-30 14:13
https://ask.dxy.com/ama/index#/find/user/3144218/public-issue
主题名叫问题列表页日期

我测试了这个网页,用集搜客网络爬虫软件就能采集,不用采摘浏览器软件。我测试了一下,滚屏次数设置到30就足够了
举报 使用道具
Fuller 管理员 发表于 2020-5-30 22:50:29 | 显示全部楼层
数据菊 发表于 2020-5-30 14:49
https://ask.dxy.com/ama/index#/find/user/17214799/comment 这个网址也滚不到底,只滚2次。主题名叫评论 ...

评论列表页 这个规则没有搜到
举报 使用道具
数据菊 中级会员 发表于 2020-5-31 01:23:44 | 显示全部楼层
Fuller 发表于 2020-5-30 22:50
评论列表页 这个规则没有搜到

打错了,这个叫评价列表页
举报 使用道具
Fuller 管理员 发表于 2020-5-31 10:10:03 | 显示全部楼层
数据菊 发表于 2020-5-31 01:23
打错了,这个叫评价列表页

我测试滚屏没有问题。

你的规则里面有一个抓取内容:滚屏结束标志

如果滚屏不到底,这个标志就看不到,那么采集就会失败。如果网页特别长,就要适当调大超时时长,不然,还没有滚到出现结束标志,就超时抓取失败了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 12:13