快捷导航
我的第一级任务名是问大家01,线索为  https://m.tb.cn/h.VP4czID  其下级任务名是问大家01第二级。
第一级任务连续动作设置了每次滚屏数10,总共滚屏数-1.打数机滚屏次数0,滚屏速度2,设置了终止标志位重复内容。
爬第一级任务发现页面没有滚屏,直接报因发现重复内容,连续动作被中断。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-5-26 18:14

wangyong 版主 发表于 2020-5-26 08:24:06 | 显示全部楼层
这个手机版的网页得用连续动作里的滚轮动作才能实现滚屏,参考教程:https://www.gooseeker.com/doc/article-408-1.html
举报 使用道具
18042659925 中级会员 发表于 2020-5-26 15:39:28 | 显示全部楼层
wangyong 发表于 2020-5-26 08:24
这个手机版的网页得用连续动作里的滚轮动作才能实现滚屏,参考教程:https://www.gooseeker.com/doc/articl ...

教程里面教了高级设置的滚轮区域,但是如何设置定位表达式呢
举报 使用道具
Fuller 管理员 发表于 2020-5-26 15:45:44 | 显示全部楼层
18042659925 发表于 2020-5-26 15:39
教程里面教了高级设置的滚轮区域,但是如何设置定位表达式呢

如果一个区域中的内容能单独滚动,右边有可能会有滚动条,也可能没有。这个区域可能是用一个div表示的,那么定位表达式就是这个div的xpath。

还有其他参数,比如,定位的比例,就是决定鼠标放在这个div的方形区域中大概哪个位置。这个设置通常不重要,但是,万一中心位置上有一个别的html元素覆盖了这个滚动区域,就需要用定位比例参数把鼠标放在其他地方。

注意,实际上是看不到鼠标的光标的
举报 使用道具
18042659925 中级会员 发表于 2020-5-26 16:10:20 | 显示全部楼层
Fuller 发表于 2020-5-26 15:45
如果一个区域中的内容能单独滚动,右边有可能会有滚动条,也可能没有。这个区域可能是用一个div表示的, ...

我现在的规则里有一个二级任务,它点进去采集二级任务之后不返回到一级任务继续做,直接任务完成了,也没有滚屏。
举报 使用道具
Fuller 管理员 发表于 2020-5-26 16:34:26 | 显示全部楼层
18042659925 发表于 2020-5-26 16:10
我现在的规则里有一个二级任务,它点进去采集二级任务之后不返回到一级任务继续做,直接任务完成了,也没 ...

我测试了这个规则,这个网页应该使用 点击和回退,但是,你即使购买了旗舰版,有了回退功能,也很难采集全,因为在第二级执行回退以后,回到第一级,又只显示一开始的几个问题,就是说,回退以后不能保持在你当时点击的那个位置上。 所以,用这个通用版本爬虫采集不全
举报 使用道具
18042659925 中级会员 发表于 2020-5-26 16:44:50 | 显示全部楼层
Fuller 发表于 2020-5-26 16:34
我测试了这个规则,这个网页应该使用 点击和回退,但是,你即使购买了旗舰版,有了回退功能,也很难采集 ...

那我应该怎么办呢
举报 使用道具
Fuller 管理员 发表于 2020-5-26 18:14:17 | 显示全部楼层
18042659925 发表于 2020-5-26 16:44
那我应该怎么办呢

这个网页我看不到好的采集方法,要专门定制程序,就太麻烦了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 13:01