11#
15189823636 新手上路 发表于 2018-11-19 20:40:19 | 只看该作者
第二条如果设置position>n,是不是就可以从第n页开始采集了
举报 使用道具
12#
maomao 论坛元老 发表于 2018-11-19 21:08:01 | 只看该作者
15189823636 发表于 2018-11-19 20:40
第二条如果设置position>n,是不是就可以从第n页开始采集了

翻页不要用这个连续动作,很不好控制的,用翻页采集:https://www.gooseeker.com/doc/article-334-1.html
翻页采集有两种:
1,根据翻页记号,比如“下一页”这样的记号
2,相对翻页:比如,只有 1,2,3,4这样的页码
这两种情况几乎覆盖了所有翻页情况。

用连续动作的话,你要写xpath,这个xpath刚好定位到“下一页”那个按钮上。在高级选项那里设置点击次数为-1,就是无数次,但是为了让爬虫停下来,就要设置重复内容中断,是在DS打数机菜单 高级-》终点标志-》重复内容 上设置
举报 使用道具
13#
15189823636 新手上路 发表于 2018-11-19 21:23:34 | 只看该作者
maomao 发表于 2018-11-19 21:08
翻页不要用这个连续动作,很不好控制的,用翻页采集:https://www.gooseeker.com/doc/article-334-1.html ...

因为我要采集微博的转发数据,但是翻页太多会中断,又无法通过url定位。所以用连续动作直到上次中断的页码再进行采集,是否可行?
举报 使用道具
14#
maomao 论坛元老 发表于 2018-11-19 23:16:40 | 只看该作者
15189823636 发表于 2018-11-19 21:23
因为我要采集微博的转发数据,但是翻页太多会中断,又无法通过url定位。所以用连续动作直到上次中断的页 ...

这样做的作用跟从头在执行一遍翻页是一样的,就从头执行一遍吧
举报 使用道具
15#
goodhanbin 中级会员 发表于 2019-12-17 13:16:27 | 只看该作者
maomao 发表于 2018-11-19 21:08
翻页不要用这个连续动作,很不好控制的,用翻页采集:https://www.gooseeker.com/doc/article-334-1.html ...

重复点击次数设置为-1,只是点一次,就跳过了,其他几页未采到
举报 使用道具
16#
goodhanbin 中级会员 发表于 2019-12-17 13:33:50 | 只看该作者
maomao 发表于 2018-11-19 23:16
这样做的作用跟从头在执行一遍翻页是一样的,就从头执行一遍吧

连续动作翻页,在第二级规则,第6-7页,不断重复采集,
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 11:32