集搜客GooSeeker网络爬虫

标题: 按照教程做的翻页采集只能在第一二页之间翻是为什么啊 [打印本页]

作者: 178721    时间: 2022-4-18 18:22
标题: 按照教程做的翻页采集只能在第一二页之间翻是为什么啊
[attach]15434[/attach]
任务名称是“前程无忧lrh”

作者: 178721    时间: 2022-4-18 18:36
网页是前程无忧的职位搜索页面,我登录后进去看到的网址是https://search.51job.com/list/180200,000000,0000,00,9,99,%2B,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
救救孩子吧
作者: Fuller    时间: 2022-4-18 18:41
需要一点技巧:
1. 翻页标志可以使用@class值。这个网页上表示下一页的按钮是一个 > 符号,这是用class值表示的。那么就用这个@class属性做下一页标志。
2. 但是,这个网页上的向前翻页标志 < ,他们有相同的class值,就分不开了。那么,就缩小翻页区,用红框那个节点作为翻页区


[attach]15435[/attach]

作者: wangyong    时间: 2022-4-19 18:30
[attach]15444[/attach]
做两个修改:
1,按照图中的描述选择class='next'的LI节点做翻页区域映射
2,勾上模拟点击
这样就可以成功翻页了





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2