集搜客GooSeeker网络爬虫

标题: 翻页采集 [打印本页]

作者: ym    时间: 2015-10-22 18:08
标题: 翻页采集
本帖最后由 ym 于 2016-12-23 14:34 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集
一、设置翻页
二、控制翻页数量
三、翻页失败怎么破
四、合并翻页数据
五、其他

作者: hooan2006    时间: 2016-10-19 20:25
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&page=7,显示:抓取失败(超时),....,请问我怎么检查问题,并修正?我是新手
作者: Fuller    时间: 2016-10-19 21:28
hooan2006 发表于 2016-10-19 20:25
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&pag ...

肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,
2)MS谋数台工具条中间的“内容定位”不要选
3)在MS谋数台的浏览器中翻页,翻到7
4)选择菜单 规则-》刷新网页结构
5)选择菜单 规则-》分析页面
看看报什么错误,一般来说,会报告第几个抓取内容没有定位到,然后就分析为什么那个抓取内容定位不到了,怎样把抓取规则调整得更加优适应性
作者: lxacoder    时间: 2016-12-1 11:51
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采用的相对线索,当前位置和下一页位置定位定的是text()文本,虽然说下一页也有@href属性有调到下一页的网址。
作者: ym    时间: 2016-12-1 17:15
本帖最后由 ym 于 2017-4-21 09:51 编辑
lxacoder 发表于 2016-12-1 11:51
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采 ...

激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址的话,你可以查看最新抓到的xml文件,里面的pageno记录了页码,fullpath字段记录了页面网址,你把这个网址添加到规则里,就可以从断掉的页码那里开始采集了。


作者: lxacoder    时间: 2016-12-2 13:15
ym 发表于 2016-12-1 17:15
激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址 ...

哎。。能不能教我一下你的那个《汽车采集——帖子详情》怎么弄得啊。网页结构楼主和层主结构不一样,我定位标志设置了//div[@class="clearfix contstxt outer-section"]这个还是不行,500积分好贵啊。。。跪求指导

作者: TAN黄金分割线    时间: 2017-3-4 08:52
第6666个
作者: caowenlin    时间: 2017-4-19 21:25
Fuller 发表于 2016-10-19 21:28
肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,

我的是网页结构发生了变化,这样的情况该怎么处理?

作者: Fuller    时间: 2017-4-19 22:02
caowenlin 发表于 2017-4-19 21:25
我的是网页结构发生了变化,这样的情况该怎么处理?

到第二页网页结构变化了?如果变换不大,设法调整规则,让规则适用于两种网页。如果确实无法适用,那么就在同一个主题名下定义两个规则,DS打数机运行的时候会自动选择

作者: caowenlin    时间: 2017-4-20 20:53
我现在的情况是爬取微博内容时展开更多按钮不知道怎么处理
作者: Fuller    时间: 2017-4-20 23:32
caowenlin 发表于 2017-4-20 20:53
我现在的情况是爬取微博内容时展开更多按钮不知道怎么处理

[attach]6225[/attach]
使用连续动作的点击动作,参看高级教程的连续动作章节

作者: cq_GooSeeker    时间: 2017-6-23 16:27
标记
作者: Jason7227    时间: 2018-3-5 22:14
想问一下,这个网站是自动翻页的怎么解决。就是通过滑轮滑动翻页的
作者: maomao    时间: 2018-3-5 22:30
Jason7227 发表于 2018-3-5 22:14
想问一下,这个网站是自动翻页的怎么解决。就是通过滑轮滑动翻页的

你说的网页应该是瀑布流式的网页,用连续动作中的连续滚屏动作:http://www.gooseeker.com/doc/article-373-1.html

如果普通的连续滚屏还不行,那就要用滚轮动作,只有旗舰版才能用。你先用滚屏动作试试





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2