翻页采集

ym

本帖最后由 ym 于 2016-12-23 14:34 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集
一、设置翻页

二、控制翻页数量

三、翻页失败怎么破

四、合并翻页数据

五、其他

hooan2006 · 发表于 2016-10-19 20:25:03

我在爬取客车等级数据，参照教程，用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&page=7，显示：抓取失败（超时），....,请问我怎么检查问题，并修正？我是新手

Fuller · 发表于 2016-10-19 21:28:04

hooan2006 发表于 2016-10-19 20:25
我在爬取客车等级数据，参照教程，用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&pag ...

肯定是到第7页以后网页结构变化了。

1）用MS某数台把规则加载上来，
2）MS谋数台工具条中间的“内容定位”不要选
3）在MS谋数台的浏览器中翻页，翻到7
4）选择菜单规则-》刷新网页结构
5）选择菜单规则-》分析页面
看看报什么错误，一般来说，会报告第几个抓取内容没有定位到，然后就分析为什么那个抓取内容定位不到了，怎样把抓取规则调整得更加优适应性

lxacoder · 发表于 2016-12-1 11:51:28

翻页的时候电脑死机了两次，然后重新启动，翻页很多（1000页），会不会重新从上次断掉的那里翻页啊，翻页采用的相对线索，当前位置和下一页位置定位定的是text()文本，虽然说下一页也有@href属性有调到下一页的网址。

ym · 发表于 2016-12-1 17:15:54

本帖最后由 ym 于 2017-4-21 09:51 编辑

lxacoder 发表于 2016-12-1 11:51
翻页的时候电脑死机了两次，然后重新启动，翻页很多（1000页），会不会重新从上次断掉的那里翻页啊，翻页采 ...

激活线索重新采集的话，不会从断掉的页码开始，而是从第一页开始重新采集一遍。
如果每一页都有独立网址的话，你可以查看最新抓到的xml文件，里面的pageno记录了页码，fullpath字段记录了页面网址，你把这个网址添加到规则里，就可以从断掉的页码那里开始采集了。

lxacoder · 发表于 2016-12-2 13:15:53

ym 发表于 2016-12-1 17:15
激活线索重新采集的话，不会从断掉的页码开始，而是从第一页开始重新采集一遍。
如果每一页都有独立网址 ...

哎。。能不能教我一下你的那个《汽车采集——帖子详情》怎么弄得啊。网页结构楼主和层主结构不一样，我定位标志设置了//div[@class="clearfix contstxt outer-section"]这个还是不行，500积分好贵啊

。。。跪求指导

TAN黄金分割线 · 发表于 2017-3-4 08:52:52

第6666个

caowenlin · 发表于 2017-4-19 21:25:57

Fuller 发表于 2016-10-19 21:28
肯定是到第7页以后网页结构变化了。

1）用MS某数台把规则加载上来，

我的是网页结构发生了变化，这样的情况该怎么处理？

Fuller · 发表于 2017-4-19 22:02:57

caowenlin 发表于 2017-4-19 21:25
我的是网页结构发生了变化，这样的情况该怎么处理？

到第二页网页结构变化了？如果变换不大，设法调整规则，让规则适用于两种网页。如果确实无法适用，那么就在同一个主题名下定义两个规则，DS打数机运行的时候会自动选择

caowenlin · 发表于 2017-4-20 20:53:55

我现在的情况是爬取微博内容时展开更多按钮不知道怎么处理

翻页采集

共 13 个关于本帖的回复最后回复于 2020-1-3 08:12

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

翻页采集

共 13 个关于本帖的回复 最后回复于 2020-1-3 08:12

推荐板块

精彩推荐

热门话题

热门用户

共 13 个关于本帖的回复最后回复于 2020-1-3 08:12