快捷导航
13 70385

翻页采集

ym 于 2015-10-22 18:08 发表 [复制链接]
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2020-1-3 08:12

hooan2006 初级会员 发表于 2016-10-19 20:25:03 | 显示全部楼层
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&page=7,显示:抓取失败(超时),....,请问我怎么检查问题,并修正?我是新手
举报 使用道具
Fuller 管理员 发表于 2016-10-19 21:28:04 | 显示全部楼层
hooan2006 发表于 2016-10-19 20:25
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&pag ...

肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,
2)MS谋数台工具条中间的“内容定位”不要选
3)在MS谋数台的浏览器中翻页,翻到7
4)选择菜单 规则-》刷新网页结构
5)选择菜单 规则-》分析页面
看看报什么错误,一般来说,会报告第几个抓取内容没有定位到,然后就分析为什么那个抓取内容定位不到了,怎样把抓取规则调整得更加优适应性
举报 使用道具
lxacoder 初级会员 发表于 2016-12-1 11:51:28 | 显示全部楼层
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采用的相对线索,当前位置和下一页位置定位定的是text()文本,虽然说下一页也有@href属性有调到下一页的网址。
举报 使用道具
ym 版主 发表于 2016-12-1 17:15:54 | 显示全部楼层
本帖最后由 ym 于 2017-4-21 09:51 编辑
lxacoder 发表于 2016-12-1 11:51
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采 ...

激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址的话,你可以查看最新抓到的xml文件,里面的pageno记录了页码,fullpath字段记录了页面网址,你把这个网址添加到规则里,就可以从断掉的页码那里开始采集了。

举报 使用道具
lxacoder 初级会员 发表于 2016-12-2 13:15:53 | 显示全部楼层
ym 发表于 2016-12-1 17:15
激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址 ...

哎。。能不能教我一下你的那个《汽车采集——帖子详情》怎么弄得啊。网页结构楼主和层主结构不一样,我定位标志设置了//div[@class="clearfix contstxt outer-section"]这个还是不行,500积分好贵啊。。。跪求指导
举报 使用道具
TAN黄金分割线 初级会员 发表于 2017-3-4 08:52:52 | 显示全部楼层
第6666个
举报 使用道具
caowenlin 初级会员 发表于 2017-4-19 21:25:57 | 显示全部楼层
Fuller 发表于 2016-10-19 21:28
肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,

我的是网页结构发生了变化,这样的情况该怎么处理?
举报 使用道具
Fuller 管理员 发表于 2017-4-19 22:02:57 | 显示全部楼层
caowenlin 发表于 2017-4-19 21:25
我的是网页结构发生了变化,这样的情况该怎么处理?

到第二页网页结构变化了?如果变换不大,设法调整规则,让规则适用于两种网页。如果确实无法适用,那么就在同一个主题名下定义两个规则,DS打数机运行的时候会自动选择
举报 使用道具
caowenlin 初级会员 发表于 2017-4-20 20:53:55 | 显示全部楼层
我现在的情况是爬取微博内容时展开更多按钮不知道怎么处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 18:41