快捷导航
https://www.huoqiu.cn/plan/combination.html

@class 什么的 都用了。。。
中级教程里面说改线索规则,我编辑器不知道为啥不显示线索规则。。。
总之,就是抓不了,求解!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2015-11-2 17:31

ym 版主 发表于 2015-10-29 21:36:40 | 显示全部楼层
本帖最后由 ym 于 2015-10-29 22:38 编辑

我测试过你发的网址了,用翻页线索都会重复,原因暂时不明,但是可以改成新建一个整理箱单抓〉的@href了,并把它作为下级线索,主题名填当前主题就可以,这样就会把下一页网址采下来作为新的线索,用DS采数据时,输入线索数就填一个比翻页总数大的数字,这样每抓完一页就会自动抓下一页,不用每次都点单搜/集搜输入线索数啦
QQ截图20151029214247.png
举报 使用道具
ym 版主 发表于 2015-10-30 00:19:53 | 显示全部楼层
本帖最后由 ym 于 2015-10-30 15:14 编辑

按照上面的操作还是会翻页到中间就失败,重新分析网页规则,发现要把定位标志LI[@class='next diamond']映射给整理箱顶点,得到的提取翻页网址的路径才是正确的,详细分析如下

图一和图二的区别是起始点路径不同,通常起始点路径修改后,目标抓取内容的路径也会发生变化,但在这里就没有不同。图一的定位标志是映射给顶点生成的起始点路径是//*[@class='next diamond  '],这是以属性值来定位的,更加精准和适应性强,在每一页中都能准确找到下一页的网址。
QQ截图20151030150217.png
QQ截图20151030150851.png 图一
而图二把标志值映射给了整理箱中的抓取内容page,得到的起始点路径是 //*[@id='repay-list-pager']/ul/li[position()=8],这是用序号来绝对定位的,与目标抓取内容的提取路径a/@href放在一起看,就是表示提取第8个LI下的A节点里的@href,这种用序号来定位的路径较容易出错,因为翻页到中间后下一页对应的节点不是在第8个LI了。
QQ截图20151030001807.png 图二


举报 使用道具
流年似水 中级会员 发表于 2015-10-30 12:35:50 | 显示全部楼层
举报 使用道具
hehanbo 初级会员 发表于 2015-11-2 17:31:53 | 显示全部楼层
ym 发表于 2015-10-30 00:19
按照上面的操作还是会翻页到中间就失败,重新分析网页规则,发现要把定位标志LI[@class='next diamond']映 ...

依然。。。抓不了。。。求视频。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • NLP文本情感分析入门
  • 机器学习算法入门介绍
  • 中文分词入门和分词工具汇总攻略
  • 自然语言处理NLP的一般处理流程
  • 关于鸿蒙操作系统的知乎讨论热点分析

热门用户

GMT+8, 2019-10-15 20:12