4 6761

无法完成翻页采集

Leehomchan 于 2018-5-30 19:14 发表 [复制链接]
本帖最后由 Leehomchan 于 2018-5-30 19:18 编辑

按照教程中的方法进行设置,抓取数据时,能够抓取第一页的数据然后转到第二页,然后就出现错误提示,"抓取失败,抓取规则不合适或超时时间设置太短”,将超时时间设置为40s后依然出现错误提示,请教下究竟是哪里出现了问题? 9Z5F@DEZOZ9KP7TVNQK$%66.png 3N3BD{O0%TB51FK{88%GHC4.png
4L2R{3C04DN_IEI[E~PDR]X.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-30 22:42

数据集 高级会员 发表于 2018-5-30 21:23:37 | 显示全部楼层
第一页和第二页的结构有细微的差别,需要给列表做上定位映射,精确采集范围,做法如下图所示,创建一个叫“样例”的容器,把采集字段放到这个容器下,用这个名为样例的容器做样例复制,再给列表做上定位映射。

1.png
举报 使用道具
Leehomchan 初级会员 发表于 2018-5-30 21:38:13 | 显示全部楼层
谢谢你,不过怎么创建样例容器,这个“Box clearfix”从哪来的
举报 使用道具
数据集 高级会员 发表于 2018-5-30 21:51:35 | 显示全部楼层
本帖最后由 数据集 于 2018-5-30 21:59 编辑

1,创建样例容器就跟创建字段一样的,右键列表-》添加-》包容,再为容器命名,随便取一个名字都行,然后再右键产品名-》移动-》右移,这样依次把采集的字段右移到容器中去
可参考《整理箱怎样同时使用定位映射和样例复制?》

1.png 2.png
2,“Box clearfix”就是UL节点的class值,右键UL节点-》定位标志映射-》列表
3.png

举报 使用道具
Leehomchan 初级会员 发表于 2018-5-30 22:42:43 | 显示全部楼层
非常感谢您,已经解决,看来爬虫前也需要分析页面结构,不是一味照着教程走
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:10