11#
wangyong 版主 发表于 2019-1-22 14:34:36 | 只看该作者
在定义规则模式下翻到第二页,然后选分析页面,爬虫会有错误提示,这种情况一般是第一页和第二页结构不同,需要对抓取内容做上定位标志映射
举报 使用道具
12#
pipi1519 初级会员 发表于 2019-2-18 16:07:41 | 只看该作者
规则名是:去哪儿网_古北水镇_1
做了定位映射,也做了翻页区映射和翻页记号映射,但是仍然只能翻到第二页抓不到内容,第三页翻不过去,请问该怎么解决
举报 使用道具
13#
Fuller 管理员 发表于 2019-2-18 16:54:46 | 只看该作者
pipi1519 发表于 2019-2-18 16:07
规则名是:去哪儿网_古北水镇_1
做了定位映射,也做了翻页区映射和翻页记号映射,但是仍然只能翻到第二页抓 ...

我测试了,到第二页就匹配失败了。这样检查为什么失败:

1,不要勾选内容定位,这样在网页上点击就有反应了
2,点击下一页,把网页翻到下一页
3,选择菜单 规则-》刷新页面结构,把DOM刷新一下
4,选择菜单 规则-》分析页面,就能看到报错,星级对应不上。

那么就研究一下为什么星级失效了
举报 使用道具
14#
Fuller 管理员 发表于 2019-2-18 17:04:55 | 只看该作者
pipi1519 发表于 2019-2-18 16:07
规则名是:去哪儿网_古北水镇_1
做了定位映射,也做了翻页区映射和翻页记号映射,但是仍然只能翻到第二页抓 ...

我看到你给星级用了自定义xpath
  1. //*[@class='mp-star-level']/em/span/@style
复制代码
有样例复制的情况下,不能用 // 开头,否则大家都采集到的一样,而是用.//开头,这样就是相对于整个整理箱。

还有一个问题:

你选择了网页片段,同时又采集一个@style属性,那么生成的结果文件很特别,这种也符合xml标准,但是我们的导入导出不允许该这样的结构,你可以勾“文本内容”,得到的结果就是这样了

举报 使用道具
15#
Fuller 管理员 发表于 2019-2-18 18:47:06 | 只看该作者
你的规则还有一个很重要的注意项:

我没有用样例复制映射,而是用定位标志映射抓取多实例,因为每个评论他们都有相同的class,本来既可以选定位标志映射,也可以选样例复制映射,但是这个用样例复制映射到第二页就不行了。因为第一页每个评论是一个li,第二页每个评论就是div了,所以,样例复制映射总是翻页到第二页就失败了,而用定位标志映射,是不管什么DOM节点的,只认定位标志,所以,能解决第二页失败问题。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 03:27