发现网址的地位标志会改变,尝试了将它冻结后再定义,终于翻了第二页,但是没有爬到第二页的数据,之后就说匹配失败就结束了。
主题:去哪儿鼓浪屿2
网址:https://piao.qunar.com/ticket/de ... =mps_search_suggest
用MS谋数台后续分析后,没有输出信息
麻烦各位大大帮忙看看,感激不尽
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-8-9 18:01

Fuller 管理员 发表于 2019-8-8 15:15:11 | 显示全部楼层
我测试了,翻页没有问题,加载规则到MS谋数台上也没有问题。但是在DS打数机上翻页到第二页以后就匹配失败了,说明整理箱里面应该做上定位标志映射提高规则的精度
举报 使用道具
Fuller 管理员 发表于 2019-8-8 15:16:44 | 显示全部楼层
好奇怪,第二次加载规则就失败了,我试试加上定位标志
举报 使用道具
Fuller 管理员 发表于 2019-8-8 15:26:43 | 显示全部楼层





上图分别是第一页和第二页的html DOM,可以看到,到第二页,每条评论的html节点变成了DIV,不再是LI了。用样例复制映射的话,生成的xpath中含有节点的名称,这样就不适用了。这个网页上刚好有很好的定位标志,因为每条评论都有相同的class,所以,我取消了样例复制,而是用定位标志映射提取多条评论,这样就好了。用定位标志提取评论列表的教程:https://www.gooseeker.com/doc/article-347-1.html


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
dachengzi 初级会员 发表于 2019-8-9 18:01:14 | 显示全部楼层
嗯嗯可以了谢谢大佬
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:04