11#
Fuller 管理员 发表于 2020-2-16 18:59:10 | 只看该作者
tanzhizhi 发表于 2020-2-16 17:56
只能爬一页,第二页的时候就匹配失败了。然后如果是翻页记号选择button的话,就只是一直循环爬第一页
...

爱彼迎网站很难采集,网页结构太乱了。遇到这种情况,就要手工翻页到失败的那一页,分析页面,看看规则在哪里失败了。步骤是:
1,把规则加载好
2,不要勾选工具条中部的“内容定位”,这样就允许在爬虫浏览器中翻页了
3,翻到第二页
4,选择菜单:规则-》刷新页面结构,这样dom就是第二页的了
5,选择菜单:规则-》分析页面,发现分析失败了

因为只有一个抓取内容,干脆在第二页上重新把内容映射和样例复制映射做一遍,然后点击测试按钮,看数据规则,这样看



整理箱的定位xpath很长,干脆把第一页生成的和第二页生成的拷贝出来比较
//*[@class='_1kzvqab3']/div/div/div[position()=4]/div/div/div/section/div[position()=2]/div[position()=4]/div/div[position()>=1 and count(.//*[@class='_11dqbld7'])>0]
//*[@class='_1kzvqab3']/div/div/div[position()=4]/div/div/div/section/div[position()=2]/div[position()=3]/div/div[position()>=1 and count(.//*[@class='_11dqbld7'])>0]


这里竟然不一样,仔细看网页上有什么不同,原来第一页确实不同


那要想办法能不能找到一个第一页也没有这条信息的网页作样本页面
举报 使用道具
12#
Fuller 管理员 发表于 2020-2-16 19:02:11 | 只看该作者
是在第二页上,由于出现了一条繁体字的评论,就出现了这个提示。

有个方法:在同一个主题名下可以定义两个不同的规则,主题名相同,但是规则编号不同,那么爬虫会自动找一个适合的。

所以,用第一页和第二页分别各做一个规则
举报 使用道具
13#
tanzhizhi 新手上路 发表于 2020-2-16 20:47:37 | 只看该作者
Fuller 发表于 2020-2-16 19:02
是在第二页上,由于出现了一条繁体字的评论,就出现了这个提示。

有个方法:在同一个主题名下可以定义两个 ...

如何在同一主题名下定义两个规则?我看教程帖子里面说打开ms谋数台,再点击“文件”菜单,可是我打开谋数台之后没找到文件菜单啊,如图,该怎么办?
举报 使用道具
14#
tanzhizhi 新手上路 发表于 2020-2-16 21:21:04 | 只看该作者
Fuller 发表于 2020-2-16 19:02
是在第二页上,由于出现了一条繁体字的评论,就出现了这个提示。

有个方法:在同一个主题名下可以定义两个 ...

点了“规则”菜单里面的“新建”,工作台内容就直接清空了
举报 使用道具
15#
Fuller 管理员 发表于 2020-2-16 21:39:40 | 只看该作者
tanzhizhi 发表于 2020-2-16 21:21
点了“规则”菜单里面的“新建”,工作台内容就直接清空了

翻页到第二页,把工作台清空,然后开始定义规则,就是定义一个全新的规则,任务名跟前一个一样,规则编号不要跟前一个一样。这样就是有了两个相同任务名的规则
举报 使用道具
16#
tanzhizhi 新手上路 发表于 2020-2-17 01:08:57 | 只看该作者
Fuller 发表于 2020-2-16 21:39
翻页到第二页,把工作台清空,然后开始定义规则,就是定义一个全新的规则,任务名跟前一个一样,规则编号 ...

按您讲的来做,3页全抓到了,万分感谢!
举报 使用道具
17#
tanzhizhi 新手上路 发表于 2020-2-17 15:26:04 | 只看该作者
Fuller 发表于 2020-2-16 21:39
翻页到第二页,把工作台清空,然后开始定义规则,就是定义一个全新的规则,任务名跟前一个一样,规则编号 ...

有新问题,昨天问你的是二级规则,现在一级规则出问题了,样例复制映射做不了,如图: 定位这里只有设置为偏好id才能测试成功,但是样例复制是失败的,只能爬取到第一条。如果定位改为其他的话,测试直接报一堆错,如图: ,是什么原因?
举报 使用道具
18#
Fuller 管理员 发表于 2020-2-17 16:02:32 | 只看该作者
tanzhizhi 发表于 2020-2-17 15:26
有新问题,昨天问你的是二级规则,现在一级规则出问题了,样例复制映射做不了,如图:定位这里只有设置为 ...

这是因为做内容映射的时候,假设有2个和2个以上的抓取内容,有些是属于样例1的,有些是属于样例2的,那么样例复制映射就会失败。

所以,要确保所有的抓取内容都用样例1的节点做内容映射。

也可能是规则做好了,下次加载的时候,抓取内容就有些散落在样例1的范围,有些散落在样例2的范围。这样需要重新映射一下,让他们都归到样例1范围中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 21:55