啊啊啊啊,翻页又失败了,二级任务也不知道为啥只能抓一页,大佬帮帮我

规则名:
第一层任务2021
第二层抓取2021
谢谢大家了

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-6-1 14:28

沙发
内容分析应用 金牌会员 发表于 2021-5-31 20:59:31 | 只看该作者
无论第1级规则还是第2级规则, 都不要把所有的抓取字段都设置为“关键内容”, 选择其中一个一定会有的内容作为“关键内容”

举报 使用道具
板凳
kakaqueen 初级会员 发表于 2021-5-31 21:58:50 | 只看该作者
关键内容在第一层应该没有设置的地方吧
举报 使用道具
地板
Fuller 管理员 发表于 2021-5-31 23:12:54 | 只看该作者
我测试了你的第一级规则,翻页不成功。



你用LI的@class作为下一页标志,这样的话,翻页点击位置是LI节点。展开LI节点可以看到,LI下面还有一个A节点,所以,推断是点击LI不行,要点击下面的A节点
举报 使用道具
5#
Fuller 管理员 发表于 2021-5-31 23:20:42 | 只看该作者
我是这样做的翻页映射



翻页区使用具有@class='next'的LI节点,而下一页标志是I节点的class属性。


为什么要用这个翻页区?因为像你那样选择更大范围的翻页区的话,这个区域就含有 <(往前翻) 和 >(往后翻),他们区分不开。


一开始我也用这个大的翻页区,像下图那样,点击“测试”按钮,看到生成的翻页XPath,拷贝到搜索条那里,点击搜索按钮,发现定位到 < 和 > 两个节点,这样的话,爬虫运行的时候就没法正确翻页。如下图。所以,我就改成上图那样的翻页区



举报 使用道具
6#
Fuller 管理员 发表于 2021-5-31 23:25:10 | 只看该作者
第二级规则,我看到你给每个抓取内容都勾上了“关键内容”,如果某个页面上没有这么多内容,就会失败。如下图,那些具有绿色C标志的都是勾了关键内容。应该把哪些可有可无的不要勾。双击这个抓取内容,在设置页面上,不要勾“关键内容”




举报 使用道具
7#
kakaqueen 初级会员 发表于 2021-6-1 14:22:13 | 只看该作者
Fuller 发表于 2021-5-31 23:25
第二级规则,我看到你给每个抓取内容都勾上了“关键内容”,如果某个页面上没有这么多内容,就会失败。如下 ...

这一部分看明白了,非常感谢。翻页部分我再研究一下
举报 使用道具
8#
kakaqueen 初级会员 发表于 2021-6-1 14:28:29 | 只看该作者
Fuller 发表于 2021-5-31 23:20
我是这样做的翻页映射

这个地方是怎么从结果看出对应了两个按钮呢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 13:43