快捷导航
设置了模拟点击爬取中国大学慕课里某门课的讨论区内容,但只能抓到第一页的内容,找不到原因,求帮助!任务么是Dclick1 和Dclick2.
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-1-10 22:24

Fuller 管理员 发表于 2020-1-7 21:26:42 | 显示全部楼层
第一级规则没有设置关键内容,那么就没有判断规则是否适合的依据,很容易抓取失败,或者漏数据,至少给一个抓取内容设置关键内容
关键内容20200107212601.png
举报 使用道具
Fuller 管理员 发表于 2020-1-7 21:30:13 | 显示全部楼层
第一级规则的样本网址:https://www.icourse163.org/learn ... 257#/learn/announce
第二级规则的样本网址:https://www.icourse163.org/learn ... 7#/learn/forumindex

很明显,各自有不同的独立网址,根本不需要做两级,只需要第二级规则就行了,看这个网址名字,估计所有课程都有类似的网址结构,最后都是 forumindex 表示论坛网页。那么可以在excel中批量把网址构造好
举报 使用道具
Fuller 管理员 发表于 2020-1-7 21:39:01 | 显示全部楼层
定位20200107213531.png

第二级规则加载失败,是翻页规则失败。要注意蓝色箭头,class中含有一串数字,这种数字往往每一页都不一样,所以,要避开它,这个div不能用做翻页区,因为id和class都不能用。那么就选用含有“下一页”的那个A节点作为翻页区。另外,点击定位偏好按钮,选择偏好class,因为很多id都含有数字,会影响适应性。

最后,在创建规则工作台上,勾上关键内容,不然的话,翻页采集容易漏数据
举报 使用道具
zhaopeng123161 新手上路 发表于 2020-1-7 21:40:16 | 显示全部楼层
好的  非常感谢
举报 使用道具
zhaopeng123161 新手上路 发表于 2020-1-7 21:53:34 | 显示全部楼层
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis
举报 使用道具
Fuller 管理员 发表于 2020-1-7 22:40:40 | 显示全部楼层
zhaopeng123161 发表于 2020-1-7 21:53
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis

看我在“地板”楼的回答,按照我说的做翻页区映射和翻页记号映射
举报 使用道具
zhaopeng123161 新手上路 发表于 2020-1-10 22:24:01 | 显示全部楼层
非常感谢指导, 已成功!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 12:01