宋PLUS DM-i怎么样_宋PLUS DM-i值得买吗_懂车帝 (dongchedi.com)
想要采集这个网址中车友的评论,但是设置规则后,只能采取几条,不知道哪里出了问题,麻烦解答一下
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-1-28 20:17

沙发
Napnapl 新手上路 发表于 2024-1-27 21:48:51 | 只看该作者
https://www.dongchedi.com/auto/series/score/4865-x-x-x-x-x-x这个网址的
举报 使用道具
板凳
Napnapl 新手上路 发表于 2024-1-27 22:47:29 | 只看该作者
https://www.autohome.com.cn/chongqing/ 这个网址也可以  只需要采取大概2000条评论就可以 求大佬帮忙
举报 使用道具
地板
Fuller 管理员 发表于 2024-1-27 23:04:38 | 只看该作者
你定义的任务名字是什么?“宋PLUS DM-i怎么样_宋PLUS DM-i值得买吗_懂车帝”这些都搜不到
举报 使用道具
5#
Napnapl 新手上路 发表于 2024-1-27 23:07:19 | 只看该作者
Fuller 发表于 2024-1-27 23:04
你定义的任务名字是什么?“宋PLUS DM-i怎么样_宋PLUS DM-i值得买吗_懂车帝”这些都搜不到 ...

比亚迪宋评论抓取1.26 这是我的任务名
举报 使用道具
6#
Fuller 管理员 发表于 2024-1-27 23:31:27 | 只看该作者
Napnapl 发表于 2024-1-27 23:07
比亚迪宋评论抓取1.26 这是我的任务名

你定义的任务加载不成功。我估计你是要采集下图红框中的内容。

这个网页比较难采集的原因是有两个不同结构的内容放在同一个内容列表中。在DOM结构中,红框部分是相同结构的部分。他们都有一个P节点,而且P节点的class属性一样。就用这个P节点做定位映射。就是说,在DOM结构中选中P节点,用鼠标邮件菜单:内容映射。如果还想进一步增加规则的适应性,可以再做上定位映射,也是用鼠标右键,具体参看:https://www.gooseeker.com/doc/article-527-1.html


举报 使用道具
7#
Napnapl 新手上路 发表于 2024-1-27 23:32:22 | 只看该作者
Fuller 发表于 2024-1-27 23:04
你定义的任务名字是什么?“宋PLUS DM-i怎么样_宋PLUS DM-i值得买吗_懂车帝”这些都搜不到 ...

还有 “比亚迪评论采集1.27”
举报 使用道具
8#
Napnapl 新手上路 发表于 2024-1-28 19:35:30 | 只看该作者
Fuller 发表于 2024-1-27 23:31
你定义的任务加载不成功。我估计你是要采集下图红框中的内容。

这个网页比较难采集的原因是有两个不同结 ...

不是采集这个内容,是想采集“懂车分 口碑”中的评论,主要是只能采取部分,采集不到我想要的数量
举报 使用道具
9#
gz51837844 管理员 发表于 2024-1-28 20:17:53 | 只看该作者
Napnapl 发表于 2024-1-27 23:32
还有 “比亚迪评论采集1.27”

看一下6楼的回复,要采集的东西是类似的,方法也类似:找到合适的节点做内容映射,找到2个兄弟节点做样例复制映射。文档:《网络爬虫采集列表数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 20:32