集搜客GooSeeker网络爬虫

标题: 爬取网易云音乐某首歌的评论者信息时产生不了文件 [打印本页]

作者: stephen123    时间: 2017-3-30 15:37
标题: 爬取网易云音乐某首歌的评论者信息时产生不了文件
链接是http://music.163.com/#/song?id=418603077
主题名是 网易云音乐用户评论 规则一
且加入翻页采集


作者: Fuller    时间: 2017-3-30 15:41
规则加载失败,应该是规则没有映射好,我估计你只做了内容映射,没有做定位标志映射,如果你映射的内容的定位标志可能正好在别的地方也有一个一样的,可能会影响到抓取内容定位。最好手工定位标志映射
规则的其他部分我还在看

作者: Fuller    时间: 2017-3-30 15:47
[attach]5997[/attach]
抓取内容作了定位标志映射,整理箱的最顶层容器节点也做定位映射,可以用定位映射抓取多个样例,而不用样例复制映射。要注意,不能用id,而是用class,双击顶层容器节点,在弹出框中可以设定只用class

作者: stephen123    时间: 2017-3-30 18:12
Fuller 发表于 2017-3-30 15:47
抓取内容作了定位标志映射,整理箱的最顶层容器节点也做定位映射,可以用定位映射抓取多个样例,而不用样 ...

用户主页的标志是如何设置到s-fc7的?

作者: Fuller    时间: 2017-3-30 18:51
stephen123 发表于 2017-3-30 18:12
用户主页的标志是如何设置到s-fc7的?

选中含有s-fc7的那个A,点击鼠标右键就能看到定位标志映射

[attach]6003[/attach]

作者: stephen123    时间: 2017-3-30 18:52
本帖最后由 stephen123 于 2017-3-30 20:23 编辑
Fuller 发表于 2017-3-30 15:47
抓取内容作了定位标志映射,整理箱的最顶层容器节点也做定位映射,可以用定位映射抓取多个样例,而不用样 ...
我按照图片做了,可是保存时还是报错了 ,提示:要么没有映射,要么加载规则失败。由DOM节点编号不正确引起,编号是:-1
作者: ym    时间: 2017-3-30 21:14
stephen123 发表于 2017-3-30 18:52
我按照图片做了,可是保存时还是报错了 ,提示:要么没有映射,要么加载规则失败。由DOM节点编号不正确引起 ...

对用户主页只做内容映射,对用户信息做定位标志,如下图,就是定位正确的,另外要注意的是:加载规则时要评论部分的页面必须要加载出来,才能后续分析,这样就不会提示定位失败,详情说明见加载抓取规则遇到的错误
[attach]6004[/attach]


作者: stephen123    时间: 2017-3-30 22:11
本帖最后由 stephen123 于 2017-3-30 22:12 编辑
ym 发表于 2017-3-30 21:14
对用户主页只做内容映射,对用户信息做定位标志,如下图,就是定位正确的,另外要注意的是:加载规则时要 ...

能看下 点击用户编号 时的 定位编号吗?我这边还是这样啊,完全按照这步骤来的啊


作者: Fuller    时间: 2017-3-30 22:27
stephen123 发表于 2017-3-30 22:11
能看下 点击用户编号 时的 定位编号吗?我这边还是这样啊,完全按照这步骤来的啊

...

用上定位标志映射就好了

作者: ym    时间: 2017-3-30 22:28
用户信息这个是整理箱的顶点,只能做定位标志,所以它的定位编号始终是-1
作者: xandy    时间: 2017-3-31 16:22
先好好看教程操作一遍,参看教程:《采集列表数据》、《翻页采集列表




欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2