11#
Fuller 管理员 发表于 2019-7-22 12:22:36 | 只看该作者
第三点:如果你想抓取多条评论的话,应该把整理箱建成一个嵌套的,就是在箱子中还有子箱子,选中整理箱的“评论”,鼠标右键有建立一个包容关系的抓取内容,就变成两层了。

另外,我用定位标志映射抓取多条评论,就是下图倒数第二个长箭头,因为每条评论有相同的class值,那么用这个定位标志映射给“评论”这个子箱子。具体看教程:https://www.gooseeker.com/doc/article-347-1.html


举报 使用道具
12#
杜若 初级会员 发表于 2019-7-22 12:52:20 | 只看该作者
Fuller 发表于 2019-7-22 12:18
第二点:避免相同结构的网页造成抓取混淆。这里有好几个经验贴:https://www.gooseeker.com/doc/thread-707 ...

您好!我没太明白应该怎么弄,我不需要抓取歌曲名那些信息,只需要抓取评论回复和点赞数就可以了
举报 使用道具
13#
杜若 初级会员 发表于 2019-7-22 13:09:58 | 只看该作者
Fuller 发表于 2019-7-22 12:22
第三点:如果你想抓取多条评论的话,应该把整理箱建成一个嵌套的,就是在箱子中还有子箱子,选中整理箱的“ ...

而且在做定位映射的时候发现右键选择里没有列表这个选项应该怎么办呢
举报 使用道具
14#
杜若 初级会员 发表于 2019-7-22 13:57:18 | 只看该作者
Fuller 发表于 2019-7-22 12:22
第三点:如果你想抓取多条评论的话,应该把整理箱建成一个嵌套的,就是在箱子中还有子箱子,选中整理箱的“ ...

我按照您说的方法创建了规则网易云音乐评论3 但还是没办法抓取  请问哪里出问题 了呢
举报 使用道具
15#
Fuller 管理员 发表于 2019-7-22 15:47:02 | 只看该作者
杜若 发表于 2019-7-22 13:57
我按照您说的方法创建了规则网易云音乐评论3 但还是没办法抓取  请问哪里出问题 了呢
...


翻页记号和翻页区,这些节点的class和id都含有一些字符或者文字,这个是用来反爬的,随时会变,所以你定义的规则随时就变化了,就失效了。必须要这样做:
1,正常做完规则以后,点击工具条上的“存规则”按钮,把规则存起来
2,点击爬虫路线工作台上查看规则按钮,看到生成的规则,手工直接修改,如下图
把这一行
  1. //*[@class='auto-1563780430907 u-page']//a[.//text()="下一页"]
复制代码
修改成
  1. //*[contains(@class, 'u-page')]//a[.//text()="下一页"]
复制代码

3,点击“保存修改”,把你手工修改的存起来。注意不能点击存规则,否则,又会用自动生成的规则覆盖你手工修改的

举报 使用道具
16#
Fuller 管理员 发表于 2019-7-22 15:50:01 | 只看该作者


既然只采集评论,那么整理箱中“评论”下面没有必要创立一个下层节点了。

注意,回复并不是每个评论都有的,所以,不要勾选“关键内容”
举报 使用道具
17#
杜若 初级会员 发表于 2019-7-22 17:29:36 | 只看该作者
Fuller 发表于 2019-7-22 15:50
既然只采集评论,那么整理箱中“评论”下面没有必要创立一个下层节点了。

注意,回复并不是每个评论都有 ...

我按照您说的方法创建了规则网易云音乐评论4,但是抓取了200多页又停止了怎么办呢
举报 使用道具
18#
Fuller 管理员 发表于 2019-7-22 18:07:50 | 只看该作者
杜若 发表于 2019-7-22 17:29
我按照您说的方法创建了规则网易云音乐评论4,但是抓取了200多页又停止了怎么办呢
...

首先要确定一下是不是网站做了限制,如果没有限制,再检查规则的问题。

检查是否有限制的方法有两种:
1,DS打数机运行的时候,观察翻页过程,尤其快到了200页,看看有什么现象发生,比如,是否出现滑块
2,手工翻页,翻到200页,看看有什么内容

如果网站没有限制,那么采用下面的步骤检查规则
1,加载规则到工作台上
2,工具条上的“内容定位”不要勾选,那么就可以点击“下一页”了
3,一直手工翻页,到200页
4,选择菜单“规则”-》刷新页面结构
5,再选择菜单 规则-》分析页面
看看报什么错误信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 17:14