用 知乎_独立问题所有回复采集 快捷采集得到的内容不全是怎么回事?


首先我用 '知乎_关键词搜索结果列表_内容’,采集下来数据,可以看到,实际链接分为两类网址

第一类:可以添加到  ‘知乎_专栏文章详情’,采集文章详情数据。
https://zhuanlan.zhihu.com/p/68334499

第二类:查找了一下,应该跟  ‘知乎_独立问题所有回复采集’这个示例网页一样
https://www.zhihu.com/question/20491054/answer/237830708

但是添加到这个版块采集,得到的内容不全,不知道是什么原因导致的?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-2-20 18:07

沙发
Fuller 管理员 发表于 2020-2-20 17:39:24 | 只看该作者
当在知乎上搜索的时候,点击搜索结果进入的那个页面,其实是知乎推荐的某个回答的网址,这时候会产生一个错觉,因为网页往下拉还是能看到其他回答的,就错以为是整个问题的网址,其实只是一个回答的网址。比如



网址是  https://www.zhihu.com/question/21707087/answer/19388531
仔细看网址中的内容 /answer/19388531 这个19388531就是答案的编号。所以,应该把这段删除,类似于上面截图中点击红框位置得到的网址,就是整个问题的网址,是这个样子的:
https://www.zhihu.com/question/21707087
举报 使用道具
板凳
Fuller 管理员 发表于 2020-2-20 17:40:53 | 只看该作者
Fuller 发表于 2020-2-20 17:39
当在知乎上搜索的时候,点击搜索结果进入的那个页面,其实是知乎推荐的某个回答的网址,这时候会产生一个错 ...

也就是说,要得到整个问题的网址,也不用去点击,直接修改网址就行了,这样可以在excel中大批量地编辑好要采集的知乎问题网址
举报 使用道具
地板
wangyong 版主 发表于 2020-2-20 17:52:08 | 只看该作者
Fuller 发表于 2020-2-20 17:40
也就是说,要得到整个问题的网址,也不用去点击,直接修改网址就行了,这样可以在excel中大批量地编辑好 ...


不用另行通过Excel构造网址

通过知乎_关键词搜索结果列表_内容采集到的数据,直接把问题所有回复链接下采集到的网址加入到快捷采集中就可以


举报 使用道具
5#
月球漫步 中级会员 发表于 2020-2-20 18:07:33 | 只看该作者
wangyong 发表于 2020-2-20 17:52
不用另行通过Excel构造网址

通过知乎_关键词搜索结果列表_内容采集到的数据,直接把问题所有回复链接下 ...

不用去构造网址,那就更方便好用了,我再去试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 11:50