yaya224 新手上路 发表于 2018-7-4 16:59:50 | 显示全部楼层
知乎-所有独立回复问题采集
https://www.zhihu.com/question/25529377/answer/105056648
谢谢
举报 使用道具
baogao_6 新手上路 发表于 2018-7-4 17:23:12 | 显示全部楼层
yaya224 发表于 2018-7-4 16:59
知乎-所有独立回复问题采集
https://www.zhihu.com/question/25529377/answer/105056648
谢谢 ...

翻页次数20180704172211.png

这里要选择翻页次数,你是不是选择了1?
举报 使用道具
baogao_6 新手上路 发表于 2018-7-4 18:33:53 | 显示全部楼层
baogao_6 发表于 2018-7-4 17:23
这里要选择翻页次数,你是不是选择了1?

你添加的网址是什么?我可以测试一下
举报 使用道具
18841139772 新手上路 发表于 2019-4-25 14:42:47 | 显示全部楼层
为什么我每次添加网址之后 , 数据显示已采集, 但是打包数据为0呢?  C:\Users\Administrator\Desktop\1
举报 使用道具
Fuller 管理员 发表于 2019-4-25 15:13:43 | 显示全部楼层
18841139772 发表于 2019-4-25 14:42
为什么我每次添加网址之后 , 数据显示已采集, 但是打包数据为0呢?

你添加的网址是什么呢?我测试一下
举报 使用道具
18841139772 新手上路 发表于 2019-4-25 16:06:21 | 显示全部楼层
Fuller 发表于 2019-4-25 15:13
你添加的网址是什么呢?我测试一下

刚在QQ群里咨询完了, 已经解决了。 谢谢

举报 使用道具
a5100396 新手上路 发表于 2020-3-4 12:36:24 | 显示全部楼层
为什么选择全部收录只能收录95条啊
举报 使用道具
ym 版主 发表于 2020-3-4 14:33:10 | 显示全部楼层
a5100396 发表于 2020-3-4 12:36
为什么选择全部收录只能收录95条啊

知乎问答页面是瀑布流式,滚屏到后面就会加载不出更多数据了,也就是采集到中间会失败。
解决方法是:
参考帖子《采集知乎_独立问题所有回复 ,怎样采集更多》把知乎问答网址改成下面的结构,再添加到快捷采集,这样就会变成可以翻页采集的形式,也就能采集更多数据了。
https://www.zhihu.com/question/22794831/answers/created



举报 使用道具
秋天2 新手上路 发表于 2022-2-25 19:40:45 | 显示全部楼层
为什么翻页,最后加载出三百条都是前6个回答的复制啊
举报 使用道具
Fuller 管理员 发表于 2022-2-26 16:55:39 | 显示全部楼层
秋天2 发表于 2022-2-25 19:40
为什么翻页,最后加载出三百条都是前6个回答的复制啊

你用的是这个快捷采集吗?知乎_独立问题所有回复采集

还是自己做的规则?

如果自己做规则,要注意这个网站是瀑布流的,网页越来越长,前面全部是重复的。

如果用的是快捷采集,把网址发出来我测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:06