我想采集知乎问题下的所有回答,要针对一个话题做一个研究,我发现这个网页是动态显示内容的,鼠标往下滚动,就会显示更多的回答,而且长的回答会收缩起来的。

是否可以用集搜客网络爬虫采集全?如果我用知乎快捷采集的话,应该选择哪个?


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2024-3-19 16:41

沙发
内容分析应用 金牌会员 发表于 2020-12-18 12:07:50 | 只看该作者
可以结合使用这几个快捷采集
先使用知乎_关键词搜索结果列表_话题,搜索关键词得到搜索结果列表, 然后把网址添加到:
知乎_独立话题动态内容采集
知乎_独立问题所有回复采集


举报 使用道具
板凳
内容分析应用 金牌会员 发表于 2020-12-18 12:12:20 | 只看该作者

集搜客官网知乎快捷采集下面, 有多个模板,直接添加网址后启动采集就可以了。
点击这里下载新版爬虫



举报 使用道具
地板
Fuller 管理员 发表于 2020-12-19 10:02:32 | 只看该作者
最关键的是要选对网址。知乎一进入,看到的通常是瀑布流的内容,瀑布流很难采集全,因为网页内容随着滚动鼠标会很大,最后内存都放不下了。实际上知乎上有分页的网页。入下图,选择按时间排序,就能看到有分页,而且所有内容都是全文展开的。




举报 使用道具
5#
labalbal 新手上路 发表于 2024-3-19 14:32:09 | 只看该作者
Fuller 发表于 2020-12-19 10:02
最关键的是要选对网址。知乎一进入,看到的通常是瀑布流的内容,瀑布流很难采集全,因为网页内容随着滚动鼠 ...

你好,我想问下,我点击了时间排序,但还是没有页数,依然是往下滑,就不断出现新回答。这该怎么解决呢?
举报 使用道具
6#
gz51837844 管理员 发表于 2024-3-19 16:41:00 | 只看该作者
labalbal 发表于 2024-3-19 14:32
你好,我想问下,我点击了时间排序,但还是没有页数,依然是往下滑,就不断出现新回答。这该怎么解决呢? ...

知乎的瀑布流页面,要采集多需要电脑和网速比较快,另外可以多尝试几遍。
你是使用的知乎快捷采集吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 19:34