集搜客GooSeeker网络爬虫
标题:
我想分析下知乎话题:女记者远嫁西部长期遭受家暴
[打印本页]
作者:
马涌河畔
时间:
2021-2-7 16:59
标题:
我想分析下知乎话题:女记者远嫁西部长期遭受家暴
我想分析下话题:女记者远嫁西部长期遭受家暴, 比如知乎上的这个:
如何看待文章《另一个拉姆》讲述的记者马金瑜远嫁西部,长期遭受家庭暴力和凌虐一事?
是不是先用爬虫软件采集这个问题的回答, 然后导入分词工具?
作者:
内容分析应用
时间:
2021-2-7 17:03
可以先用这个知乎快捷采集:
知乎_独立问题所有回复采集
, 把回答内容采集下来
然后用
集搜客文本和分词软件
进行分词,做词频统计,词云图,社交网络图
作者:
马涌河畔
时间:
2021-2-7 17:04
好的, 我先用集搜客爬虫软件做数据采集
作者:
马涌河畔
时间:
2021-2-8 09:44
我把知乎问题网址:
https://www.zhihu.com/question/443154151
添加到快捷采集
知乎_独立问题所有回复采集
, 发现只采集了1页。
需要在网址后面添加一串字符,变成这样:
https://www.zhihu.com/question/443154151/answers/updated
,才能采集到全部。
如果是通过
集搜客知乎关键词搜索
的快捷采集得到的网址, 就不需要人工去修改,导出的结果网址已经是修改好的。
作者:
马涌河畔
时间:
2021-2-8 10:59
本帖最后由 马涌河畔 于 2021-2-8 11:08 编辑
采集了知乎上的这个问题和对应的回答,一共1843条。按分词工具的要求(导入的文件至少需要2个字段:序号和正文),在快捷采集得到的excel文件中添加了一列“序号”,把列“回答内容”改名成“正文”
[attach]13734[/attach]
作者:
马涌河畔
时间:
2021-2-8 11:44
登录
集搜客中文分词和情感分析软件
,新建一个任务, 导入上面处理过的excel文件。
导入完成后, 不需要做其它, 就可以直接下载分词后的”词频统计表“和”分词效果表“
[attach]13735[/attach]
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2