采集知乎问答的数据后有哪些处理步骤

ym

通过快捷采集上的知乎_关键词搜索结果列表_内容、知乎_独立问题所有回复采集采集到数据后，可能会存在重复采集、异常数据，所以需要做些处理，下面会记录下具体的处理步骤。

ym · 发表于 2020-2-24 19:18:41

本帖最后由 ym 于 2020-2-24 19:47 编辑

处理1：回答用户有些是空的，回答内容也是空的，但用户主页链接是有值的，这些可能是被隐掉或是杂质的信息，这种没法利用，我们通过筛选回答用户为空的记录，然后批量选中删除。

处理2：有些记录是重复采集的，所以需要过滤重复数据，我们通过选中网页字段和fullpath(采集页面网址)的列，然后用excel自带的“数据”菜单下的“删除重复值”功能来批量删除。

ym · 发表于 2020-2-24 19:27:26

本帖最后由 ym 于 2020-2-24 19:48 编辑

处理3：回答内容里有些是包含图片代码内容的，如果这个对后续的内容分析产生不好的影响，比如分词处理会切出无效的词，那我们可以先过滤掉，选中回答内容一列，然后按Ctrl+H键，弹出替换窗口，在查找内容里输入<img*/>，替换为不输入内容，然后点全部替换，就会把图片代码内容删掉。

ym · 发表于 2020-2-24 19:43:45

本帖最后由 ym 于 2020-2-25 09:37 编辑

处理4：如果需要导入到分词和分类检索平台，我们可以把需要的字段列，拷贝到新表里，然后按导入的表结构，修改字段名称，由于知乎回答是一对多的，为了区分是哪个人回答的，我们把标题+回答用户来组成新的标题列，这样就能区分同一个问题不同用户的回答，当然，我们也可以根据序号（自定义的顺序值）来关联匹配原数据，从而进行区分。具体操作如下：
新建“标题”一列，在F2单元格里输入公式=B2&"——"&C2，再按住F2单元格右下角出现的+使公式自动填充，合并完每一行后，选中新“标题”列复制，右键选择粘贴为数值，然后删除旧的标题和回答用户两列，这样就完成合并处理，接下来就可以把表导入到分词和分类检索平台上进行切词处理。

采集知乎问答的数据后有哪些处理步骤

共 3 个关于本帖的回复最后回复于 2020-2-24 19:43

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集知乎问答的数据后有哪些处理步骤

共 3 个关于本帖的回复 最后回复于 2020-2-24 19:43

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2020-2-24 19:43