通过快捷采集上的 知乎_关键词搜索结果列表_内容知乎_独立问题所有回复采集 采集到数据后,可能会存在重复采集、异常数据,所以需要做些处理,下面会记录下具体的处理步骤。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-2-24 19:43

ym 版主 发表于 2020-2-24 19:18:41 | 显示全部楼层
本帖最后由 ym 于 2020-2-24 19:47 编辑

QQ截图20200224190841.png

处理1:回答用户有些是空的,回答内容也是空的,但用户主页链接是有值的,这些可能是被隐掉或是杂质的信息,这种没法利用,我们通过筛选回答用户为空的记录,然后批量选中删除。
QQ截图20200224191219.png
QQ截图20200224191309.png

处理2:有些记录是重复采集的,所以需要过滤重复数据,我们通过选中网页字段和fullpath(采集页面网址)的列,然后用excel自带的“数据”菜单下的“删除重复值”功能来批量删除。
QQ截图20200224191517.png


举报 使用道具
ym 版主 发表于 2020-2-24 19:27:26 | 显示全部楼层
本帖最后由 ym 于 2020-2-24 19:48 编辑

处理3:回答内容里有些是包含图片代码内容的,如果这个对后续的内容分析产生不好的影响,比如分词处理会切出无效的词,那我们可以先过滤掉,选中回答内容一列,然后按Ctrl+H键,弹出替换窗口,在查找内容里输入<img*/>,替换为不输入内容,然后点全部替换,就会把图片代码内容删掉。
QQ截图20200224192317.png
举报 使用道具
ym 版主 发表于 2020-2-24 19:43:45 | 显示全部楼层
本帖最后由 ym 于 2020-2-25 09:37 编辑

处理4:如果需要导入到 分词和分类检索平台 ,我们可以把需要的字段列,拷贝到新表里,然后按导入的表结构,修改字段名称,由于知乎回答是一对多的,为了区分是哪个人回答的,我们把标题+回答用户来组成新的标题列,这样就能区分同一个问题不同用户的回答,当然,我们也可以根据序号(自定义的顺序值)来关联匹配原数据,从而进行区分。具体操作如下:
新建“标题”一列,在F2单元格里输入公式=B2&"——"&C2,再按住F2单元格右下角出现的+使公式自动填充,合并完每一行后,选中新“标题”列复制,右键选择粘贴为数值,然后删除旧的标题和回答用户两列,这样就完成合并处理,接下来就可以把表导入到分词和分类检索平台上进行切词处理。
QQ截图20200224193401.png
QQ截图20200224193921.png
QQ截图20200224193944.png



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 08:55