用集搜客的快捷采集工具采集了一批新闻文章,现在要对这些长文做信息提取的处理,自然语言处理那套方法不会用,请问下,集搜客有什么工具可以快速提取出非结构化文本比如新闻的核心事件吗?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2020-3-11 10:30

ym 版主 发表于 2020-3-10 17:24:39 | 显示全部楼层
本帖最后由 ym 于 2020-3-10 17:35 编辑

可以用集搜客采摘浏览器的摘录功能,可以直接对线上的新闻网页做人工标注,摘录出核心事件的内容,这个工具常常用作非结构化网页信息的提取,以及数据指标的整理,可以大大提高信息提取和整理的效率。
QQ截图20200310172808.png
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:30:16 | 显示全部楼层
嗯嗯,我试试
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:31:42 | 显示全部楼层
摘录完之后,在哪里可以下载到摘录结果?
举报 使用道具
ym 版主 发表于 2020-3-10 17:32:55 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 17:31
摘录完之后,在哪里可以下载到摘录结果?

点击左栏右上角的统计数按钮就会进入到摘录的管理后台,在“我的摘录”里可以下载到摘录内容的数据表
QQ截图20200310172852.png
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:34:49 | 显示全部楼层
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?
举报 使用道具
ym 版主 发表于 2020-3-10 17:37:10 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 17:34
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?

目前是下载全部的摘录,我们未来版本会对下载功能做改进优化,把按书签下载考虑进去
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 18:06:31 | 显示全部楼层
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录
QQ截图20200310180202.png
举报 使用道具
ym 版主 发表于 2020-3-10 18:26:54 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 18:06
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录

...

用excel函数textjoin() 和filter()函数就可以实现,在excel里命名“摘录表”、“整理表”两个工作表,摘录表是下载的摘录结果,整理表是用来转换格式的,具体操作如下:
1、“摘录表”的摘录时间,默认是降序,我们要改为升序,因为要按时间顺序来拼接摘录内容
QQ截图20200310181833.png
2、把“摘录表”网址列拷贝到“整理表”的A列,并且过滤重复
3、然后在B2格子里填写下面的函数式,再点击格子右下角的+符号,就可以自动填充计算下面行的摘录内容了
=TEXTJOIN("",TRUE,FILTER(摘录表!F:F,摘录表!B:B=A2,""))
QQ截图20200310181750.png

举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 18:29:15 | 显示全部楼层
嗯嗯,非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:58