快捷导航
用集搜客的快捷采集工具采集了一批新闻文章,现在要对这些长文做信息提取的处理,自然语言处理那套方法不会用,请问下,集搜客有什么工具可以快速提取出非结构化文本比如新闻的核心事件吗?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2020-3-11 10:30

ym 版主 发表于 2020-3-10 17:24:39 | 显示全部楼层
本帖最后由 ym 于 2020-3-10 17:35 编辑

可以用集搜客采摘浏览器的摘录功能,可以直接对线上的新闻网页做人工标注,摘录出核心事件的内容,这个工具常常用作非结构化网页信息的提取,以及数据指标的整理,可以大大提高信息提取和整理的效率。
QQ截图20200310172808.png
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:30:16 | 显示全部楼层
嗯嗯,我试试
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:31:42 | 显示全部楼层
摘录完之后,在哪里可以下载到摘录结果?
举报 使用道具
ym 版主 发表于 2020-3-10 17:32:55 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 17:31
摘录完之后,在哪里可以下载到摘录结果?

点击左栏右上角的统计数按钮就会进入到摘录的管理后台,在“我的摘录”里可以下载到摘录内容的数据表
QQ截图20200310172852.png
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 17:34:49 | 显示全部楼层
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?
举报 使用道具
ym 版主 发表于 2020-3-10 17:37:10 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 17:34
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?

目前是下载全部的摘录,我们未来版本会对下载功能做改进优化,把按书签下载考虑进去
举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 18:06:31 | 显示全部楼层
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录
QQ截图20200310180202.png
举报 使用道具
ym 版主 发表于 2020-3-10 18:26:54 | 显示全部楼层
Ccc_雨 发表于 2020-3-10 18:06
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录

...

用excel函数textjoin() 和filter()函数就可以实现,在excel里命名“摘录表”、“整理表”两个工作表,摘录表是下载的摘录结果,整理表是用来转换格式的,具体操作如下:
1、“摘录表”的摘录时间,默认是降序,我们要改为升序,因为要按时间顺序来拼接摘录内容
QQ截图20200310181833.png
2、把“摘录表”网址列拷贝到“整理表”的A列,并且过滤重复
3、然后在B2格子里填写下面的函数式,再点击格子右下角的+符号,就可以自动填充计算下面行的摘录内容了
=TEXTJOIN("",TRUE,FILTER(摘录表!F:F,摘录表!B:B=A2,""))
QQ截图20200310181750.png

举报 使用道具
Ccc_雨 初级会员 发表于 2020-3-10 18:29:15 | 显示全部楼层
嗯嗯,非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何使用微博工具箱-以采集微博关键词搜索
  • “只用规则中的输入词”选项的使用方法
  • 去资源库下载规则,轻松抓数据
  • 采集下载指定网页区域内的所有图片
  • 如何使用快捷采集-以京东评论采集为例

热门用户

GMT+8, 2021-5-12 03:41