5 14133

什么是 Data Extraction

马涌河畔 于 2020-9-16 08:59 发表 [复制链接]
经常看到 Data Extraction ,这个词是什么意思?

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-9-17 11:35

内容分析应用 金牌会员 发表于 2020-9-16 09:01:12 | 显示全部楼层
这里有个定义:
Definition - What does Data Extraction mean?

Data extraction is where data is analyzed and crawled through to retrieve relevant information from data sources (like a database) in a specific pattern. Further data processing is done, which involves adding metadata and other data integration; another process in the data workflow.

The majority of data extraction comes from unstructured data sources and different data formats. This unstructured data can be in any form, such as tables, indexes, and analytics.




举报 使用道具
内容分析应用 金牌会员 发表于 2020-9-16 09:04:36 | 显示全部楼层
数据提取是以特定模式从数据源(如数据库)中检索相关信息,对数据进行分析和爬取。

完成了进一步的数据处理,这涉及添加元数据和其他数据集成;数据工作流程中的另一个过程。

大部分数据提取来自非结构化数据源和不同的数据格式。这些非结构化数据可以采用任何形式,例如表,索引和分析。
举报 使用道具
Fuller 管理员 发表于 2020-9-16 10:10:11 | 显示全部楼层
集搜客网络爬虫运行的目的就是Data Extraction,因为Data Extraction的含义挺丰富的,集搜客网络爬虫可以算作一种,是从html中把数据提取出来,转换成结构化的。而html已经是办结构化的了,所以,相当于定义模板,把半结构化的转换成严格结构化的。定义模板就是所谓的定义采集规则
除此之外,还有从自由文本中提取数据的,一般叫做信息抽取,有自动化的,有半自动化的,集搜客的摘录软件是办自动化的,虽然不是全自动,在应对复杂场景和确保准确方面有独特优势。
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2020-9-17 10:27:17 | 显示全部楼层
内容分析应用 发表于 2020-9-16 09:04
数据提取是以特定模式从数据源(如数据库)中检索相关信息,对数据进行分析和爬取。

完成了进一步的数据处 ...

什么是元数据?
举报 使用道具
Fuller 管理员 发表于 2020-9-17 11:35:46 | 显示全部楼层

元数据,meta data,就是说明数据内容的含义的。比如,一个学生名单的excel,第一行可能是header行,内容是“姓名”,“班级”,“专业”等等,“姓名”这些字符串就是元数据,用来说明后续行的对应单元格中的“张三”,“李四”的含义,也就是说他们的含义都是姓名。再如,同样的数字,“185", "120",光看数字并不知道确切含义,需要用元数据描述一下,比如,前者是“身高”,“体重”

集搜客网络爬虫软件就是要对网页上的内容标注出来含义,就可以把网页内容转换成结构化的excel表格了。集搜客爬虫的直观标注可以清楚地看到这个特点,在网页上打标签,就能把数据转换成excel表格。

标签20200917112015.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 06:25