GooSeeker
首页
软件和服务
解决方案
资助和合作
下载
文档
联系我们
技术交流
文档
术语解释
MetaSeeker v4.x速成手册
MetaSeeker v4.x 安装手册
MetaStudio v4.x 用户手册
DataScraper V4.x用户手册
MetaSeeker v3.x 安装手册
MetaStudio v3.x 用户手册
DataScraper v3.x用户手册
MetaSeeker v2.0 安装手册
MetaStudio v2.0 用户手册
DataScraper v2.0 用户手册
MetaSeeker v2.0 操作实例
MetaStudio 高级用户手册
MetaStudio v2.0 故障手册
FAQs
Home
›
术语解释
信息提取指令文件
Wed, 08/06/2008 - 22:20 — Tom
DataScraper
进行
Web页面抓取和数据抽取(信息提取)
的过程需要信息提取指令文件的指导,这些文件存储了
MetaStudio
计算出来的
信息提取规则
,有四类指令文件:
数据提取指令文件
:也称为MAP文件,实际上是一个XSLT指令文件,能够将目标页面信息进行转换,并序列化成XML文件,即
信息提取结果文件
。如果
数据结构指令文件
存在则该文件存在。
数据结构指令文件
:也称为GEM文件,该文件是对信息提取结果的数据结构的描述,例如,有哪些
Bean
,有哪些
信息属性
及其特性等等。如果
信息结构
中有关于数据提取规则的定义则该文件存在。
线索提取指令文件
:也称为SCE文件,用于从目标页面中提取线索。如果
信息结构
中有关于线索提取规则的定义则该文件存在。
信息结构识别规则文件
:也称为DSD文件,用于检验目标页面是否符合本
主题
下某个
信息结构
。该文件总是存在。
‹ SpiderClue
up
信息提取工作流指令文件 ›
Login
or
register
to post comments
English
Languages
简体中文
English
User login
Username:
*
Password:
*
CAPTCHA
请回答下面的问题(该措施为了排除自动广告发布程序的侵扰):
What code is in the image?:
*
Copy the characters (respecting upper/lower case) from the image.
Create new account
Request new password
友情链接
Faram Phone
深圳天据电子商务
北京西楚网讯