数据提取指令文件也称为MAP文件,实际上是一个XSLT指令文件,能够将目标页面的结构进行转换,从中提取需要的数据,并将结果数据结构序列化成XML文件,即信息提取(网页抓取/抽取)结果文件。
该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.gem.xslt。由于这个文件是标准的XSLT文件,对文件结构不做进一步说明。
数据提取指令文件也称为MAP文件,实际上是一个XSLT指令文件,能够将目标页面的结构进行转换,从中提取需要的数据,并将结果数据结构序列化成XML文件,即信息提取(网页抓取/抽取)结果文件。
该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.gem.xslt。由于这个文件是标准的XSLT文件,对文件结构不做进一步说明。