信息结构描述文件是使用MetaStudio描述Web页面信息结构的产物,存储在MetaCamp服务器上。同时MetaStudio依据该信息结构计算生成Web页面信息提取(网页抓取/抽取)指令文件,即HTML Wrapper(包装器)。
信息结构描述文件是一个XML文件,缺省存放在服务器的$CATALINA/work/MetaCamp/context/extraction/meta/<主题名>下,文件名后缀是.meta.xml。本文件由MetaStudio产生和使用,将MetaSeeker集成到其他Web服务中时不会涉及这个文件,因此,对文件内容不做详细解释。
注意,存放在Tomcat的work目录下也许不是一个好注意,因为Tomcat升级时有被清空的风险。例如,MetaCamp安装在Fedora操作系统上,Tomcat可以通过Yum程序进行升级,升级过程中work目录被清空。为了防止丢失工作成果,升级前要做好备份。