信息结构识别规则文件,也称为DSD文件,用于检验目标页面是否符合本主题下某个信息结构。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.dsd.xml。文件结构解释如下:
<?xml version="1.0" encoding="gbk"?>
<geometa-data-schema>
<theme>food_industry_category</theme> <!-- 主题名称 -->
<gem>food_industry_category.gem.xml</gem> <!-- GEM文件名字 -->
<sce>food_industry_category.sce.xml</sce> <!-- SCE文件名字 -->
<exist> <!-- 用XPath表达式表示的校验规则,exist表示存在性规则 -->
<path from="HTML"><![CDATA[count(//*[@id='ul-id-blue']/li/p[count(./a/text())>0])>0]]>
<context>//*[@id='blueFrame']</context>
</path>
</exist>
</geometa-data-schema>
其中
- path元素的from属性可以取以下值:
- HTML:表示直接对页面进行模式检验
- transDOM_xxx:表示对第几个变换后的DOM进行检验。xxx是MAP文件的排号。