线索提取指令文件也称为SCE文件,用于从目标页面中提取线索。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.sce.xml。文件结构解释如下:
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>testTheme</theme> <!-- 主题名 -->
<scope> <!-- scope规则,另一个取值是juston(未用) -->
<from>HTML</from> <!-- 该规则应用的对象,HTML表示应用于HMTL页面;transDOM表示应用于中间DOM -->
<path-type>a</path-type> <!-- 下面的XPath表示的是那一类对象,在后面解释 -->
<path> <!-- 用XPath表达式表示的对象位置 -->
/html/body/p/a
<context>//*[@id='blueFrame']</context> <!-- 如果对象位于IFRAME/FRAME中,表示嵌套层次 -->
<context>//*[@id='rightFrame']</context>
</path>
<relative>//*[@id='listbottom']</relative> <!-- 在path-type是relative的情况下表示path指定的元素的父元素-->
<clue-type>newthread</clue-type> <!-- 线索类型:newthread或者inthread -->
<target-theme> <!-- 如果是newthread,新的主题名称 -->
<name>newTheme</name>
<url-prefix><![CDATA[1]]></url-prefix> <!-- 在Pattern Clue类型下使用,表示在该范围内具有什么前缀的URL将被提取 -->
<prefix-position>hostname+pathname</prefix-position> <!-- 未用 -->
</target-theme>
</scope>
</spider-clue-extraction>
其中
path-type可以取下面的值
- a: 表示path代表一个HTML A元素
- href: 表示path代表一个HTML A元素的href属性
- scope: 暂时没有使用
- relative:用于Relative Clue类别