提取网页中的超链接和提取网页中的数据是网页数据提取/网络爬虫软件工具包MetaSeeker的两个核心任务,都需要提取规则的指导,同定义网页数据提取规则相比,提取网页中的超链接的规则定义要简单得多,主要原因是超链接本身有标准的格式,很容易从网页中识别出来,而且不用像提取网页数据那样要定义语义结构,因为超链接只有唯一的语义:给网络爬虫或者网页阅读者提供线索,以便从广度和深度方向在互联网(Web)上冲浪。即便如此,语义结构定义和网页提取规则生成工具MetaStudio仍然提供了多个便利且强大的手段,用以从网页上准确且高效地提取超链接,例如:
超链接提取规则是一组在目标页面上定位线索的XPath表达式,这组表达式由MetaStudio计算生成的,用户只需要告知MetaStudio在样本页面的什么位置提取线索,此操作称为线索映射,在Clue Editor工作台上完成。完成后,MetaStudio将所有超链接提取规则存放在线索提取指令文件(SCE文件)中。