定义提取网页中的超链接的规则

提取网页中的超链接和提取网页中的数据网页数据提取/网络爬虫软件工具包MetaSeeker的两个核心任务,都需要提取规则的指导,同定义网页数据提取规则相比,提取网页中的超链接的规则定义要简单得多,主要原因是超链接本身有标准的格式,很容易从网页中识别出来,而且不用像提取网页数据那样要定义语义结构,因为超链接只有唯一的语义:给网络爬虫或者网页阅读者提供线索,以便从广度和深度方向在互联网(Web)上冲浪。即便如此,语义结构定义和网页提取规则生成工具MetaStudio仍然提供了多个便利且强大的手段,用以从网页上准确且高效地提取超链接,例如:

  • 根据标志性文字提取网页中的超链接,例如:“下一页”,“>>”等表示翻页的超链接
  • 根据超链接的URL地址特征提取网页中的超链接,当前版本使用地址字符串匹配算法,用户给出地址的前半部分,MetaSeeker识别出前半部分包含该字符串的URL地址
  • 根据超链接在网页上的相对位置进行提取,主要用来提取翻页的超链接,例如,分成多页,用不同页码标识,[1],[2], ..., 但是没有第一种情形的标志
  • 在网页中的特定位置提取单个超链接
  • 从提取到的网页数据中提取超链接,也就是说超链接本身也是信息结构中的某个信息属性,在网页数据提取阶段已经提取下来了,从存储提取结果的整理箱中拿出来即可。

超链接提取规则是一组在目标页面上定位线索的XPath表达式,这组表达式由MetaStudio计算生成的,用户只需要告知MetaStudio在样本页面的什么位置提取线索,此操作称为线索映射,在Clue Editor工作台上完成。完成后,MetaStudio将所有超链接提取规则存放在线索提取指令文件(SCE文件)中。