怎样关联网页文字抓取结果文件

网络爬虫的名词解释中我们形象地看到网页文字抓取器顺着网页文字抓取线索爬行Web(万维网),很多时候,从一个网页爬行到另一个网页时,网页文字抓取主题改变了,也就是说这两个网页属于不同的语义范畴,例如,主题A用于抓取论坛网站的帖子列表页,主题B用于抓取论坛帖子详细内容页,为主题A执行网页文字抓取操作时,会抓取到很多线索,用于抓取主题B的网页文字,运行网页文字抓取器DataScraper分别抓取主题A和B后,网页文字抓取结果文件分别存在以主题A和B命名的目录中,如果数据集成程序(也就是将网页文字抓取结果文件内容集成到其他系统的软件)需要将两个主题的网页文字抓取结果文件合并计算,需要关联两者,本文介绍使用网页文字抓取结果文件中的什么内容进行关联。

每个网页文字抓取结果文件都有一些固定格式的内容,与主题的信息结构无关,例如,XML元素<clueid>,<fullpath>,<theme>,<middle>等,这些元素都包含文本内容,其中<theme>和<middle>组合在一起唯一确定一个信息结构,<clueid>是网页文字抓取线索的编号,是唯一的。<fullpath>表示从哪个网页上抓取到的文字内容。

关联主题A和B的网页文字抓取结果主要使用fullpath,主题A的结果文件存储了一系列论坛帖子,为列表中的每个帖子除了抓取其它信息外,主要抓取帖子页面地址URL,这个URL与该帖子页面的抓取结果文件中的fullpath一致,通过比较这两项内容就可以关联两个主题的网页文字抓取结果文件。