网页提取软件DataScraper怎样抓取结构不同的页面?

问:如果我使用语义结构描述软件MetaStudio定义了某个论坛帖子的信息结构A和网页内容提取规则,在使用网络蜘蛛DataScraper提取论坛帖子的时候,发现有些帖子网页的结构变化了,我需要定义多个主题吗?


答:只需要一个主题而多个信息结构,主题的名词解释已经说明了主题和信息结构之间的关系,主题用于表示特定的语义结构,例如,论坛帖子列表和帖子详细内容是两个不同的主题,因为有不同的语义,又如博主个人信息和博客文章也是两个具有不同语义的主题,但是,无论论坛还是博客,都有很多论坛帖子和博客文章,不同实例之间的网页结构可能有些不同,但是语义是一致的,例如,属于商业软文类别的博客文章可能与属于个人情感生活的日记博客的网页结构有细微差别,但是他们的语义相同,都是“博客”,(注意语义并不指文章内容的意思,而是关于文章的元数据),这种情况下应该在同一个主题下定义多个信息结构,多个信息结构反映不同的网页结构,而语义不变。另外,网页提取软件DataScraper是一个定题爬虫,按照主题执行提取任务,如果定义了多个主题,就需要执行多次信息提取任务,显然不符合本问题的目标。