管理Web页面抓取线索

在Web页面抓取工具DataScraper的主题列表上有个鼠标右键弹出菜单项线索,下面有三个子菜单:

  • 统计
  • 激活
  • 去活

用于管理某个主题的Web页面抓取线索。首先在主题列表上选中某个主题,然后点击上述三个子菜单。

  • 统计,点击后显示该主题的线索数量
    • start:表示处于start状态的线索,也就是等待抓取的线索
    • fetched:表示该线索已经被DataScraper取走,但是没有抓取完成,可能原因是:1,正在抓取;2,抓取操作被打断了。
    • unknownschema:表示DataScraper抓取这个线索指向的网页时发现网页结构不能识别,也就是定义的信息结构不适应。
    • 其它:该数字既包括已经成功抓取完成的线索数也包括其他用户生成的线索数,在一些特定情况下多个用户会共享同一个主题。
  • 激活,假设有处于fetched和unknownschema状态的线索,点击该菜单,这些线索的状态变成了start。注意:激活操作和周期性Web页面抓取的renewClue操作是不一样的,后者能够将以前成功提取过的(属于其它类)、处于fetched状态的、处于unknownschema状态的线索都变成start状态。激活的应用场景是:用户发现有些线索指向的网页结构不能识别,就用MetaSeeker为同一个主题定义了多个信息结构,以便覆盖更多页面结构种类,定义完成后,使用该菜单将以前不能识别的激活,等待DataScraper重新抓取。
  • 去活,将处于start状态的线索划归其它类,不能再次激活了,但是能够通过renewClue操作激活。