命名网页信息抽取的主题

定题网络爬虫和定题网页信息抽取的目标内容都聚焦于特定主题,所谓主题就是反映特定的语义,所以,定题网页信息抽取的结果一般是结构化的数据,例如,网页信息抽取工具软件DataScraper将抽取结果存成XML文件,语义元数据直接用XML标签标识;而网页信息抽取软件工具包MetaSeeker的另一个工具MetaStudio在为DataScraper生成网页信息抽取规则时必须起一个主题名,然后才能执行下一节讲述的信息结构定义和网页信息抽取规则生成操作。命名主题的操作是在MetaStudio的Theme Editor工作台上进行的。



如图所示,Theme Editor工作台的操作区中有三个可编辑项:

  • 主题名:主题名代表了被抽取的网页信息的语义,如果名字与服务器上现有的名字重复,在上载信息结构(upload,后面章节介绍)时会给用户以提示,届时用户需要重新修改名字,为了避免这种盲目的尝试,操作区右边有两个按钮:核实查询都可以用来检查是否重名。可接受的名字只能包括汉字、英文字母大小写、数字和下划线,不能有空格,而且只能是XML标准允许的作为XML标签的字符。推荐使用<代表主题语义的字符串>.<网站主机名>格式。
  • 辅名: 这个字段名字读起来很拗口,它用来区别同一主题下的不同信息结构,用不同的信息结构可以体现同一主题下的不同网页结构的细微变化。可接受的辅名只能包括英文字母大小写、数字和下划线,而且只能是XML标准允许的作为XML标签的字符。可以保持缺省名字default不变。
  • 页面地址:用户可以不必理会该字段,页面加载时该字段自动填入。实际上该字段并不是完整的网页URL地址,而是URL中的前半部分,一般来说,某个目录路径下存放的网页具有相同的信息结构,所以,用户可以手工编辑该字段,将完整的网页URL地址截短到反映特定语义的网页聚合路径,如果用户不修改该字段,网页信息抽取系统MetaSeeker可以自行截取,在截取时可能会提示用户URL地址被截短了,一般是在截短过长的URL地址时才作上述提示。

操练

输入以下内容:

  • 主题名: ComList_en_ali
  • 辅名: 1