本实例是实例2的后续操作。使用以下目标网站:http://www.locoso.com/detail/xxxx
要从企业主页上提取信息,需要的步骤同 前一个实例相同,但是,在企业主页上一般没有列表形式的信息,所以一般只使用一个样例复制品即可。
因为本实例是实例2的后续操作,不需要手工加载目标页面,只需要在Theme List工作台上识别(recognize)新发现的主题(ComPage_locoso)并为其定义信息提取(网页抓取/抽取)规则即可,系统会自动选择和加载一个样本页面。由于很多操作与实例1和实例2类似,在此仅仅讲解几个主要的步骤,其它步骤和顺序与实例1和实例2是相同的。
在MetaStudio的Theme List工作台上浏览主题列表,找到ComPage_locoso,当前处于torecognize状态。点击右键菜单recognize,加载样本页面。
小技巧:随着主题列表的增长,顺序查找一个主题很费时,MetaStudio提供了带有匹配符的查询功能,在主题列表的操作区有个输入框,输入完整的主题名或者带有匹配符(*)的主题名,例如*Page*,ComPage*或者*Page_locoso,回车就会查询到匹配的主题。
注意:由于工作台上有上一次操作的信息结构,所以系统会提示你是否清空工作台,应该选择“确定”。
在该网站的公司主页上,没有列表类型的内容,所以只需要一个样例复制品即可。下图是信息属性的映射关系。
被提取的信息属性中有多个具有block特性的信息属性,address信息属性代表地址信息,城市名和街道名是在不同的文本(#text)节点下存储,本例没有将其分开存放,而是使用一个统一的address属性,该属性的block特性设置成提取所有包含的文本。在本例中,电话号码是用一个图片存储的,所以使用一个block特性设置成提取所有IMG的信息属性与其对应。detailed information信息属性的block特性设置成提取完整的HTML文档片段,可以提取所有包含的信息,并保留原页面的文档结构信息。
本用例没有提取线索,至此,可以将信息结构和指令文件上载到服务器上。