练习1:单一网页的数据提取
上一页 | 下一页
 
    步骤五(续1):样例复制品映射。
 
【目的】:寻找并确定网页上前两条记录各自的顶层节点,将其分别映射到信息属性的顶层容器。

【实际操作】
1 确定已选中信息属性的顶层容器"基本信息"。
2 右键点击"样例复制品管理"区域;
3 弹出并选中"激活第二个样例复制品",以能对顶层容器做两次映射;
4 可见,激活后未作映射时,均是"unmapped"状态。(0代表首个样例、1代表第二个样例)
5 选中首条记录的顶层节点(本例:832行);
6 右键此行-选择"样例复制品映射"-选择"第一个";
7 可见832行的节点被映射到首个样例。
8-10 同理。选中第二条记录的顶层节点,右键本行-样例复制品映射-第二个,则935行的节点被映射到第二个样例。

至此,我们: 1) 通过Theme Editor,命名了主题(任务名称); 2) 通过Bucket Editor,创建了一组信息属性; 3) 借助网页反向DOM定位,将网页上样本数据所对应的DOM节点映射到了信息属性及其顶层容器,建立了提取规则。

   
   
Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved.