练习5:翻页的信息提取_记号线索法
上一页 | 回首页
 
  步骤三:为Clue(线索)做映射。
 
【目的】:将网页和新建的线索(Clue)关联起来。
【实际操作】
首先要做线索位置的映射:
1 "unmapped",即线索clue 0未做提取位置的映射。
2 据节点序号提示,找到的是HTML的A元素,其子节点text对应内容为"下一页"。
因系统规定只有HTML的元素才能做线索位置的映射,所以,此text不能做线索位置的映射。
又因"下一页"在网页页码行的最后,若用其父节点A元素定位,页码行增减新元素时(譬如:切换到"第二页"时,会新增"上一页"),"下一页"的位置会变动。
3 其父父节点DIV,是整条页码行的节点,可用来做线索位置的映射。
4 右键节点DIV-线索映射-线索映射-选择要映射到的线索编号(本例为:s_clue 0)。
5 可见1851行(本例)即线索所在的位置,已被映射到clue 0。
其次要做线索内容(本例为记号"下一页")的映射:
6 找到"下一页"精准对应节点(A元素下text行)。
7 右键此行-线索映射-记号映射。
8 "记号节点"后可见序号"1918";"记号值"中可见"下一页"。
线索映射完成。
以下的上载、提取步骤同前,不赘述。
 
Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved.