练习5:翻页的信息提取_记号线索法 | |||
![]() |
步骤三:为Clue(线索)做映射。 | ||
【目的】:将网页和新建的线索(Clue)关联起来。 | |||
【实际操作】 首先要做线索位置的映射: 1 "unmapped",即线索clue 0未做提取位置的映射。 2 据节点序号提示,找到的是HTML的A元素,其子节点text对应内容为"下一页"。 因系统规定只有HTML的元素才能做线索位置的映射,所以,此text不能做线索位置的映射。 又因"下一页"在网页页码行的最后,若用其父节点A元素定位,页码行增减新元素时(譬如:切换到"第二页"时,会新增"上一页"),"下一页"的位置会变动。 3 其父父节点DIV,是整条页码行的节点,可用来做线索位置的映射。 4 右键节点DIV-线索映射-线索映射-选择要映射到的线索编号(本例为:s_clue 0)。 5 可见1851行(本例)即线索所在的位置,已被映射到clue 0。 其次要做线索内容(本例为记号"下一页")的映射: 6 找到"下一页"精准对应节点(A元素下text行)。 7 右键此行-线索映射-记号映射。 8 "记号节点"后可见序号"1918";"记号值"中可见"下一页"。 线索映射完成。 以下的上载、提取步骤同前,不赘述。 |
|||
![]() |
|||
Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved. |