练习5:翻页的信息提取_记号线索法 | ||
![]() |
步骤二:新建Clue(线索)。 | |
【目的】:确定Clue类别,并做相应设置。 | ||
【实际操作】 1-2 切换到"Clue Editor",点击"newClue"。以创建编辑新线索。 3 显示"clue0"。线索的默认编号,系统自动生成。 4 我们利用网页上的翻页记号"下一页"(位置:左图第10处)做线索,所以,选中线索类别为"Marker"(记号线索)。 5 鼠标滑到钥匙,会提示:"该线索一定要存在于目标页面上?"。因最后一页不会有"下一页",不勾选; 鼠标滑到右三角,提示:"该线索是inthread类型吗?"。因翻页后提取的内容依旧(并不新增字段),属于inthread(线内)线索,所以,勾选。 6 线内线索的目标主题名与"Theme Editor"中的主题名相同。(反之,应新命名线索的目标主题名) 7 鼠标滑过提示:"作为记号的节点是否为文本"。因"下一页"在本网站是文本(有的网站可能采用图片),勾选。 8 鼠标滑过提示:"全匹配还是部分匹配"。指是否以与"下一页"(本例)完全匹配的HTML片段作为记号(譬如:每页的"下一页"在代码显示时可能有的有空格,有的没空格,则不能采用完全匹配)。勾选。 9-10 勾选反选DOM节点,点击"下一页",下拉滚动条,寻找相应节点,准备做线索映射。 |
||
Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved. |