练习3:FreeFormat法直接创建信息属性&映射
上一页 | 下一页
 
  补充:HTML属性内容的提取。
 
【说明】:内容映射通常用于从text节点提取内容,对于HTML的属性节点,一般用XPATH表达式提取。

【实际操作】
检查本例的提取结果,可见"综合得分"的字段值有遗漏(只提取了"四星商户",而漏掉"准五星商户")
1 观察:为"综合得分"做了内容映射,并借助其父节点做了FreeFormat映射。
2 观察:我们用的是HTML属性title做的内容映射,SPAN节点的class名称为"sstar40"。下方浏览器中点击一漏掉的字段值四颗半星的地方(准五星商户),可见其对应SPAN节点的class名称为"sstar45",推断:若五星,则class名称为"sstar50"。clas名称不一样是漏掉的原因。同时HTML元素一般不采用内容映射的方法,而要用XPath表达式提取。
3 下方MAP文件中,找到"综合得分"的提取规则:
可见:只提取class值为sstar40的title的内容。

Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved.