这个页面抓取看是简单,其实比较难

主题名:mapsogouceshi1

只想抓取到电话。可是只能抓取部分。求解

修改后的网页抓取规则

发现是每个节点位置不一样,而且没有class值,我把映射关系做了调整,主题名是 电话号码_fuller 。你可以用MetaStudio加载上来参考一下。主要的技巧:
1,本来可以用FreeFormat映射提高定位的精确度,但是,网页上的FreeFormat标志含有一些特殊字符,比如,@class='poiItem',含有特殊字符,用了FreeFormat映射后会采集到部分结果。所以,为了采集多实例,用了样例复制品
2,网页把公司信息分成行和列,为了采集多个列同时采集多个行,定义了一个多级容器,list那级对应行,col那级对应列,都用样例复制品采集多实例
3,为了在整个网页上准确地找到这个列表,又给最顶层节点做了FreeFormat映射,把代表这个列表的@class='list‘,映射给顶层节点
4,有些公司没有地址,那么信息行数变少,为了准确定位”电话:xxxx“,利用了“电话” 这个标志,写了自定义XPath
5,因为有时候不出现电话,所以,这个信息属性不能设置key特性

虽然这个网页看起来很简单,但是要用很多技巧