结构相同,数量不定的几块内容怎么准确按标签抓取到

想抓取这个网页的详细数据
http://www.boohee.com/shiwu/yumi_xian

上半部分的“别名”、“热量”、“分类”、“评级”、“评价”放在5个P节点中,而且没有id和class,但是有的网页中没有“别名”这一项,那么抓取到的所有网页放在一起就会出现标签不对应,没有“别名”这一项的网页热量内容就对应到了“别名”,这种情况怎么解决?

下面的“介绍”、“营养价值”、“食用效果”、“适用人群”、“相关食物”class都是part divide10,用block抓取整段内容,回车符抓不到,同样也会出现上面提到的标签不对应问题。

最好使用自定义XPath表达式

首先找一个最全的网页作为样本网页。做完映射后,点击MAP按钮可以看到生成的抓取规则,然后,为每个信息属性定义自定义XPATH规则。参照自动生成的每个信息属性的抓取规则,自动生成的是XSLT,每个信息属性用一个XPath进行提取,自己写一个替换这个自动生成XPath。在XPath中使用字符串函数,比如,contains(., "别名"),就会在网页上找到“别名”这个字符串才抓取。具体怎样用需要看看XPath的介绍材料。

如果有些字段在某些网页上没有,则信息属性不要设置key特性

谢啦

谢啦 全部按标签抓到啦

只是抓取结果如果放到excel里会非常乱,xml格式又不方便用。一般以什么格式存储会清楚好用啊