结构相同，数量不定的几块内容怎么准确按标签抓取到

Thu, 10/17/2013 - 18:04 — troygaohe

想抓取这个网页的详细数据
http://www.boohee.com/shiwu/yumi_xian

上半部分的“别名”、“热量”、“分类”、“评级”、“评价”放在5个P节点中，而且没有id和class，但是有的网页中没有“别名”这一项，那么抓取到的所有网页放在一起就会出现标签不对应，没有“别名”这一项的网页热量内容就对应到了“别名”，这种情况怎么解决？

下面的“介绍”、“营养价值”、“食用效果”、“适用人群”、“相关食物”class都是part divide10，用block抓取整段内容，回车符抓不到，同样也会出现上面提到的标签不对应问题。

Web信息提取

Thu, 10/17/2013 - 18:17 — Fuller

最好使用自定义XPath表达式

首先找一个最全的网页作为样本网页。做完映射后，点击MAP按钮可以看到生成的抓取规则，然后，为每个信息属性定义自定义XPATH规则。参照自动生成的每个信息属性的抓取规则，自动生成的是XSLT，每个信息属性用一个XPath进行提取，自己写一个替换这个自动生成XPath。在XPath中使用字符串函数，比如，contains(., "别名")，就会在网页上找到“别名”这个字符串才抓取。具体怎样用需要看看XPath的介绍材料。

如果有些字段在某些网页上没有，则信息属性不要设置key特性

Fri, 10/18/2013 - 10:54 — troygaohe

谢啦

谢啦全部按标签抓到啦

只是抓取结果如果放到excel里会非常乱，xml格式又不方便用。一般以什么格式存储会清楚好用啊

GooSeeker

结构相同，数量不定的几块内容怎么准确按标签抓取到

最好使用自定义XPath表达式

谢啦

切换语言