媒体类网站采集，详情结构不一样

lan_1985

国家税务总局税收政策_政策解读_详情

媒体类网站采集，详情结构不一样，信息采不全，做两条规则，但都只跑第一条规则，导致使用规则2的数据没有跑全，这么问题怎么解决呀。

Fuller · 发表于 2018-11-29 18:32:29

我看规则1有文章来源，规则2没有，那只保留规则1就行了，文章来源不要勾关键内容，就能适应两个网页

Fuller · 发表于 2018-11-29 18:38:53

我看了规则1，你用了自定义xpath

复制代码

这是比较危险的，网页上可能会有很多含有“来源”这个词的文本，会抓错的。不能用 // 开头，范围太广了，而应该相对于整理箱

共 2 个关于本帖的回复最后回复于 2018-11-29 18:38

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页