部分分页的网址采集错误

ybzhsq

我采集阿里巴巴的页面，发现部分分页的网址采集错误，部分正确，最后发现，这部分错误的网址均是首页的广告，怎么设置在采集的时候排除这些广告，或者怎么修正把广告也采集了呢？虽然为广告，但是页面中的网址是正确的，但是采集出来的就是错误的。

Fuller · 发表于 2017-8-21 09:40:08

我建议采集的时候不过滤，否则，采集规则会变得复杂，要用自定义xpath的方式进行过滤。

可以在处理结果文件的时候，根据网址特征，过滤掉广告

ybzhsq · 发表于 2017-8-21 10:58:09

Fuller 发表于 2017-8-21 09:40
我建议采集的时候不过滤，否则，采集规则会变得复杂，要用自定义xpath的方式进行过滤。

可以在处理结果文 ...

自定义xpath的方式是什么，在哪里操作

shengchengx · 发表于 2017-8-23 09:42:43

ybzhsq 发表于 2017-8-21 10:58
自定义xpath的方式是什么，在哪里操作

《自定义xpath：精确采集》看下这个教程，使用自定义xpath能够使采集更加精准

共 3 个关于本帖的回复最后回复于 2017-8-23 09:42

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页