我采集阿里巴巴的页面,发现部分分页的网址采集错误,部分正确,最后发现,这部分错误的网址均是首页的广告,怎么设置在采集的时候排除这些广告,或者怎么修正把广告也采集了呢?虽然为广告,但是页面中的网址是正确的,但是采集出来的就是错误的。



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-8-23 09:42

沙发
Fuller 管理员 发表于 2017-8-21 09:40:08 | 只看该作者
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文件的时候,根据网址特征,过滤掉广告
举报 使用道具
板凳
ybzhsq 新手上路 发表于 2017-8-21 10:58:09 | 只看该作者
Fuller 发表于 2017-8-21 09:40
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文 ...

自定义xpath的方式是什么,在哪里操作
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-8-23 09:42:43 | 只看该作者
ybzhsq 发表于 2017-8-21 10:58
自定义xpath的方式是什么,在哪里操作

《自定义xpath:精确采集 》看下这个教程,使用自定义xpath能够使采集更加精准

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 14:06