我采集阿里巴巴的页面,发现部分分页的网址采集错误,部分正确,最后发现,这部分错误的网址均是首页的广告,怎么设置在采集的时候排除这些广告,或者怎么修正把广告也采集了呢?虽然为广告,但是页面中的网址是正确的,但是采集出来的就是错误的。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-8-23 09:42

沙发
Fuller 管理员 发表于 2017-8-21 09:40:08 | 只看该作者
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文件的时候,根据网址特征,过滤掉广告
举报 使用道具
板凳
ybzhsq 新手上路 发表于 2017-8-21 10:58:09 | 只看该作者
Fuller 发表于 2017-8-21 09:40
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文 ...

自定义xpath的方式是什么,在哪里操作
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-8-23 09:42:43 | 只看该作者
ybzhsq 发表于 2017-8-21 10:58
自定义xpath的方式是什么,在哪里操作

《自定义xpath:精确采集 》看下这个教程,使用自定义xpath能够使采集更加精准

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-30 13:33