采集后很多的没有下载地址不知道哪里出了错误
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-16 00:43

沙发
Fuller 管理员 发表于 2016-11-16 00:43:09 | 只看该作者
这个规则加载不成功,也无法测试。只能猜测

方案1:

如果你想把所有图片都下载下来,但是,一篇文章中有多少图片你是不知道的,那么最常用的方法是建立一个样例复制规则,或者用定位标志抓取多样例,无论用哪种,都需要在整理箱中建立一个容器节点,在这个容器节点上做样例复制,或者定位标志映射,才能把多个样例都采集下来。

我估计你是在顶层节点“列表”上做了样例复制,但是,这样就不对了,因为每个图片并不是都有 1)标题,2)图片;3)下载链接 。所以就会采集不全。标题显示是整篇文章的标题,而不是每个图片的标题。而是应该改造成下图整理箱结构,把“下载链接”变成“图片”的子节点,这样形成一个嵌套整理箱(套了两层),“图片”变成容器节点,就能用定位标志映射抓取多实例。结构很像这个文档《采集图片网址并下载图片



方案2:

把整篇文章映射给“图片”,这样就能把文字和里面的所有图片都存下来。我看你已经设置了“高级设置”,但是映射给“图片”的DOM节点代表的网页范围太小了,没有包含所有图片。如下图,大范围映射才行



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 04:50