一共做了四层,抓取后前三层是正常的,第四层却只有一个线索。麻烦大神解答一下。主题分别是nbv1/2/3/4
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-9-27 22:25

沙发
Fuller 管理员 发表于 2016-9-27 21:52:55 | 只看该作者
看一下nbv3的结果文件,是否抓到url了?我估计是定位不准造成的,nbv3应该给url这个抓取内容作定位标志映射,就要A节点的父节点SPAN,它有个class='pl',很适合做定位标志映射
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-27 21:55:42 | 只看该作者
刚才我测了一下,用class='pl'作为定位标志不行,网页上有太多pl了
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-27 22:01:01 | 只看该作者

这样做定位标志映射约束地更加严格,定位会更准
举报 使用道具
5#
zxcc123 新手上路 发表于 2016-9-27 22:08:46 | 只看该作者
Fuller 发表于 2016-9-27 21:52
看一下nbv3的结果文件,是否抓到url了?我估计是定位不准造成的,nbv3应该给url这个抓取内容作定位标志映射 ...

第三级是可以抓到url的,定位标志也做了,但是最后一级只显示一个线索。
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-27 22:18:55 | 只看该作者
zxcc123 发表于 2016-9-27 22:08
第三级是可以抓到url的,定位标志也做了,但是最后一级只显示一个线索。 ...

一个第三级页面抓到一个第四级线索,是不是这样?那么就需要很多第三级页面,每个抓到一个线索。你运行了一批第三级的线索,还看到一个第四级线索?
举报 使用道具
7#
zxcc123 新手上路 发表于 2016-9-27 22:25:56 | 只看该作者
Fuller 发表于 2016-9-27 22:18
一个第三级页面抓到一个第四级线索,是不是这样?那么就需要很多第三级页面,每个抓到一个线索。你运行了 ...

恩,我懂了,问题已经解决。谢谢你啦。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 06:38