我现在要抓一个页面,页面如下图所示,箭头指的地方就是我要抓的内容,但是每个项目都不一样,直接用内容映射的话就会抓偏了,是应该要用绝对定位吗?
规则名称:项目发起人信息
样例网址:https://www.indiegogo.com/projec ... schools-education#/
                https://www.indiegogo.com/projec ... n-movies-religion#/

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-2-25 12:36

沙发
Fuller 管理员 发表于 2017-2-25 10:59:18 | 只看该作者
我加载了你的规则,显示的网页怎么不是这样的格式?加载以后还要做点击吗?
举报 使用道具
板凳
saly123 中级会员 发表于 2017-2-25 11:09:10 | 只看该作者
Fuller 发表于 2017-2-25 10:59
我加载了你的规则,显示的网页怎么不是这样的格式?加载以后还要做点击吗? ...

要点击about才能显示截图中的信息
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-25 12:00:19 | 只看该作者
saly123 发表于 2017-2-25 11:09
要点击about才能显示截图中的信息

这个网站很难加载,试了很多次都加载不完。你试一下绝对定位吧,绝对定位最大的问题是:很容易受网页结构变化的影响,这个规则可以抓这个网页,下个网页可能就不行了。

可以试试自定义xpath,虽然麻烦一点,但是可以手工调整表达式,兼顾适应性
举报 使用道具
5#
xandy 论坛元老 发表于 2017-2-25 12:36:22 | 只看该作者
saly123 发表于 2017-2-25 11:09
要点击about才能显示截图中的信息

不要用绝对定位,你可以给要采集的IMPACT所在的内容自定义xpath,可以通过下面的xpath定位的到
  1. //*[@class='campaignTrustInfo-section campaignTrustInfo-section-impacts ng-scope']//*[@class='campaignTrustInfo-sectionContent']
复制代码

先将该class对应的DIV内容映射给采集字段,并在高级设置中
1,勾上自定义xpath
2,勾上文本内容
3,将上面的xpath语句复制进抓取内容表达式



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 00:48