比如
<span class="txt1"></span>
<span class="txt2"></span>
<span class="txt3"></span>
请问如何获取各个span的class属性,即txt1,txt2,txt3
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-10-11 14:59

沙发
gooseeker_info 金牌会员 发表于 2015-10-10 16:42:57 | 只看该作者
在MS谋数台的网页结构窗口上,每个class都有一行,选中这一行,做内容映射,跟抓text是一样的
举报 使用道具
板凳
zuifengyun 新手上路 发表于 2015-10-10 17:00:15 | 只看该作者
gooseeker_info 发表于 2015-10-10 16:42
在MS谋数台的网页结构窗口上,每个class都有一行,选中这一行,做内容映射,跟抓text是一样的 ...

比如在class="txt1"上做内容映射,则只会抓取class为txt1的span,其余的为空,我刚刚看了一下其他的问题,得到启发,在自定义抓取规则里选择“自定义XPath”和“文本内容”,并且设置抓取内容表达式为*//*[substring(@class,1,3)='txt']/@class,这样就可以得到txt1,txt2,txt3了
举报 使用道具
地板
gooseeker_info 金牌会员 发表于 2015-10-10 17:35:03 | 只看该作者
zuifengyun 发表于 2015-10-10 17:00
比如在class="txt1"上做内容映射,则只会抓取class为txt1的span,其余的为空,我刚刚看了一下其他的问题 ...

我觉得也可以不用自定义xpath,在整理箱中定义一个容器节点,这个容器节点下在定义抓取内容存储这些class值,那么为这个容器节点做样例复制映射,用包含这些class的SPAN作为样例,应该也能抓下来
举报 使用道具
5#
zuifengyun 新手上路 发表于 2015-10-11 13:26:16 | 只看该作者
gooseeker_info 发表于 2015-10-10 17:35
我觉得也可以不用自定义xpath,在整理箱中定义一个容器节点,这个容器节点下在定义抓取内容存储这些class ...

还有一个问题,一个div中的内容为“2015-10-11 发表于”,我只想抓取时间而不想要后面的“发表于”,这该怎么办?
举报 使用道具
6#
Fuller 管理员 发表于 2015-10-11 14:59:48 | 只看该作者
zuifengyun 发表于 2015-10-11 13:26
还有一个问题,一个div中的内容为“2015-10-11 发表于”,我只想抓取时间而不想要后面的“发表于”,这该 ...

要用自定义xpath,可以设置抓取内容的xpath表达式和定位的xpath表达式不同。其中,抓取内容的xpath是substring-before(xxxxx, '发表于')。xxxxx也是xpath表达式,是定位的这个节点的。作为定位表达式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 17:08