我想抓取指定的“”Contact Person:“”和“”Position:“”后面的“Simon Lee”和“”Marketing Manager“”,因为网页结构不一样,想问一下Xpath应该怎么写
[size=0.9375em]Contact Person:
[size=0.9375em]Simon Lee
[size=0.9375em]Position:
[size=0.9375em]Marketing Manager




擷取.PNG (37.31 KB, 下载次数: 431)

擷取.PNG
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-1-26 14:04

沙发
数据集 高级会员 发表于 2018-1-26 11:24:37 | 只看该作者
本帖最后由 数据集 于 2018-1-26 11:26 编辑

自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块节点,类似这样//*[contains(.//text(),'Contact Person:')],再定位你要抓取的内容。具体网页结构在具体修改,详情可参考《xpath常用函数》
举报 使用道具
板凳
qq123456654321 初级会员 发表于 2018-1-26 13:44:55 | 只看该作者
数据集 发表于 2018-1-26 11:24
自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块 ...

请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信息,我想要选取“Contact person:”后的内容,我应该是怎么修改网页偏好class的信息运用在contains那里?
谢谢

屆111111.PNG (66.21 KB, 下载次数: 396)

屆111111.PNG
举报 使用道具
地板
数据集 高级会员 发表于 2018-1-26 14:04:05 | 只看该作者
本帖最后由 数据集 于 2018-1-26 14:06 编辑
qq123456654321 发表于 2018-1-26 13:44
请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信 ...

示例已经给出来了,具体怎么写要根据网页结构写,自己可以参考着写,在高级设置-自定义xpath中选择文本内容,在抓取内容表达式中填上xpath。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:23