我想抓取指定的“”Contact Person:“”和“”Position:“”后面的“Simon Lee”和“”Marketing Manager“”,因为网页结构不一样,想问一下Xpath应该怎么写
[size=0.9375em]Contact Person:
[size=0.9375em]Simon Lee
[size=0.9375em]Position:
[size=0.9375em]Marketing Manager




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-1-26 14:04

沙发
数据集 高级会员 发表于 2018-1-26 11:24:37 | 只看该作者
本帖最后由 数据集 于 2018-1-26 11:26 编辑

自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块节点,类似这样//*[contains(.//text(),'Contact Person:')],再定位你要抓取的内容。具体网页结构在具体修改,详情可参考《xpath常用函数》
举报 使用道具
板凳
qq123456654321 初级会员 发表于 2018-1-26 13:44:55 | 只看该作者
数据集 发表于 2018-1-26 11:24
自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块 ...

请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信息,我想要选取“Contact person:”后的内容,我应该是怎么修改网页偏好class的信息运用在contains那里?
谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
数据集 高级会员 发表于 2018-1-26 14:04:05 | 只看该作者
本帖最后由 数据集 于 2018-1-26 14:06 编辑
qq123456654321 发表于 2018-1-26 13:44
请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信 ...

示例已经给出来了,具体怎么写要根据网页结构写,自己可以参考着写,在高级设置-自定义xpath中选择文本内容,在抓取内容表达式中填上xpath。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分

热门用户

GMT+8, 2026-3-11 05:11