https://www.chathamhouse.org/expert/soren-kirk-jensen
https://www.chathamhouse.org/expert/rebekka-rumpel
https://www.chathamhouse.org/expert/akio-miyajima
第一条网址做的模板,用第二第三测试。


要抓取Expertise和Experience下的内容,想按条区分开;它们的内容数量不定,Expertise和Experience可能存在,也可能不存在。
我试过样例复制,如果有一个不存在,抓取的数据位置会对应不上,第二个网址会体现。

我想用xpath,但它们对应的节点没有id和class属性值,xpath有没有循环遍历的办法,或者这种情况其他解决办法


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-5-3 22:50

沙发
ym 版主 发表于 2017-5-3 15:25:27 | 只看该作者
把主题名贴出来
举报 使用道具
板凳
bjdfhsxxjs 中级会员 发表于 2017-5-3 15:28:57 | 只看该作者
ym 发表于 2017-5-3 15:25
把主题名贴出来

怎么贴主题?

举报 使用道具
地板
bjdfhsxxjs 中级会员 发表于 2017-5-3 15:32:16 | 只看该作者
ym 发表于 2017-5-3 15:25
把主题名贴出来

ChathamHouse_专家,你怎么能看到我的规则呢

举报 使用道具
5#
ym 版主 发表于 2017-5-3 15:54:07 | 只看该作者
可以通过自定义xpath来实现样例复制和限定范围,由于容器节点不支持直接定义xpath,所以,我们要修改数据规则里的xpath,如下图,点击测试后,在数据规则里找到“专业领域”的xpath,把能够唯一定位到expertise的xpath路径覆盖旧的,再点击右侧的“保存修改”,然后点击“测试单箱”,就看到能实现样例复制的效果。
注意:直接修改数据规则只需点击“保存修改”,不要再点击右上角的“存规则”按钮,否则自动生成的数据规则会覆盖自定义的xpath。
  1. //*[@id='main-content']/div[position()=1]/h2[contains(./text(),'Expertise')]/following-sibling::ul[1]/li
复制代码



举报 使用道具
6#
bjdfhsxxjs 中级会员 发表于 2017-5-3 16:06:28 | 只看该作者
ym 发表于 2017-5-3 15:54
可以通过自定义xpath来实现样例复制和限定范围,由于容器节点不支持直接定义xpath,所以,我们要修改数据规 ...

嗯,好的,我试试
举报 使用道具
7#
bjdfhsxxjs 中级会员 发表于 2017-5-3 16:32:35 | 只看该作者
ym 发表于 2017-5-3 15:54
可以通过自定义xpath来实现样例复制和限定范围,由于容器节点不支持直接定义xpath,所以,我们要修改数据规 ...

可以的,谢谢你。
但如果要修改规则,增加修改整理箱内容后,使用“存规则”,还是点击“保存修改”按钮?

如果使用“存规则”,这样软件自动生成的XSLT还是错误的,自己还得手动更改一遍XSLT中的xpath?

新打开谋数台,加载规则,后续分析完成后,数据规则分页中,抓取规则文件的文件名为空,这时该怎么办,怎么选择文件?
举报 使用道具
8#
Fuller 管理员 发表于 2017-5-3 22:50:02 | 只看该作者
bjdfhsxxjs 发表于 2017-5-3 16:32
可以的,谢谢你。
但如果要修改规则,增加修改整理箱内容后,使用“存规则”,还是点击“保存修改”按钮 ...

手工修改的规则,下次自动生成规则的时候,会把手工修改的冲掉,要重新修改。所以,你说的再次加载和修改规则,会冲掉原先手工修改的。

你说的“数据规则分页中”是什么意思?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-21 01:08