在获得了文献链接的xml文件之后,已经在规则管理中添加进去了,第四个规则根据链接爬具体论文信息像作者,关键词这样的,怎样一次把所有的作者,关键词等爬下来放在xml的一个单元格里。我这边暂时用的是样例复制,但是样例复制得到的多个作者,多个关键词是在多个单元格里,是列表一样的形式,不知道怎么合并

1.PNG (45.45 KB, 下载次数: 1236)

每个线索爬得的xml

每个线索爬得的xml

2.PNG (23.33 KB, 下载次数: 1164)

规则

规则

3.PNG (13.31 KB, 下载次数: 1212)

规则检测输出

规则检测输出
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-7-10 12:36

沙发
shengchengx 金牌会员 发表于 2017-6-27 17:31:16 | 只看该作者
举报 使用道具
板凳
wangyong 版主 发表于 2017-6-27 17:50:05 | 只看该作者
将包含所有关键词的网页标签节点做映射,参看教程:《如何抓取网页片段完整信息
举报 使用道具
地板
tq_willers 新手上路 发表于 2017-6-27 18:53:19 | 只看该作者
wangyong 发表于 2017-6-27 17:50
将包含所有关键词的网页标签节点做映射,参看教程:《如何抓取网页片段完整信息》 ...

这样的方法我之前试过了,这样确实在一起,但是不同的作者,机构之间没有标识符隔开,也就是text节点之间无法用标识符隔开,能不能加上个标识符?

4.PNG (16.76 KB, 下载次数: 1191)

通过父节点爬取

通过父节点爬取
举报 使用道具
5#
Fuller 管理员 发表于 2019-7-10 12:36:35 | 只看该作者
集搜客现在有知网快捷采集工具,不需要自己做采集规则了。输入关键词即可采集。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:44