本帖最后由 happy1314 于 2018-1-1 15:00 编辑

每次在知网的高级检索页面输入关键词进行检索,然后在复制链接到第二规则,都会出现链接过长被截断的现象,然后我也没管直接保存规则,进行爬取。
我是先定义的连续动作——>创建二级规则抓取数据——>样例复制——>翻页——>层级抓取,
一共定义了三个规则,分别为“又尝试”,“又一尝试”,“又二尝试”,每次采集结果感觉都不太对

希望有会知网爬数据的能帮下我,谢谢啦

举报
| 回复

共 2 个关于本帖的回复 最后回复于 2018-1-1 21:48

沙发
Fuller 管理员 发表于 2018-1-1 21:46:16 | 只看该作者
我测试了你的第一级和第二级,运行正常。至于怎样才能更有效地做规则,而不用把网址考来考去,建议使用GS浏览器的定义规则功能。第一步:在gs浏览器上加载第一级的样本页面
第二步:在GS浏览器的工具条的中间有个选择框“定义规则”,选择以后进入定义规则模式。定义完成第一级以后,存规则

第三步:再次点击工具条中间的选择框,此时已经变成了“普通浏览”,点击以后,进入浏览模式,输入搜索条件,进行搜索,看到第二级的文献列表
第四步:再次点击“定义规则”,为文献列表定义规则
第五步:再次切换到“普通浏览”模式,点击其中一篇文献,可以观察到,弹出了一个新的浏览器窗口

在这个新的浏览器窗口可以再次进入到定义规则模式,定义第三级。但是,这里要注意了,针对弹出窗口这种情况,要么使用层级采集(就像你现在定义的规则),要么使用旗舰版的飞掠模式

但是这个网站上从文献列表采集到的网址不能直接用于层级采集,因为这个网址不能拷贝到另一个窗口中用,一定要在列表页上点击。这种情况要用飞掠模式进行解决。或者研究一下网址的规律,看看是否能从第二级的采集结果中构造出第三级的网址来
举报
板凳
Fuller 管理员 发表于 2018-1-1 21:48:20 | 只看该作者
构造网址的方法参看教程:http://www.gooseeker.com/doc/article-171-1.html
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-26 06:57