我的过程是建立三个规则,首先第一个规则主要是做连续动作,帮我把要搜的主题相关的论文搜出来,第二个规则用来爬取搜索出来的论文,我在这里设置了下级线索,想要具体点开一篇论文爬取他的摘要。第三个规则就是爬取论文的具体内容了,摘要关键词什么的。按照集搜客上的教程,我成功了第一第二个规则,但是他无法跳到第三个规则,也就是想点进去爬论文的摘要关键词都不行,我明明粘贴的网址是那篇论文的网址,爬数据的时候他自动变成知网首页了。你们现有的教程都是停留在第二步就结束了,没有教怎么进一步点开那些论文去爬摘要。我搞了几天都没搞好。希望有人回复!
  第二张图如何到第一张图?
我每次把第一张图的网址放在规则里,爬数据的时候就自动变成知网首页了。但我第一第二个规则可以运行出来

图片1.png
图片2.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-10-20 11:16

Fuller 管理员 发表于 2018-10-20 10:18:33 | 显示全部楼层
从第二层抓到的网址,放在第三层运行的时候跳到首页,说明这个网站有专门的会话控制,也就是你在当前建立的访问知网的会话中可以用,独立建立一个会话就不行了。

解决这个问题有很多方案,我估计这个网站应该没有那么麻烦,因为这个网站上有很多iframe套在一起形成一个网页,比如,左栏一个iframe,右栏一个iframe,实际上,他们各自有自己的不同的网址。你用爬虫得到的网址并不是真实的网址,真实的网址是在iframe中。

有篇文章专门讲这个:https://www.gooseeker.com/doc/article-171-1.html

举报 使用道具
ruanxueling 初级会员 发表于 2018-10-20 10:25:20 | 显示全部楼层
Fuller 发表于 2018-10-20 10:18
从第二层抓到的网址,放在第三层运行的时候跳到首页,说明这个网站有专门的会话控制,也就是你在当前建立的 ...

这个文章我之前看了,行不通。我现在发现我单独运行第二个规则和第三个规则都不行,运行第一个规则时,需要手动点击CSSCI再点击检索才行。您能不能帮我看看我的规则到底哪里出错了。我真的弄了几天了,快崩溃了。
我建立的三个规则名:知网数据研究1;知网数据研究1第一级;知网数据研究1第二级。这样吧规则名给您可以搜到吗?

举报 使用道具
Fuller 管理员 发表于 2018-10-20 11:16:17 | 显示全部楼层
ruanxueling 发表于 2018-10-20 10:25
这个文章我之前看了,行不通。我现在发现我单独运行第二个规则和第三个规则都不行,运行第一个规则时,需 ...

尝试了一下,那篇文章介绍的构造网址的方式确实不行了,这样只能用连续点击了,因为点击以后会弹出新的浏览器窗口,得为连续动作勾上“飞掠模式”,用来采集弹窗中的内容。不过这个功能只能是旗舰版才能用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 02:34