爬取知网搜索出来具体文章的介绍页面网址,出来的结果是这样的

https://kns.cnki.net/kns/detail/detail.aspx?QueryID=5&CurRec=2&DbCode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&urlid=&yx=

点击进去就回到知网主页

文章具体文章介绍页网址是这样的
https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&v=MDU5NTNvOUZaNFI4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUjdxZlllWnFGeS9sVTczTEp5ZlJkN0c0SE5ITXE=

发现他们是有规律的,
https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&v=“信息流行病”与媒体履行社会责任

https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=刊物拼音第一个+时间+序号&v=文章名称

有一个兄弟用python的链接转换公式是这样(点击打开)的
paper_url= "http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST" + year + "&filename=" +name


好像不是很对,请问怎么转换啊?



举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-6-5 22:32

沙发
Fuller 管理员 发表于 2020-6-5 16:51:22 | 只看该作者
爬出来的那个网址是临时生成的,不能用。采集的时候要用连续点击动作,当时点击进去的是对的。

通过观察规律构造网址,很多时候是有用的,但是网站要封住这个路径也很容易,有很多手段可以封住这个。

你给的第一个网址,如果拷贝出来直接用,就跳转了,如果你在我们这个论坛网页上直接点,就可以。看来这个网址一定要直接点,这个网站可能判断了某个参数
举报 使用道具
板凳
kodiaxu 高级会员 发表于 2020-6-5 17:27:02 | 只看该作者
十分感谢!!!!!!!!!!!
举报 使用道具
地板
kodiaxu 高级会员 发表于 2020-6-5 17:31:10 | 只看该作者
请教知网搜索出来文章列表的连续多做,一个个点击文章怎么做啊
举报 使用道具
5#
Fuller 管理员 发表于 2020-6-5 17:58:50 | 只看该作者
kodiaxu 发表于 2020-6-5 17:31
请教知网搜索出来文章列表的连续多做,一个个点击文章怎么做啊

要做连续点击动作,做两级规则,第一级负责做点击动作,第二级负责采集点击出来的内容。连续点击的教程参看:https://www.gooseeker.com/doc/article-288-1.html
下面两种情况都需要旗舰版功能:


如果点击出来的内容是新开的浏览器窗口,就要使用集搜客网络爬虫的飞掠功能

如果点击显示的内容是在当前窗口中的,那么在第二级规则中还要做一个回退动作

举报 使用道具
6#
kodiaxu 高级会员 发表于 2020-6-5 22:09:30 | 只看该作者
好的,谢谢,旗舰版多少钱
举报 使用道具
7#
kodiaxu 高级会员 发表于 2020-6-5 22:10:06 | 只看该作者
问题已经解决,但是请教一下旗舰版效果好在哪里
举报 使用道具
8#
Fuller 管理员 发表于 2020-6-5 22:32:49 | 只看该作者
kodiaxu 发表于 2020-6-5 22:10
问题已经解决,但是请教一下旗舰版效果好在哪里

旗舰版的介绍在这里:https://www.gooseeker.com/about/charge.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 18:40