知网文章介绍页面的网址转换问题

kodiaxu

爬取知网搜索出来具体文章的介绍页面网址，出来的结果是这样的

https://kns.cnki.net/kns/detail/detail.aspx?QueryID=5&CurRec=2&DbCode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&urlid=&yx=

点击进去就回到知网主页

文章具体文章介绍页网址是这样的
https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&v=MDU5NTNvOUZaNFI4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUjdxZlllWnFGeS9sVTczTEp5ZlJkN0c0SE5ITXE=

发现他们是有规律的，
https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=BJZY202005003&v=“信息流行病”与媒体履行社会责任

https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=刊物拼音第一个+时间+序号&v=文章名称

有一个兄弟用python的链接转换公式是这样（点击打开）的
paper_url= "http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDLAST" + year + "&filename=" +name

好像不是很对，请问怎么转换啊？

Fuller · 发表于 2020-6-5 16:51:22

爬出来的那个网址是临时生成的，不能用。采集的时候要用连续点击动作，当时点击进去的是对的。

通过观察规律构造网址，很多时候是有用的，但是网站要封住这个路径也很容易，有很多手段可以封住这个。

你给的第一个网址，如果拷贝出来直接用，就跳转了，如果你在我们这个论坛网页上直接点，就可以。看来这个网址一定要直接点，这个网站可能判断了某个参数

kodiaxu · 发表于 2020-6-5 17:27:02

十分感谢！！！！！！！！！！！

kodiaxu · 发表于 2020-6-5 17:31:10

请教知网搜索出来文章列表的连续多做，一个个点击文章怎么做啊

Fuller · 发表于 2020-6-5 17:58:50

kodiaxu 发表于 2020-6-5 17:31
请教知网搜索出来文章列表的连续多做，一个个点击文章怎么做啊

要做连续点击动作，做两级规则，第一级负责做点击动作，第二级负责采集点击出来的内容。连续点击的教程参看：https://www.gooseeker.com/doc/article-288-1.html
下面两种情况都需要旗舰版功能：

如果点击出来的内容是新开的浏览器窗口，就要使用集搜客网络爬虫的飞掠功能

如果点击显示的内容是在当前窗口中的，那么在第二级规则中还要做一个回退动作

kodiaxu · 发表于 2020-6-5 22:09:30

好的，谢谢，旗舰版多少钱

kodiaxu · 发表于 2020-6-5 22:10:06

问题已经解决，但是请教一下旗舰版效果好在哪里

Fuller · 发表于 2020-6-5 22:32:49

kodiaxu 发表于 2020-6-5 22:10
问题已经解决，但是请教一下旗舰版效果好在哪里

旗舰版的介绍在这里：https://www.gooseeker.com/about/charge.html

知网文章介绍页面的网址转换问题

共 7 个关于本帖的回复最后回复于 2020-6-5 22:32

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

知网文章介绍页面的网址转换问题

共 7 个关于本帖的回复 最后回复于 2020-6-5 22:32

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2020-6-5 22:32