本帖最后由 20150760141 于 2019-3-21 22:31 编辑

有人知道怎么爬取知网的论文吗?思路大致是输入关键词,点击检索,搜索结果出来后再点击一下中文文献。后面是只点击那种有HTML阅读的,进去抓取论文全文,点击下一页翻页,然后重复点击HTML阅读抓取论文,下一页。这个要怎么实现啊?HTML标签里的href拿出来又访问不了,应该是只能模拟点击然后爬取数据
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-10-13 17:13

沙发
Fuller 管理员 发表于 2019-3-22 08:40:54 | 只看该作者
是的,要全部用模拟点击,在连续动作那里定义点击。要分成多级任务:
第一级任务:输入关键词,点击搜索
第二级任务:连续动作那里做点击,以便进入全文抓取(第三级),爬虫路线那里定义翻页
第三级任务:抓取全文,如果这一级内容在浏览器窗口中替换了第二级的内容,那么要在连续动作中用回退动作回到第二级(旗舰版才有回退)。如果这一级是弹出新窗口显示全文,那么在第二级应该勾上“飞掠模式”(旗舰版功能),这一级就不用回退,会自动关掉窗口

总之,抓取有点复杂,不行的话找我们定制一套规则。在qq群里找管理员:676198154
举报 使用道具
板凳
20150760141 初级会员 发表于 2019-3-22 15:29:30 | 只看该作者
Fuller 发表于 2019-3-22 08:40
是的,要全部用模拟点击,在连续动作那里定义点击。要分成多级任务:
第一级任务:输入关键词,点击搜索
第 ...

恩,所以就是如果找你们定制一套规则的话,也是需要旗舰版才可以运行对吧?
举报 使用道具
地板
Fuller 管理员 发表于 2019-3-22 15:46:52 | 只看该作者
20150760141 发表于 2019-3-22 15:29
恩,所以就是如果找你们定制一套规则的话,也是需要旗舰版才可以运行对吧?
...

关于买旗舰版送规则的事情,可以加群问一下管理员,可以加入这个集搜客的群:676198154
举报 使用道具
5#
Fuller 管理员 发表于 2019-3-23 10:32:16 | 只看该作者
我给你做了两级规则:
第一级:知网文献检索_检索结果
第二级:知网文献检索_HTML阅读

不要单独运行第二级,而是从运行第一级开始。

第一级采集搜索结果列表,然后按个点击 html阅读,点击后会弹出一个新窗口,用第二级采集。正常的话,过几秒钟弹出的窗口会自动关闭,又会弹出下一个窗口。

因为我在校园网外,无法准确做第二级的规则,我把整个网页内容都采集下来了,你可以调整一下这个规则,在DOM树上找到只包含右栏内容的那个div,然后做内容映射。




上图红框,我选择了整个body,这个范围很大,你可以找到内部的只包含右栏的那个div,点击鼠标右键,选择菜单 内容映射-》内容,然后存规则。调整一下这个规则。
举报 使用道具
6#
Fuller 管理员 发表于 2019-3-24 12:16:11 | 只看该作者
我又另做了一套规则,搜索主题名  知网文献检索001* ,可以看到4个规则,已经转存给你了。这4个规则组成了3级,运行第一级  知网文献检索001_输入关键词
举报 使用道具
7#
wangyong 版主 发表于 2020-10-13 17:13:13 | 只看该作者
需要定制爬取知网数据的朋友,可以添加集搜客官方客服的QQ:2019907223沟通需求
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 07:27