GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
13019
每次爬去知网数据都失败,自己也没有发现原因,有没有哪位大神帮忙看下啊
happy1314
于 2018-1-1 15:00
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
happy1314
积分
40
精华
0
威望
18
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 happy1314 于 2018-1-1 15:00 编辑
每次在知网的高级检索页面输入关键词进行检索,然后在复制链接到第二规则,都会出现链接过长被截断的现象,然后我也没管直接保存规则,进行爬取。
我是先定义的连续动作——>创建二级规则抓取数据——>样例复制——>翻页——>层级抓取,
一共定义了三个规则,分别为“又尝试”,“又一尝试”,“又二尝试”,每次采集结果感觉都不太对
希望有会知网爬数据的能帮下我
,谢谢啦
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2018-1-1 21:48
Fuller
积分
24127
精华
0
威望
6752
金钱
6
最后登录 2025-5-25
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
Fuller
管理员
发表于 2018-1-1 21:46:16
|
只看该作者
我测试了你的第一级和第二级,运行正常。至于怎样才能更有效地做规则,而不用把网址考来考去,建议使用GS浏览器的定义规则功能。第一步:在gs浏览器上加载第一级的样本页面
第二步:在GS浏览器的工具条的中间有个选择框“定义规则”,选择以后进入定义规则模式。定义完成第一级以后,存规则
第三步:再次点击工具条中间的选择框,此时已经变成了“普通浏览”,点击以后,进入浏览模式,输入搜索条件,进行搜索,看到第二级的文献列表
第四步:再次点击“定义规则”,为文献列表定义规则
第五步:再次切换到“普通浏览”模式,点击其中一篇文献,可以观察到,弹出了一个新的浏览器窗口
在这个新的浏览器窗口可以再次进入到定义规则模式,定义第三级。但是,这里要注意了,针对弹出窗口这种情况,要么使用
层级采集
(就像你现在定义的规则),要么使用
旗舰版的飞掠模式
。
但是这个网站上从文献列表采集到的网址不能直接用于层级采集,因为这个网址不能拷贝到另一个窗口中用,一定要在列表页上点击。这种情况要用飞掠模式进行解决。或者研究一下网址的规律,看看是否能从第二级的采集结果中构造出第三级的网址来
举报
使用道具
回复
支持
反对
Fuller
积分
24127
精华
0
威望
6752
金钱
6
最后登录 2025-5-25
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
Fuller
管理员
发表于 2018-1-1 21:48:20
|
只看该作者
构造网址的方法参看教程:
http://www.gooseeker.com/doc/article-171-1.html
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10617
访问主页>>
wangyong
帖子:1738
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-26 10:33
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2018-1-1 21:48