GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
11
16813
二级目录采集有问题
jiayuqin
于 2017-9-4 10:40
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
jiayuqin
积分
549
精华
0
威望
266
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 jiayuqin 于 2017-9-4 13:56 编辑
像这样的网址我要采集二级目录,但是我无法找到二级网址的节点,我应该怎么去做采集采集二级目录呢?求指教
http://www.xuzhoucredit.gov.cn/x ... xzcfList.do?deptid=
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 11 个关于本帖的回复 最后回复于 2017-9-4 17:32
环境监测
积分
214
精华
0
威望
98
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
环境监测
中级会员
发表于 2017-9-4 14:11:33
|
只看该作者
1,如果页面有独立网址可以用层级采集抓取二级页面的数据,参考
《如何深入多层级网页采集数据》
2,如果没有网址,就需要用连续动作去点击进入二级页面,从而抓取二级页面的数据,连续点击动作参考连续动作参考
《连续动作》
举报
使用道具
回复
支持
反对
jiayuqin
积分
549
精华
0
威望
266
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
jiayuqin
高级会员
发表于 2017-9-4 14:25:47
|
只看该作者
采集的网址是onclick 只是网址中的一个片段
举报
使用道具
回复
支持
反对
环境监测
积分
214
精华
0
威望
98
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
地板
环境监测
中级会员
发表于 2017-9-4 14:43:32
|
只看该作者
属性里面只有onclick,没有href属性,说明没有独立网址,这种是抓不到网址了。采集方法是用飞掠模式,
需要购买
旗舰版
后才可以使用,它主要是用于采集没有独立网址的弹窗网页,
参考
《飞掠模式:追踪弹窗采集数据》
1,通过在第一级规则的连续动作里设置点击动作,
2,第二级规则采集点击后的页面信息,最后通过运行第一级规则,就会自动点击并采集弹出页面的信息,采完会关闭窗口再继续点击第二个,从而逐个点击完成二级页面的数据采集。
举报
使用道具
回复
支持
反对
jiayuqin
积分
549
精华
0
威望
266
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
5
#
jiayuqin
高级会员
发表于 2017-9-4 14:46:57
|
只看该作者
不是弹窗,只是采集下来的网址是完整网址的一个片段加上前面的域名就是完整网址
举报
使用道具
回复
支持
反对
环境监测
积分
214
精华
0
威望
98
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
6
#
环境监测
中级会员
发表于 2017-9-4 14:50:34
|
只看该作者
1、如果网址是作为内容采集的话,是原样采集的。在这种情况下,可以通过在规则写xpath采集绝对地址,也可以后期excel中处理。
2、如果是作为下级线索,可以直接用,爬虫生成下级线索的时候会把网址补齐。
举报
使用道具
回复
支持
反对
jiayuqin
积分
549
精华
0
威望
266
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
7
#
jiayuqin
高级会员
发表于 2017-9-4 15:14:22
|
只看该作者
现在遇到的问题就是作为内容采集这个我可以采集下来处理,但是作为下级线索,爬虫的时候会报错,因为没有把网址补齐
举报
使用道具
回复
支持
反对
bowieD
积分
1226
精华
0
威望
360
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
8
#
bowieD
金牌会员
发表于 2017-9-4 15:17:59
|
只看该作者
本帖最后由 bowieD 于 2017-9-4 15:24 编辑
因为网页属性里面只有onclick,没有href属性,不能用层级采集去抓取第二级数据。
1,可以用连续动作,上面有介绍到,参考
《连续点击动作》
2,,如果连续动作规则不好做,也可以自己构造网址,
只要把onclick的内容抓下来,在excel中很容易构造网址,然后用会员中心的添加线索功能,把构造的网址成批添加到下层规则中。也就是说,当前这个抓取规则不要设置 下层线索
《如何构造网址?》
举报
使用道具
回复
支持
反对
jiayuqin
积分
549
精华
0
威望
266
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
9
#
jiayuqin
高级会员
发表于 2017-9-4 16:38:18
|
只看该作者
我想问下,我已经把onclick的内容抓下来了,并且网址页构造出来,那么我用添加线索功能添加到下层规则中,不需要对下层页就是二级目录做规则了吗,那网址导进去添加到下层怎么知道采集下层网址的哪些内容呢,还是爬虫自动识别下层采集所有数据吗
举报
使用道具
回复
支持
反对
环境监测
积分
214
精华
0
威望
98
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
10
#
环境监测
中级会员
发表于 2017-9-4 16:42:04
|
只看该作者
在二级规则需要映射想要抓取的内容,运行爬虫就会自动抓取每一条线索中要抓取的内容
举报
使用道具
回复
支持
反对
1
2
/ 2 页
下一页
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10609
访问主页>>
wangyong
帖子:1737
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-10 22:04
快速回复
快速发帖
返回顶部
返回列表
共 11 个关于本帖的回复 最后回复于 2017-9-4 17:32