GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
1
10876
分层抓取,第二层规则的线索(待抓取网址)怎么保存管理
maomao
于 2017-4-28 09:55
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
maomao
积分
7325
精华
0
威望
3434
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 maomao 于 2017-4-28 10:27 编辑
我做了一套层级抓取的规则,糯米层1和糯米层2
糯米层1抓列表数据和链接网址
糯米层2抓商品详情。
大约两星期前,运行两极规则,抓了一次数据。
现在,又要运行规则抓一次。那这次糯米层1抓下来的链接地址,就把上次抓下来的链接地址覆盖掉了,还是共存?是不是应该在第二次运行规则之前,把糯米层2的以前的线索全部清除?
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 1 个关于本帖的回复 最后回复于 2017-4-28 10:03
Fuller
积分
24067
精华
0
威望
6726
金钱
6
最后登录 2025-5-4
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
Fuller
管理员
发表于 2017-4-28 10:03:56
|
只看该作者
可以选择多个方案:
方案1:
每次都把第二层重新抓一遍,也就是说,运行第一级的时候,凡是抓到的第二级的网址,都会重新激活线索,那么,第二级会把所有的网址再抓一遍。
手工启动的
单搜和集搜
,都是这个方案。
方案2:
增量抓取,也就是说,抓取第一级的时候,并不是把所有抓到的第二级网址都重新激活,而是会对比一下,如果以前抓过,就不在激活。
爬虫群模式有专门的设置项
,控制是否激活已经抓过的网址。
基于以上方案,手工清除第二级线索基本上没有太大必要。但是,在抓取电商网站的时候,商品会下架,有些网址再也不需要了,可以有选择地进行清理
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10609
访问主页>>
wangyong
帖子:1737
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-5 11:50
快速回复
快速发帖
返回顶部
返回列表
共 1 个关于本帖的回复 最后回复于 2017-4-28 10:03