如题、
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-5-9 09:59

沙发
shengchengx 金牌会员 发表于 2017-5-9 09:51:00 | 只看该作者
如果你做成两级规则,两级可以并行运行,同时抓取,你想要什么效果?
举报 使用道具
板凳
曾经也是小何 初级会员 发表于 2017-5-9 09:52:15 | 只看该作者
shengchengx 发表于 2017-5-9 09:51
如果你做成两级规则,两级可以并行运行,同时抓取,你想要什么效果?

比如我要再这个网页上先采集有关医院的信息,然后在这个网址链接里面再找合同编号的信息

第一张图有很多类似的,然后还要做翻页搜索

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-5-9 09:52:50 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:52
比如我要再这个网页上先采集有关医院的信息,然后在这个网址链接里面再找合同编号的信息

第一张图有很多 ...

点击每个医院的时候,进入的网页有独立网址吗?

举报 使用道具
5#
曾经也是小何 初级会员 发表于 2017-5-9 09:54:00 | 只看该作者
shengchengx 发表于 2017-5-9 09:52
点击每个医院的时候,进入的网页有独立网址吗?


比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一页继续

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-5-9 09:54:18 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:54
比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一 ...

层级抓取和翻页抓取不冲突,因为层级是进入了另一个主题,可以用另外一个线程并行运行
举报 使用道具
7#
曾经也是小何 初级会员 发表于 2017-5-9 09:55:30 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:54
比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一 ...

我昨天试着做了规则,做一级规则,然后下级,翻页,出来的是这个

医院招标那个就是下级目录里的,那应该怎么做呢
而且,这样翻页搜索不知道为什么,搜了2页就停止了,好像出了什么错误


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
shengchengx 金牌会员 发表于 2017-5-9 09:57:12 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:55
我昨天试着做了规则,做一级规则,然后下级,翻页,出来的是这个

医院招标那个就是下级目录里的,那应该 ...

不要想象成逐个医院点击完以后才去翻页,不是这么做的,否则会很慢
第一级只管抓取医院列表和网址,然后翻页,他不管医院招标
第二级才专门抓取医院招标,翻页2页就停止,就要找第一级的问题


举报 使用道具
9#
曾经也是小何 初级会员 发表于 2017-5-9 09:57:50 | 只看该作者
shengchengx 发表于 2017-5-9 09:57
不要想象成逐个医院点击完以后才去翻页,不是这么做的,否则会很慢
第一级只管抓取医院列表和网址,然后 ...

一级里面,最好不要用下级的规则咯?
举报 使用道具
10#
shengchengx 金牌会员 发表于 2017-5-9 09:59:08 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:57
一级里面,最好不要用下级的规则咯?

跟定义第一级没有区别,找个第二级的网址作为样本页面,做规则就行了:《采网址做层级采集-以大众点评为例》

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 07:37