如题、
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-5-9 09:59

沙发
shengchengx 金牌会员 发表于 2017-5-9 09:51:00 | 只看该作者
如果你做成两级规则,两级可以并行运行,同时抓取,你想要什么效果?
举报 使用道具
板凳
曾经也是小何 初级会员 发表于 2017-5-9 09:52:15 | 只看该作者
shengchengx 发表于 2017-5-9 09:51
如果你做成两级规则,两级可以并行运行,同时抓取,你想要什么效果?

比如我要再这个网页上先采集有关医院的信息,然后在这个网址链接里面再找合同编号的信息

第一张图有很多类似的,然后还要做翻页搜索

举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-5-9 09:52:50 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:52
比如我要再这个网页上先采集有关医院的信息,然后在这个网址链接里面再找合同编号的信息

第一张图有很多 ...

点击每个医院的时候,进入的网页有独立网址吗?

举报 使用道具
5#
曾经也是小何 初级会员 发表于 2017-5-9 09:54:00 | 只看该作者
shengchengx 发表于 2017-5-9 09:52
点击每个医院的时候,进入的网页有独立网址吗?


比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一页继续
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-5-9 09:54:18 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:54
比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一 ...

层级抓取和翻页抓取不冲突,因为层级是进入了另一个主题,可以用另外一个线程并行运行
举报 使用道具
7#
曾经也是小何 初级会员 发表于 2017-5-9 09:55:30 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:54
比如在这个网页上,找医院的所有信息,然后这3个有的,要点进去,在里面找合同编号,一页找完了,要下一 ...

我昨天试着做了规则,做一级规则,然后下级,翻页,出来的是这个

医院招标那个就是下级目录里的,那应该怎么做呢
而且,这样翻页搜索不知道为什么,搜了2页就停止了,好像出了什么错误


举报 使用道具
8#
shengchengx 金牌会员 发表于 2017-5-9 09:57:12 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:55
我昨天试着做了规则,做一级规则,然后下级,翻页,出来的是这个

医院招标那个就是下级目录里的,那应该 ...

不要想象成逐个医院点击完以后才去翻页,不是这么做的,否则会很慢
第一级只管抓取医院列表和网址,然后翻页,他不管医院招标
第二级才专门抓取医院招标,翻页2页就停止,就要找第一级的问题


举报 使用道具
9#
曾经也是小何 初级会员 发表于 2017-5-9 09:57:50 | 只看该作者
shengchengx 发表于 2017-5-9 09:57
不要想象成逐个医院点击完以后才去翻页,不是这么做的,否则会很慢
第一级只管抓取医院列表和网址,然后 ...

一级里面,最好不要用下级的规则咯?
举报 使用道具
10#
shengchengx 金牌会员 发表于 2017-5-9 09:59:08 | 只看该作者
曾经也是小何 发表于 2017-5-9 09:57
一级里面,最好不要用下级的规则咯?

跟定义第一级没有区别,找个第二级的网址作为样本页面,做规则就行了:《采网址做层级采集-以大众点评为例》

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 01:48