快捷导航

主题、规则、整理箱、线索四者的关系

2016-7-15 13:00| 发布者: ym| 查看: 2200| 评论: 0

摘要: 主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样只要运行一个主题,就能覆盖采 ...

主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样只要运行一个主题,就能覆盖采集这类多结构的网页。

规则是从属于某个主题的,同一个主题下的多个规则是用不同规则编号来区分的,它是对某种网页结构做映射而得到的爬虫程序,也就是说一种网页结构做一个规则; 如果主题下建立了多个规则,注意要在每个规则的整理箱中采集一个特有的信息标志,这是为了告诉爬虫采集哪种网页结构要调用哪个规则,可参考采集同一网站的不同网页结构信息

整理箱是从属于规则的,一个规则里可以建立多个整理箱,不同整理箱用于采集同一个网页结构上的不同模块,但采数据是同时执行多个整理箱的采集。例如,采集淘宝的商品详情,用一个整理箱来采集商品名、价格信息,另一个整理箱采集宝贝详情,第三个整理箱采集店铺介绍,三种信息是网页上的不同模块,最好是建立三个整理箱分别映射。另一种要建立多个整理箱的情况是,要采集内嵌iframe的网页,这时,一个iframe结构要建立一个整理箱来采集。

线索就是我们常说的网址,网页结构相同的线索可以套用一个规则来采数据,把线索添加到规则中,运行主题采数据时,就会逐条采集,这样就能批量采集某种网页结构的网址,除了手工添加线索,我们还有层级采集,由爬虫把采集到的网址自动导入到下级规则中。


若有疑问可以集搜客网络爬虫

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-19 18:34