集搜客GooSeeker网络爬虫

标题: 如图页面,除了要抓取公司全名、网站等信息,下边的产品也需要抓取,请问这部分的规则怎么设置呢 [打印本页]

作者: flyeers    时间: 2016-7-27 17:18
标题: 如图页面,除了要抓取公司全名、网站等信息,下边的产品也需要抓取,请问这部分的规则怎么设置呢
本帖最后由 flyeers 于 2016-7-27 17:22 编辑

如图页面,除了要抓取公司全名、网站等信息,下边的“旗下产品”也需要抓取,只要一个名字就可以,如腾讯精品课,腾讯大学,请问这部分的规则怎么设置呢
作者: HJLing    时间: 2016-7-27 17:22
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱来抓取
作者: Fuller    时间: 2016-7-27 21:51
HJLing 发表于 2016-7-27 17:22
建立两个整理箱 一个负责抓上面的信息 一个负责抓产品信息 这样采集的数据会在两个表中
可以建立嵌套整理箱 ...

是的,在网页上不同区域的信息,可以考虑用不同的整理箱,这样做出来的规则更有适应性。而且,从语义上说,不同区域的信息的语义相差很大,硬放在一个表格中不合理




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2