2017-5-12 11:11| 发布者: ym| 查看: 11761| 评论: 0
采集论坛上的信息,不用一个个帖子采集,通过集搜客爬虫可以实现批量化采集。首先论坛有多个版块的情况,要以一个版块为模板,找到该版块的帖子列表,做第一级采集规则,要把所有帖子的网址采集下来,这是为了下一步的批量采集帖子的详情信息做准备。后面再以一个帖子的详情页面为模板,做第二级采集规则,目的是批量采集帖子的详情页面信息。这里采用了分层采集的技巧,可以大大提高采集效率。
本次培训会详细讲解第一级规则的制作流程,第二级规则会在下节培训里详细介绍。
点击观看培训视频
评论
GMT+8, 2024-12-4 20:34