快捷导航

知乎话题结构分析

2017-3-29 23:37| 发布者: Fuller| 查看: 1219| 评论: 0

摘要: 请注意:一定要用爬虫群模式运行,请仔细看下面的说明。一、采集规则主题名:知乎话题结构分析下载地址:二、运行方法下载了本规则以后,要进入会员中心, ... ... ... ... ...
请注意:一定要用爬虫群模式运行,请仔细看下面的说明。

一、采集规则

主题名:知乎话题结构分析

二、设置调度参数

如上图,下载了本规则以后,要进入会员中心,然后点击这个规则进入调度页面设置爬虫群参数。


如上图,要特别注意红框内的调度参数,其他参数保持不变,但是这几个一定要做相应改变。前4个红框都是为了放慢采集速度,确保抓全。最后一个红框特别重要,否则会无限循环下去。

三、运行爬虫群

一定要在爬虫群模式下运行,运行方法参看《如何运行爬虫群》,该教程也讲解了怎样导出数据。

四、导出的excel结果文件

每个整理箱一个excel表,请注意,由于程序处理的需要,excel中有很多元信息,可以忽略那些列。另外,有两个表“当前话题表”和“父级话题表”都含有一个没用的字段“ 自己话题”,使用的时候应该删除

鲜花

握手

雷人
1

路过
1

鸡蛋

刚表态过的朋友 (2 人)

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-28 08:40