|
本帖最后由 xandy 于 2016-11-16 15:02 编辑
采集论坛的评论信息,我先讲下大概的思路,理解之后看看类似的教程就可以了。
比如说要抓我们论坛的帖子,先抓一个列表,加上样例复制就可以批量抓取每条帖子了
第一个规则:列表可以抓到标题、发帖人、发帖时间、浏览器和回复量等信息,最重要的是可以抓到每个帖子的独立网址,这个独立网址可以作为下级线索(引导我们去抓独立帖子里面的信息)
我们通过第一个规则到了每个帖子的独立页面,第二个规则建立两个整理箱,一个整理箱来装楼主的内容,一个整理箱来装评论的内容,第二个整理箱加上样例复制就可以批量抓取评论了
碰到陌生的名词不要紧,可以先参考这个教程:《采网址做层级采集——以大众点评为例》,对着操作一遍很快就会明白了
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 1 个关于本帖的回复 最后回复于 2016-11-16 15:00