用GooSeeker快捷采集模式爬取豆瓣电影短评

2018-5-7 16:19| 发布者: Fuller| 查看: 10073| 评论: 2

摘要: 最近在搜集豆瓣影评数据,《美人鱼》就已经有40多万的评论,其他高分电影就更不用说了。对于不懂爬虫软件,也不会写代码的人来说,收集数据真的是很痛苦,但是有了gooseeker爬虫这款软件,不用懂任何技术也可以把网 ...

最近在搜集豆瓣影评数据,《美人鱼》就已经有40多万的评论,其他高分电影就更不用说了。对于不懂爬虫软件,也不会写代码的人来说,收集数据真的是很痛苦,但是有了gooseeker爬虫这款软件,不用懂任何技术也可以把网络数据抓一遍,如果你也是不懂技术的小白,可以看看下面的使用经验

要用gooseeker的快捷采集应用——数据DIY,上面有微博、知乎、淘宝、安居客、微信这些热门网站的爬虫,可以直接用,不用写代码也不用学软件操作,不过必须跟gooseeker爬虫一起用才能爬数据,所以,要先安装一个gooseeker爬虫。

一、下载安装gooseeker爬虫

访问官网https://www.gooseeker.com/pro/product.html

下载安装爬虫,后面的操作必须要在软件里做,打开软件看到的界面跟浏览器差不多,可以把它当做浏览器来用,但实际上是个爬虫,第一屏看到的就是官网了。


二、访问数据DIY

在官网的产品菜单下面打开数据DIY,可以看到前面有三级目录,要根据自己的情况选择类别、网站和页面,我选的是热门网站->豆瓣->豆瓣_电影短评,然后在底部会看到示例数据,可以看看字段这些有没有满足需要。

目录第3级的页面实际上就是抓取某一类网页的爬虫,比如豆瓣_电影短评这个页面是用来爬短评的,不能爬影评,这两个是不一样的,要不然就会抓不到数据,怎么看可不可以抓到你想要的页面?选了页面后,在输入框下面有示例网址,点开看看就知道了,跟这个页面结构一样的就通用。

三、爬数据

把要爬数据的网址粘贴到输入框里,再选择页码,最后点获取数据,如果你有多个网址要爬,可以点输入多条网址。我这里就是把《美人鱼》的短评网址添加进去,如果你也想要用这个爬虫,可以到豆瓣电影的详情页找短评网址。

然后会提示启动两个爬虫窗口,点启动,就看到有两个爬虫窗口和一个管理窗口打开,爬虫窗口也是一个浏览器,会自动把一个个网页打开,浏览完网页就会把数据存下来了,真的很简单。

四、下载数据

爬完数据后,到管理窗口把数据打包和下载下来。

打开数据表,可以看到数据很完整,也没有漏的。

总体上来说,数据DIY真的很小白很好用,虽然最后下载数据要扣积分,折算过来就是200条数据要一块钱,但对比其他爬虫软件,费用很实在,另外,购买299旗舰版,不仅可以下载无限量数据,还送全额积分,非常划算。

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2020-3-9 17:06
kid_aaa: 抓取了四百多条就不行再抓了
要登录以后在采集,会有更多
评论 kid_aaa 2020-3-9 16:52
抓取了四百多条就不行再抓了

查看全部评论(2)

GMT+8, 2024-3-29 17:02