推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取亚马逊商品信息的操作步骤。 一、下载安装gooseeker爬虫 爬数据要用配套的gooseeker爬虫软件,所以第一步是要访问官网https://www.gooseeker.com/pro/product.html 下载软件,然后双击安装,后面的步骤都要在软件里操作。 二、访问数据DIY找到入口 打开gooseeker软件,访问https://www.gooseeker.com/res/datadiy.html,进入到数据DIY里,在顶部的目录上点击"电商>亚马逊>亚马逊英国商品搜索列表",这样就选定了入口; 目录的第三级是页面,它代表了支持爬取的网页结构,在中部有示例页面的网址,点开可以看到是关于"iphone"商品的搜索列表页面,满足这个列表结构的亚马逊英国商品网页,都可以用上面的入口来爬数据。 比如要爬取关于"camera"商品的列表信息,可以在示例网页上方的搜索输入框中输入关键词"camera"后点击搜索,就能搜索得到关于"camera"商品的列表页网址,要采集什么商品,都可以通过输入关键词搜索的方式得到相关商品的列表页网址。 要注意的是:在搜索输入框的左侧可以选择搜索的商品范围,亚马逊网站在全部分类范围下(All departments)通过关键词搜索后得到的商品信息只会显示前20页的数据,可以通过先选择一个分类后再输入关键词搜索,也可以在全部分类范围下搜索后再通过点击网页左侧目录下的分类进行细分,通过这两种方式都可以把各级分类下的商品信息完整的现实出来,再把各级分类的网址拷贝整理出来。 三、添加网址爬数据 通过以上的方式获得网址,只有一条商品网址的话,可以直接粘贴到输入框里,然后选择要爬取的页数,最后点击获取数据; 有多条网址的话,先选择爬取页数,再点击"输入多条网址"按钮,把多条网址拷贝粘贴进去,最后确定; 添加网址成功后,会提示启动两个爬虫窗口,点启动,就会看到有两个爬虫窗口和一个管理窗口打开; 爬虫窗口就是一个浏览器窗口,它会自动访问要采集的网址,然后把数据存下来。 四、下载数据 爬虫窗口没有再访问网页,说明爬取完成了,到管理窗口把数据打包和下载下来。 然后在软件右上角的下载历史按钮里,可以查到存储路径,根据路径找到数据包,查看数据表。 五、进一步爬取亚马逊商品的评论信息 前面下载的数据表里的商品链接就是详情页面的网址,但是打开一条商品链接只能看到几条评论数据,需要切换到全部评论页面,点击详情页下评论区的评论数目就能切换到全部评论页面,这样就能获取到全部评论页面的网址。 按照上面的方式就可以获取全部评论网址,然后点击切换到"亚马逊美国商品评论",因为一条商品详情页网址里会有很多页评论,所以需要先选择爬取页数,再把获取到的全部评论的网址添加进评论采集的入口,启动采集,大致的步骤与上面采集商品列表信息一致。 采集到的亚马逊商品评论信息如下图所示,要注意的是,亚马逊商品的评论也是有限制的,最多只能显示100页,如果要爬多点评论数据,可以隔一段时间爬一次。 同样的,如果想要采集亚马逊中国商品信息,就可以换到"电商>亚马逊>亚马逊中国商品搜索列表",按照以上所述的相同方式进行采集。 |