用GooSeeker爬虫实现自动点击抓取淘宝sku库存和价格

2018-4-23 10:32| 发布者: ym| 查看: 23412| 评论: 4

摘要: 我们在像淘宝京东这种电商网站购物时,通常有很多款式可以选择,比如图案、尺码、颜色等等,选了任意一种组合,这个商品对应的sku库存值就会跟着改变,价格有时候也会变,比如手机和电脑选择不同配置规格,价格就会 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

我们在像淘宝京东这种电商网站购物时,通常有很多款式可以选择,比如图案、尺码、颜色等等,选了任意一种组合,这个商品对应的sku库存值就会跟着改变,价格有时候也会变,比如手机和电脑选择不同配置规格,价格就会不一样;

如果你是在研究商品的组合、价格、sku等信息,用手工点击和拷贝的方法来收集这些信息,就显得太浪费时间和人力了,知道数据采集的人都已经用上GooSeeker爬虫了,它具有独特的连续动作功能,可以模拟人在浏览网页时的操作行为,通过指定要点击的属性对象,就可以让爬虫自动点击各种属性组合,实现机器自动点击,把库存值爬取下来。下面就来教大家用GooSeeker爬虫的连续动作来做规则,实现自动点击抓取sku库存和价格信息。


操作流程

要实现自动点击抓取sku库存,爬虫需要分两级规则来实现,第一级规则是用来点击尺寸和颜色,第二级规则是采集sku库存。



一、第一级规则,设置连续动作

1、首先建立第一级主题的规则,这里我们设置一级规则的主题名为‘’淘宝sku采集1”,第一级规则可以只做连续动作不抓信息,但是为了让爬虫能判断是否执行过采集,我们通常会在网页上任意标注一个信息作为抓取目标。


2、然后开始设置连续动作,点击切换到连续动作窗口下,我们需要爬虫依次点击尺寸和颜色,也就是说,对应尺码和颜色分别要有一个点击动作,所以一共要做两个点击动作。

3、首先在目标主题名输入框输入第二级规则的主题名,就表明这个连续动作是指向第二级规则。比如我们这里的第二级规则主题名是‘’淘宝sku采集2”,那么就在这个目标主题名中输入‘’淘宝sku采集2”。

4、然后点击新建按钮来创建第一个动作,动作类型选择点击,这是用来点尺码的,接下来要用xpath来指定爬虫的点击对象,xpath可以自己写,也可以点击尺码属性,通过左侧的显示xpath功能,生成能定位到所有尺码属性的xpath,再点击中间的搜索按钮,检验这个xpath能否定位到每一个尺码,然后把xpath填入到定位表达式中,最后再给动作命名一个名称,说明这一步动作是用来干嘛的,方便以后修改,不填也没有关系。

5、由于每一个新建的动作默认都是勾上必做的,顾名思义,必做是指每次循环都要执行的动作。如果设置的两个点击动作都是默认必做,它的执行流程就是如图(1)所示,每次都会先点击尺码,再点击颜色,重复点击尺码会画多点时间;而我们想要的是图(2)的执行流程,点击一次尺码后,先把所有颜色都点一遍,再点下一个尺码,这样可以更快遍历完所有组合。

6、要实现图2的点击流程,只要对尺码的点击动作不勾必做,就是在高级设置里取消勾必做,就会执行图(2)的点击流程。

7、设置好之后,第一个点击动作就制作好了。接下来就来创建第二个点击动作,大致的步骤前面一样,最后,点击右上角存规则按钮保存,第一级规则也就制作完成了。



二、制作第二级规则,抓取目标信息

1、第一级规则保存好之后就可以开始创建第二级规则,点击菜单栏中的规则-》新建,弹出提示“工作台上有内容,清空吗?”,点击确定,就可以做新规则。

2、然后取消勾选内容定位,在浏览器窗口中选中第一个尺码和第一个颜色,让网页是处在执行点击动作后的状态,再勾上内容定位,然后点击菜单栏中的规则-》刷新页面结构来刷新网页结构,接下来就可以开制作第二级规则了。

Ps:(如果是在定义规则模式下制作规则也可以这么做,点击“定义规则”恢复到普通网页模式,再选中第一个尺码和第一个颜色后,然后再次点击“定义规则”切换到做规则模式)


3、输入第二级规则主题名‘’淘宝sku采集2”(这个规则主题名要与第一级规则的目标主题名一致),再标注需要采集的信息,这里标注了5个字段,分别是标题,价格,尺码,颜色,库存。

4、为了能精确采集到对应的尺码和颜色,这里需要给尺码和颜色这两个字段自定义xpath来实现精确定位,在高级设置的自定义xpath中,选择文本内容,在抓取内容表达式中输入能定位到相应采集对象的xpath,这里尺码的xpath是://*[@class='tm-clear J_TSaleProp ']//*[@class='tb-selected']/a/span,颜色的xpath是://*[@class='tm-clear J_TSaleProp tb-img ']//*[@class='tb-selected']/a/span,在定位标志表达式里填点就行。

5、定义好后点击测试,没问题就可以保存规则了。



三、运行爬虫抓取数据

因为连续动作是有连贯性的,运行规则时只需要启动运行第一级规则就可以了。运行采集完之后就可以把数据导入到会员中心转成Excel再导出。

以上就是使用GooSeeker爬虫自动点击抓取商品sku库存和价格等信息的介绍,如果你也遇到类似的网页,通过对以上方法进行举一反三地运用,就能解决,如果你不想花时间学习,可以找GooSeeker定制开发爬虫。


若有疑问可以集搜客爬虫软件
2

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

相关阅读

发表评论

最新评论

评论 Fuller 2019-11-10 09:43
su13631: 图片太小 没法看
也可以下载大图,找到大图的img元素,如果需要点击一下才有,那么就需要做连续点击动作,动作以后再下载
评论 su13631 2019-11-10 01:30
图片太小 没法看
评论 Fuller 2019-6-20 19:29
微云淡月: 可以教一下我吗?
软件的基本用法,需要看教程做练习,需要一点时间才能学会。连续动作是高级教程里面的内容,有些难,应该先找简单的例子做些练习。有问题可以在qq群里面问
评论 微云淡月 2019-6-20 19:13
可以教一下我吗?

查看全部评论(4)

GMT+8, 2024-10-4 20:30