快捷导航

爬虫模拟点击抓取京东商品评论

2018-5-9 16:45| 发布者: ym| 查看: 2066| 评论: 4

摘要: 有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处 ...

有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处是,可以精确到目标范围,省却没必要的加载时间,下面以采集京东商品累计评论为例,介绍一下怎么做模拟点击。

在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。

模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。


一、创建第一级规则

1,打开网页

我们首先用GS浏览器访问一个商品样本页面,记得先不要点进评论区,然后点击顶部的“定义规则”按钮,开始做第一级规则。

2,标注抓取内容

第一级规则的主要目的是实现模拟点击,可以不抓取任何内容,但是为了判读是否执行成功,我们通常会抓取任意网页信息,并且设置关键内容。这里选择抓取商品名称,双击它,然后输入标签名字,打勾确认,前面没有输入主题名,所以会提醒输入主题名和整理箱名字,输入完再做下一步。

3,做翻页区映射

在浏览器窗口里点击商品评价页签,选中的区域会加上黄色背景,同时底部dom窗口会自动定位到一个网页节点,对这个节点右击,接着选择“翻页映射->作为翻页区->新建线索”,然后在工作台会看到爬取路线自动创建了一个记号线索,并且翻页区显示了刚才映射节点的定位编号,说明映射成功了;

4,找出翻页记号节点

在dom里双击这个节点展开,把它包含的下级节点都点一下,在右侧的文本内容框里会看到节点信息,找到”商品评价”的text节点,这个节点的作用就是一个点击记号,有它在爬虫才会点击;

5,做翻页记号映射

然后右击这个text节点,选择“翻页映射->作为翻页记号”;

6,修改目标主题名

点击之后就会切换到评论页,网页结构就变了,这里不能像翻页那样用同一个目标主题名,而是要指向第二级规则,所以,要把目标主题名改成第二级规则的名字,这里是先预定主题名,所以记得要点击一下谁在用,检查有没有重名;

7,点击右上角的存规则


二、 创建第二级规则

1,新建规则

保存完第一级规则后,再点击左上角的“规则”菜单,然后点击“新建”,它就会自动清空第一级规则的内容,然后开始创建第二级规则。

2,点进评论区页面

要对评论做规则,首先要点进评论区页面,操作是:取消勾选内容定位,点击商品评论,重新勾上内容定位,再点规则菜单->刷新网页结构,这样就完成页面的切换;

3,标注想采的评论内容

双击用户名称进行标注,打勾确认,首次标注要输入主题名、整理箱名,这里的主题名一定要输入前面预定好的第二级规则的名字。

依次双击想要采集的评论内容、评论日期等信息,输入标签名,打勾确认;

4,测试预览结果

点击工作台上的测试按钮,预览输出的数据结果,可以看到第一条评论数据,如果想要把一整页的评论抓取下来,还要做样例复制映射,操作参考教程:《采集列表数据》;如果还想连续翻页采集,还要做翻页映射,操作参考教程《设置翻页采集

5,点击右上角的存规则按钮


三、 采集数据

做好两级规则后,就可以采集数据了,特别要注意的是,模拟点击是连贯动作,因此,只要运行第一级规则,爬虫就会自动调用第二级规则进行抓取。另外,不要单独运行第二级规则,因为没有点击就不会有第二级要采集的网页数据,也就会采集失败。

运行DS打数机之前,要设置滚屏参数,把滚屏功能打开,操作是:选择配置菜单—>滚屏参数,把滚屏次数设置成>0的数字,比如2就行。

Tips1: 如果要检查第二级规则,就要像做规则那样,点击到出现评论区的页面,然后再加载规则,具体操作参考:《切换页签后加载规则》

Tips2:想抓更多同类商品的评论,可以把商品的网址添加到规则里,操作参考教程《添加网址线索做批量采集

Tips3:如果想爬取商品搜索页面上搜索到的每一个商品的评论,操作可参考教程《抓取网址做层级采集


若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2018-9-25 10:55
jinyi1020: 规则1的第7步修改主题名,然后规则2保存的时候提示有相同名的规则存在是否更新,是正常现象么?
在第一步的时候,已经为下级预留了主题名,所以定义下级规则的时候会问要不要修改。如果是别人占用了这个名字,就会直接说没有权限
评论 jinyi1020 2018-9-25 10:12
规则1的第7步修改主题名,然后规则2保存的时候提示有相同名的规则存在是否更新,是正常现象么?
评论 Fuller 2018-9-16 00:19
naminshengren: 为啥我做的用不行呢?在保存二级规则时候它提醒我这个名字不可用,需要更新
可能是目标主题名重名了,大家做了很多规则了,很多主题名都占用了,你可以在主题名后面缀上你的账号名字
评论 naminshengren 2018-9-15 23:33
为啥我做的用不行呢?在保存二级规则时候它提醒我这个名字不可用,需要更新

查看全部评论(4)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-10-23 04:18