目前需要下载google trends上的数据,它是提供了下载按钮的,但是由于需要下载的数据较多,不想手动下载,希望借助爬虫实现。首先如第一张图所示,点击右上角的箭头,他才会出现第二张图所示的csv下载按钮。
由于在点击上述两个按钮的时候,页面不发生跳转(网址不变),所以我想要采用连续动作功能来实现。在连续动作中我设置了两步,分别点击那两个按钮,步骤1采用了偏好class定位方式,(经测试能定位到该按钮),步骤2由于采用偏好class定位时,会连同上面两个按钮一同定位到,所以采用了绝对定位方式。然后动作后的主题随便设置了一个规则(只是为了方便检验),但还是始终没有成功下载到,不知道是哪一步出了问题,求帮助!或者有人用其他思路爬取过googletrends数据吗?(如直接在图表上爬而不采用它提供的下载按钮)
主题规则:googlefriday.规则_1   googlefriday2.规则_1(连续动作后主题)



图1

图1

图2

图2
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2017-11-17 16:47

北京精友2017 初级会员 发表于 2017-11-17 10:05:51 | 显示全部楼层
第二个点击动作用这个xpath:
  1. //*[@class='widget-actions-content']/button[3]
复制代码
举报 使用道具
gootrend 新手上路 发表于 2017-11-17 10:12:42 | 显示全部楼层
北京精友2017 发表于 2017-11-17 10:05
第二个点击动作用这个xpath:

我刚试了一下,它显示无法定位到节点哎,但单独搜索这个xpath的时候是可以定位到的,请问这是啥原因呢

结果

结果
举报 使用道具
wangyong 版主 发表于 2017-11-17 10:37:37 | 显示全部楼层
在第一个动作的高级设置里设置延迟5秒
举报 使用道具
gootrend 新手上路 发表于 2017-11-17 11:00:46 | 显示全部楼层
wangyong 发表于 2017-11-17 10:37
在第一个动作的高级设置里设置延迟5秒

他这个网页的结构下面还有一些如图1右上角的箭头,见图3、图4,现在按您的建议下载到了其他相关查询和相关主题的数据,但热度随时间变化的数据还是没有下载到,是不是我动作1的xpath有问题啊,请问应该如何改确保是定位到热度随时间变化的趋势那张表呢?谢谢您啦

图3

图3

图4

图4
举报 使用道具
wangyong 版主 发表于 2017-11-17 11:21:14 | 显示全部楼层
根据网页的结构创建只定位到你想定位到的网页位置,这个是xpath的教程:http://www.gooseeker.com/doc/article-248-1.html
举报 使用道具
gootrend 新手上路 发表于 2017-11-17 14:47:19 | 显示全部楼层
现在还是动作1xpath定位一个节点有一些问题,它的绝对定位是
html/body/div[position()=2]/div[position()=2]/div/md-content/div/div/div[position()=1]/trends-widget/ng-include/widget/div/div/div/widget-actions/button
偏好class定位是:
//*[@class='widget-actions-menu ic_googleplus_reshare'](这样的节点共有5个),我需要定位的节点是排在第一个的,我试了自定义xpath为://*[@class='widget-actions-menu ic_googleplus_reshare'][position()=1]也定位不到,检验的时候找到的还是5个,而且在规则运行的时候和不加[position()=1]效果一样,其他四个节点好像都能依次定位到并下载数据,就是定不到第一个,能否请教一下该如何修改xpath呢
举报 使用道具
umsung 高级会员 发表于 2017-11-17 15:01:49 | 显示全部楼层
gootrend 发表于 2017-11-17 14:47
现在还是动作1xpath定位一个节点有一些问题,它的绝对定位是
html/body/div/div/div/md-content/div/div/di ...

试试这个xpath .//*[@class='fe-atoms-generic-container fe-line-chart']/div/widget-actions/button     是专门定位第一个模块右上角的节点的
举报 使用道具
gootrend 新手上路 发表于 2017-11-17 15:19:48 | 显示全部楼层
umsung 发表于 2017-11-17 15:01
试试这个xpath .//*[@class='fe-atoms-generic-container fe-line-chart']/div/widget-actions/button    ...

您好,这个xpath确实是定位到了我想要的那个节点,我动作1的xpath定义为://*[@class='fe-atoms-generic-container fe-line-chart']/div/widget-actions/button
动作2的xpath定义为://*[@class='fe-atoms-generic-container fe-line-chart']/div/widget-actions/div/button[3]
在搜索的时候都是正确的,但规则一运行就是显示无法定位。不知道是哪出了问题,您那边可以下载的到吗?

结果

结果
举报 使用道具
umsung 高级会员 发表于 2017-11-17 15:37:53 | 显示全部楼层
本帖最后由 umsung 于 2017-11-17 16:06 编辑
gootrend 发表于 2017-11-17 15:19
您好,这个xpath确实是定位到了我想要的那个节点,我动作1的xpath定义为://*[@class='fe-atoms-generic- ...

网址需要翻墙,我这边无法操作,手动点击第一个模块的下载按钮会下载吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:29