请教各位大神,如图所示,目的是分别点击图1其中的每一条Sample Name并爬取其中图2的数据应该如何操作

                                          


                                         
图1的其中一个链接点击之后为图2.有没有方法可以实现按顺序自动点击图1中的所有链接然后翻页知道到达最后一页,并且爬取其中的每一条数据如图2所示。



举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-1-10 03:52

沙发
Fuller 管理员 发表于 2019-1-9 10:35:36 | 只看该作者
这是哪个网站?
1,先检查在图1中能否抓取到图2的网址,如果图2都有独立网址,那就好办了,用层级采集
2,如果图2没有独立网址,那就有些麻烦了,要在图1上用连续点击动作,那么又要判断一下
2.1,在图1上点击以后,是新出现一个窗口显示图2呢?还是图2的内容替换了图1?
2.2,如果用新窗口显示图2,那么就要用飞掠模式,在定义图1的连续动作的时候,要勾上飞掠模式,但是需要旗舰版才能执行飞掠
2.3,如果图2的内容替换了图1的内容,就有些麻烦,要检查图2的内容做了翻页以后,是否有办法返回图1
2.3.1,如果没有一个按钮可以返回图1,就得用回退动作,也是旗舰版的功能
2.3.2,如果有个按钮可以点击后返回图1,那么就在图2的规则中点击这个按钮
2.3.3,无论哪种情况,都得用一个“连续重做”,这是连续点击的高级设置,目前这个版本还没有发布

总之,如果是2.3这种情况,就要很麻烦,可以把网址发出来,我们看看能否容易实现
举报 使用道具
板凳
lifuhao0211 新手上路 发表于 2019-1-9 14:00:33 | 只看该作者
Fuller 发表于 2019-1-9 10:35
这是哪个网站?
1,先检查在图1中能否抓取到图2的网址,如果图2都有独立网址,那就好办了,用层级采集
2, ...

谢谢大神,网址是https://cancer.sanger.ac.uk/cosmic/browse/tissue?wgs=off&sn=breast&ss=&hn=&sh=&in=t&src=tissue&all_data=
是一个肿瘤数据的网站,点击Whole genome screens 然后点go就可以得到对应界面
举报 使用道具
地板
Fuller 管理员 发表于 2019-1-9 16:00:10 | 只看该作者
lifuhao0211 发表于 2019-1-9 14:00
谢谢大神,网址是https://cancer.sanger.ac.uk/cosmic/browse/tissue?wgs=off&sn=breast&ss=&hn=&sh=&in= ...

回退就失效了,但是,好在有独立网址,可以层级采集

这样规划
1,第一级:主要是做动作,点击那些按钮,知道出现sample 列表
2,第二级:采集sample列表,并翻页采集,采集到的网址作为第三级
3,第三级:进入到每个sample,采集详情

分别运行1和3
举报 使用道具
5#
lifuhao0211 新手上路 发表于 2019-1-10 03:52:02 | 只看该作者
Fuller 发表于 2019-1-9 16:00
回退就失效了,但是,好在有独立网址,可以层级采集

这样规划

谢谢大神,我研究一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 20:42