本帖最后由 小北男孩 于 2019-8-23 19:40 编辑

网址是这个  https://www.wipo.int/branddb/en/#

测试成功抓取数据的
规则编号:品牌库采集规则





区域定位和记号定位试了好多都无法成功翻页




这是表格内容  我只采集的brand部分





翻页有这上下两部分,都试过无法翻页,数据采集结果一直都是储存的第一页的数据。

请帮我分析一下怎么回事。
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2019-8-27 09:25

沙发
Fuller 管理员 发表于 2019-8-23 15:17:50 | 只看该作者
停不下来?
举报 使用道具
板凳
小北男孩 新手上路 发表于 2019-8-23 19:42:22 | 只看该作者
我修改了一下内容,麻烦再看一下
举报 使用道具
地板
小北男孩 新手上路 发表于 2019-8-23 19:42:56 | 只看该作者

我修改了一下内容,麻烦再看一下

举报 使用道具
5#
Fuller 管理员 发表于 2019-8-23 23:27:47 | 只看该作者

我尝试了很久,用翻页方式没有测通。我改成了连续动作



点击动作的高级设置里面,有三项设置要注意:
1,额外延时设置3秒可能不够,这个网站挺慢的
2,跨度填了4,因为我用的定位表达式能定位到两个节点,第一个是要点击的目标,第二个是旁边那个按钮,而旁边这个按钮并不是想点的,为了跳过他,设置了一个大于按钮数的数字
3,重复次数,就是要点击翻多少页

另外,为了方便生成xpath,不用手写,用界面上的显示XPath按钮就行了。选中一个DOM节点,点击显示XPath,就生成了xpath。

我用的xpath是:
  1. //*[@class='toolTip ui-button ui-widget ui-state-default ui-corner-all ui-button-icon-only']/*[@class='ui-button-icon-primary ui-icon ui-icon-triangle-1-e']
复制代码

举报 使用道具
6#
小北男孩 新手上路 发表于 2019-8-24 11:38:13 | 只看该作者
本帖最后由 小北男孩 于 2019-8-24 15:27 编辑
Fuller 发表于 2019-8-23 23:27
我尝试了很久,用翻页方式没有测通。我改成了连续动作

成功翻页了,但是翻到第二页就停止采集数据了,提示完成任务。
最终数据只有一页,网站页面停止在第二页,重复次数多次调试一直是这样。您昨天调试的时候有这个情况没?

选中连续重做会一直翻页但是不会采集数据了。
举报 使用道具
7#
Fuller 管理员 发表于 2019-8-24 20:49:00 | 只看该作者
小北男孩 发表于 2019-8-24 11:38
成功翻页了,但是翻到第二页就停止采集数据了,提示完成任务。
最终数据只有一页,网站页面停止在第二页, ...

你又存了一个新规则?我看到名字是“品牌库”的规则并没有定义连续点击动作
举报 使用道具
8#
小北男孩 新手上路 发表于 2019-8-26 21:58:18 | 只看该作者
Fuller 发表于 2019-8-24 20:49
你又存了一个新规则?我看到名字是“品牌库”的规则并没有定义连续点击动作
...

嗯   是呢   不过现在又用的是      品牌库    了  网址是https://www.wipo.int/branddb/en/


还是翻到第二页就自动停止了
举报 使用道具
9#
小北男孩 新手上路 发表于 2019-8-26 22:04:17 | 只看该作者
Fuller 发表于 2019-8-24 20:49
你又存了一个新规则?我看到名字是“品牌库”的规则并没有定义连续点击动作
...

哈哈  现在这个网站上不去了,得用VPN了。
举报 使用道具
10#
Fuller 管理员 发表于 2019-8-27 09:25:44 | 只看该作者
小北男孩 发表于 2019-8-26 22:04
哈哈  现在这个网站上不去了,得用VPN了。

我这里不用vpn也可以。这个网站很特别,要翻页的话,点击那个翻页按钮必须采用仿真鼠标动作的模拟点击。

DS打数机启动的单搜或者集搜,翻页不具有模拟点击能力,必须用爬虫群模式,在会员中心为这个任务设置调度参数,勾上高仿真模拟点击


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 01:43