我有个网站要抓取,网站应该是ajax的模式,网址始终不变。有一个下拉选择框,列表中选择后,下面有个表格会重新Load。

我已经做好了2级抓取,也能抓取到表格中的数据。

现在的问题是,在下拉列表中,由于看不到网址的信息,所以转做用连续动作。

连续动作,使用了样例复制来取下拉选择框的数值。同时设置连续动作来模拟点击,但也是无法触发2级规则的抓取。
.//*[@class='plx-filter-select-item unselected']/@data-ng-click

请帮忙看下,是否连续动作设置的有问题。


举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-28 11:34

沙发
xandy 论坛元老 发表于 2016-10-28 11:34:40 | 只看该作者
本帖最后由 xandy 于 2016-10-28 11:35 编辑

连续动作中选择下拉框的XPATH定位到SELECT,然后爬虫会自动执行循环(依次选择OPTION里头的值)
不是用样例复制来取下来选择框的数值,取下拉框里头的值参看这篇教程《怎么抓取下拉菜单被选择项的值
另外,下拉选择框不能定位到具体的OPTION值,不然会导致连续动作失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 15:06