所在区县  点击选择>,所属板块 点选择>   查询  采集下面的列表

备注: 所在区县一对多应所属板块 查询循环采集要怎么弄呢?

第一次弄下拉希望详细一点
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-12-11 15:49

沙发
zhuohui1987 金牌会员 发表于 2016-12-10 23:05:10 | 只看该作者
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-10 23:12:15 | 只看该作者
连续动作教程》是否看过,建议先看一下教程。下拉菜单规则特别好定义,所以,教程里面没有下拉菜单的案例。

你的这个网页网页,只需定义两个动作,每个下拉菜单对应一个动作。定位XPath只需写到select节点,不要写到option
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-10 23:14:14 | 只看该作者
定位表达式的写法看这个文档:http://www.gooseeker.com/doc/article-224-1.html ,里面提到下拉菜单
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-10 23:36:57 | 只看该作者


定位XPath不用手写的,如上图,如果是GS爬虫浏览器版(火狐插件版界面稍微有点区别),加载了网页以后,选中“定义规则”,点击所在区县那个下拉菜单,就能在DOM上定位到那个select节点,点击红框内的“显示XPath”按钮,就能生成xpath,直接拷贝到“连续动作”工作台上就行
举报 使用道具
6#
zhuohui1987 金牌会员 发表于 2016-12-11 12:23:40 | 只看该作者
Fuller 发表于 2016-12-10 23:36
定位XPath不用手写的,如上图,如果是GS爬虫浏览器版(火狐插件版界面稍微有点区别),加载了网页以后, ...

所属板块不能点击  


主题 :网上房地产上海_1
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-11 12:36:41 | 只看该作者
zhuohui1987 发表于 2016-12-11 12:23
所属板块不能点击  

要做两级规则,一个是选择前,一个是选择后。我加载了你的规则,但是发现你的主题关系是这样的
1)网上房地产上海_1 -〉 网上房地产上海_2 :层级采集
2)网上房地产上海_1 -〉 网上房地产上海_1:翻页采集
3)网上房地产上海_1 -〉 网上房地产上海_1:连续动作

这显然混乱了,应该是:在第一级上做动作;在第二级上抓数据并且定义爬虫路线

1)网上房地产上海_1 -〉 网上房地产上海_2 :两个主题分别是动作前和动作后。在第一级 网上房地产上海_1 上面做选择和点击“查询”按钮动作,第一个主题的“创建规则”工作台上,不是抓取实际的查询结构信息,而是抓取查询条件部分的那些标志信息,随便定义几个抓取内容,比如,


而第二个规则 网上房地产上海_2 ,才去抓取查询结果。

2)网上房地产上海_2 -〉网上房地产上海_2:翻页采集,在这一级的“爬虫路线”工作台上定义
3)网上房地产上海_2 -〉网上房地产上海_3:层级采集,在 网上房地产上海_2  这一级的“创建规则”工作台上创建下级线索,在 “爬虫路线”工作台上命名主题

举报 使用道具
8#
Fuller 管理员 发表于 2016-12-11 12:40:56 | 只看该作者
另外,你的规则还有个错误,你把动作类型选错了,不是悬浮,应该是选择
举报 使用道具
9#
zhuohui1987 金牌会员 发表于 2016-12-11 14:36:49 | 只看该作者
主题:网上房地产上海_1
所在区县  点击选择>,所属板块 点选择   不能进行联动,不是一次一次来,而是随便选择,
问题一,会重复选择,
问题二,数据会有重复
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-11 15:49:55 | 只看该作者
zhuohui1987 发表于 2016-12-11 14:36
主题:网上房地产上海_1
所在区县  点击选择>,所属板块 点选择   不能进行联动,不是一次一次来,而是随便 ...

有如下错误:
1)步骤2:你输入的xpath与步骤1的一样,这肯定有问题
2)步骤2:跨度不能写15,要填1
3)步骤2:应该加上 额外延时,比如 3秒
4)步骤1:应该加上额外延时,比如 3秒
5)步骤1:不选 必做 试试
6)应该在“创建规则”工作台上定义抓取内容,而且设定关键内容

最关键的是1,2
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 22:16