在高德地图上做连续点击,抓取店铺的信息,但是第一页的店铺信息基本上都是相同的,主题名是:测试陈仓区建材连续点击2



举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-4-25 15:35

沙发
shengchengx 金牌会员 发表于 2018-4-23 14:21:31 | 只看该作者
规则名确定是这个么?我检查规则的时候发现没有连续动作
举报 使用道具
板凳
bowieD 金牌会员 发表于 2018-4-23 14:24:30 | 只看该作者
本帖最后由 bowieD 于 2018-4-23 14:32 编辑

连续动作规则做的太简单了,只有一个点击动作,虽然能定位到所有的店铺名称,但是运行时点击进入第一个店铺后采集之后页面就一直停留在了第一个店铺的详情页,不会再回到列表页去抓取下一个店铺的信息。如果要抓取完整,就需要在二级规则定义一个动作回到一级规则才行

其实这个可以用层级抓取来采集,因为每一个店铺都有独立的网址,虽然在网页节点中找不到@href节点,但是可以用concat函数拼接出来,每一个店铺网址的前一部分都是https://www.amap.com/place/,只有后面的部分不一样,而网址后面的部分则是存在@id值来里面的,可以把@id值采集下来,再用concat函数拼接到https://www.amap.com/place/后面就可以了


concat函数参考《xpath常用函数用法》

1.png (282.01 KB, 下载次数: 537)

1.png
举报 使用道具
地板
joni520 新手上路 发表于 2018-4-25 15:14:16 | 只看该作者
bowieD 发表于 2018-4-23 14:24
连续动作规则做的太简单了,只有一个点击动作,虽然能定位到所有的店铺名称,但是运行时点击进入第一个店铺 ...

按照你说的第二种办法,第一层级可以测试没问题,但是第二层级的话就是只有一个线索

117357005760462802.png (13.22 KB, 下载次数: 488)

117357005760462802.png

424423604816483596.png (28.7 KB, 下载次数: 517)

424423604816483596.png
举报 使用道具
5#
joni520 新手上路 发表于 2018-4-25 15:15:26 | 只看该作者
bowieD 发表于 2018-4-23 14:24
连续动作规则做的太简单了,只有一个点击动作,虽然能定位到所有的店铺名称,但是运行时点击进入第一个店铺 ...

测试的主题名是:测试清涧翻页层级第一级//测试清涧翻页层级第二级
举报 使用道具
6#
bowieD 金牌会员 发表于 2018-4-25 15:35:45 | 只看该作者
joni520 发表于 2018-4-25 15:15
测试的主题名是:测试清涧翻页层级第一级//测试清涧翻页层级第二级

你的xpath拼链接有点问题,用这个:concat('https://www.amap.com/place/',@id)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 16:25