想抓取大众点评上的酒店坐标数据,不知道如何在网页结构中找到相对应的映射,
网页是https://www.dianping.com/qiandaohu/hotel/r64728
网页源代码中的坐标信息在这个位置:



如果需要调用我的规则名进行诊断,我的规则名是:
千岛湖酒店-1级列表
千岛湖酒店-2级内容

谢谢!

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-5-18 18:39

沙发
Fuller 管理员 发表于 2017-5-18 09:44:39 | 只看该作者
如果是截图这种情况,是比较好处理的。
1,要么把这个script的内容采集下来。完整采集下来就行,里面的内容是一个json格式,结构化的,如果自己编程序处理的话,这个结构化格式特别容易处理。或者把采集结果导出成excel之后,用excel的字符串函数做提取
2,用自定义xpath也能把坐标提取出来,以"lat":和"lng":作为标志,用substring-after()和substring-before()函数

因为xpath的字符串处理函数比较弱,建议把script整体采集下来。然后用其他工具做处理
举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-18 09:46:19 | 只看该作者
json导入数据库并导出excel的工具参看《资源版块最下面的json处理工具
举报 使用道具
地板
eino11 中级会员 发表于 2017-5-18 09:51:34 | 只看该作者
Fuller 发表于 2017-5-18 09:46
json导入数据库并导出excel的工具参看《资源版块最下面的json处理工具》

谢谢回复,我尝试一下。

举报 使用道具
5#
eino11 中级会员 发表于 2017-5-18 18:39:19 | 只看该作者
Fuller 发表于 2017-5-18 09:46
json导入数据库并导出excel的工具参看《资源版块最下面的json处理工具》

您好,抓取碰到了新的问题,我定义的规则里,坐标信息是映射到HEAD/SCRIPTS,定位号是79
但打数据之后,我发现我的规则里,坐标映射被修改成了106,打出来的数据也是错的,可否帮忙诊断一下,谢谢!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 22:35