规则名:大众点评分地区采集具体信息2
示例网页如下:
http://www.dianping.com/shop/22896430
http://www.dianping.com/shop/69468058
http://www.dianping.com/shop/69664186
http://www.dianping.com/shop/2644468
http://www.dianping.com/shop/2080309
http://www.dianping.com/shop/67214251
http://www.dianping.com/shop/40770843
http://www.dianping.com/shop/45328816
http://www.dianping.com/shop/37793147
http://www.dianping.com/shop/2541265
http://www.dianping.com/shop/67869818
http://www.dianping.com/shop/14897121
http://www.dianping.com/shop/8991697
http://www.dianping.com/shop/63053555
http://www.dianping.com/shop/21665539

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-12-15 21:24

沙发
Fuller 管理员 发表于 2016-12-13 23:01:56 | 只看该作者
没有这个规则,是不是主题名写错了?
举报 使用道具
板凳
2024513798 初级会员 发表于 2016-12-14 23:04:18 | 只看该作者
Fuller 发表于 2016-12-13 23:01
没有这个规则,是不是主题名写错了?

大众点评分地区采集具体信息b
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-14 23:56:34 | 只看该作者
2024513798 发表于 2016-12-14 23:04
大众点评分地区采集具体信息b

你这个规则加载没有任何问题,每个抓取内容都能正确定位。你加载规则遇到什么问题?

你是说用这个规则分析其它网页就会出错?我试一下
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-15 00:12:01 | 只看该作者
2024513798 发表于 2016-12-14 23:04
大众点评分地区采集具体信息b

我对比了你提供的第一个网址,就发现这个没有 推荐菜,所以,是这样做规则的

1)选择一个最全的网页作为样本页面,在上面做规则。你选的样本页面挺合适,可以做出最全的整理箱

2)如果想让这个规则能适用于内容不全的网页,那么就要在勾选“关键内容”的时候注意了,如下图,不应该为 “推荐菜”和它的子节点勾选关键内容

3)这个规则不要用来分析其他网页,分析内容不全的网页肯定失败,但是,这不影响DS打数机的抓取操作。只要把“关键内容”设置对了,遇到没有的内容,那个抓取内容就留空。

4)其他网址通过线索添加功能加进来,而不是一个个进行手工分析
5)另外,我稍微做了一点改进,给“推荐菜”和“大家认为”都做了定位标志映射,这种含有子容器节点的复杂整理箱很容易抓取失败,所以,应该为内部的子容器节点做定位标志映射,可以更精确地划定范围



举报 使用道具
6#
2024513798 初级会员 发表于 2016-12-15 21:12:27 | 只看该作者
然而在使用的时候就是一直报错啊,我根据报错的规则号进去就发现全部没映射上。。。。今晚还是这样

1481807445(1).jpg (10.18 KB, 下载次数: 684)

1481807445(1).jpg
举报 使用道具
7#
2024513798 初级会员 发表于 2016-12-15 21:24:12 | 只看该作者
Fuller 发表于 2016-12-15 00:12
我对比了你提供的第一个网址,就发现这个没有 推荐菜,所以,是这样做规则的

1)选择一个最全的网页作为 ...

能否加一下QQ。。。。用网页对话感觉很不方便。。。传附件也不方便。。。说明问题也不方便,,,
我的qq是 523017961

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 04:41