规则主题:点评_商户详情1
自定义有问题字段:

详情链接://*[@class='item-gray' and contains(./@href,'editmember')]/@href
能正确定位大部分线索,以下几个线索抓取内容是空的,未能定位成功:
http://www.dianping.com/shop/69340448
http://www.dianping.com/shop/76839581
http://www.dianping.com/shop/75192142
http://www.dianping.com/shop/69838801
http://www.dianping.com/shop/70765571


辛苦方便的时候,帮忙查看下,谢谢
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-1-3 17:37

沙发
meicairen 高级会员 发表于 2017-1-3 00:22:32 | 只看该作者
我调整如下:
//p[@class='info info-indent J-Contribution']/span[position()=2]/span[position()=3]/a/@href

第一次试全部抓取成功,后来补全域名:
concat('http://www.dianping.com',//p[@class='info info-indent J-Contribution']/span[position()=2]/span[position()=3]/a/@href)

再试抓了几次,都有漏抓的,而且每次漏抓的都不一样,我去掉concat()函数,也不稳定了。

试抓样本如下:
http://www.dianping.com/shop/69340448
http://www.dianping.com/shop/73431213
http://www.dianping.com/shop/67884698
http://www.dianping.com/shop/76839581
http://www.dianping.com/shop/76766756
http://www.dianping.com/shop/72468264
http://www.dianping.com/shop/70789225
http://www.dianping.com/shop/67617258
http://www.dianping.com/shop/75142266
http://www.dianping.com/shop/4505064
http://www.dianping.com/shop/75192142
http://www.dianping.com/shop/75718452
http://www.dianping.com/shop/69838801
http://www.dianping.com/shop/69082472
http://www.dianping.com/shop/69648904
http://www.dianping.com/shop/73406286
http://www.dianping.com/shop/73426953
http://www.dianping.com/shop/70765571
http://www.dianping.com/shop/13824653
http://www.dianping.com/shop/69803185
http://www.dianping.com/shop/32571802
http://www.dianping.com/shop/18780190
http://www.dianping.com/shop/67084861
http://www.dianping.com/shop/45685177
http://www.dianping.com/shop/72470309
http://www.dianping.com/shop/75127641
http://www.dianping.com/shop/19168975

烦请方便的时候,帮忙解答下,谢谢。
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-3 09:01:37 | 只看该作者
meicairen 发表于 2017-1-3 00:22
我调整如下:
//p[@class='info info-indent J-Contribution']/span/span/a/@href

到第二级抓取有漏的?还是在第一级抓网址的时候有漏的?
举报 使用道具
地板
meicairen 高级会员 发表于 2017-1-3 09:59:23 | 只看该作者
Fuller 发表于 2017-1-3 09:01
到第二级抓取有漏的?还是在第一级抓网址的时候有漏的?

总共只有2级,第一级抓取第二级线索的时候,会有漏抓线索。
另外规则:点评_商户列表,我样本量少的时候,正常,样本量大了,也会有漏抓,漏抓字段是:商户详情,也会漏抓;

反复排查自定义没发现有什么问题,烦请帮忙查看下是什么问题,谢谢。
举报 使用道具
5#
Fuller 管理员 发表于 2017-1-3 10:26:25 | 只看该作者
meicairen 发表于 2017-1-3 09:59
总共只有2级,第一级抓取第二级线索的时候,会有漏抓线索。
另外规则:点评_商户列表,我样本量少的时候 ...

我正在看 第二级,我发现你只给城市类目勾了关键内容,这样不太好,关键内容不太够,至少应该勾上“商户名”,这才是特定商户自有的内容
举报 使用道具
6#
meicairen 高级会员 发表于 2017-1-3 10:35:47 | 只看该作者
Fuller 发表于 2017-1-3 10:26
我正在看 第二级,我发现你只给城市类目勾了关键内容,这样不太好,关键内容不太够,至少应该勾上“商户 ...

城市类目哪级,是第一级,商户列表这个层级,我是单独做来的,没有做层级。
举报 使用道具
7#
meicairen 高级会员 发表于 2017-1-3 10:57:27 | 只看该作者
meicairen 发表于 2017-1-3 10:35
城市类目哪级,是第一级,商户列表这个层级,我是单独做来的,没有做层级。
...

我刚又抓了200多个样本线索,抓了3次,数据才抓权,你可以查看下,帮忙分析下是什么原因。
举报 使用道具
8#
Fuller 管理员 发表于 2017-1-3 11:00:13 | 只看该作者
meicairen 发表于 2017-1-3 10:35
城市类目哪级,是第一级,商户列表这个层级,我是单独做来的,没有做层级。
...

第二级的城市类目
举报 使用道具
9#
Fuller 管理员 发表于 2017-1-3 11:01:25 | 只看该作者
meicairen 发表于 2017-1-3 10:57
我刚又抓了200多个样本线索,抓了3次,数据才抓权,你可以查看下,帮忙分析下是什么原因。
...

第二级的吗?如果关键内容设置不合适,很容易漏抓。“城市类目”是属于网页模板的,所以,总是会显示,即使商家信息没有显示出来,“城市类目”也在,所以,这个关键内容起不到作用
举报 使用道具
10#
meicairen 高级会员 发表于 2017-1-3 14:08:19 | 只看该作者
Fuller 发表于 2017-1-3 11:00
第二级的城市类目

不是,我城市类目那个规则是第一级,不是第二级。我说的漏抓的意思是,
详情页链接xpath自定义没有问题,但是还是会漏抓。因为同样的线索,同样的规则,我第一次爬取,没有抓到数据,第二次、第三次能抓到
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 02:56