本帖最后由 759924607 于 2016-6-20 14:33 编辑

我抓取的是淘宝页面,翻页分层采集。第二级详情页有的是淘宝页面,有的是天猫页面。所以第二级主题下做了两个规则。遇到的问题是,第二级详情页采集百分之95都失败。

【错误排除】:
1:第一级做的翻页采集,有抓取结果并且为第二级提供了线索,这一级肯定没错误。
2:第二级的两个规则,针对淘宝跟天猫不同的网页结构,做内容映射。测试的时候,都显示正确。而且加载规则,也是成功的。
3:统计第二级的线索,可以查看到线索数。所以,从第一级转到第二级的过程,应该也是没问题的。
【可能的错误】:
第二级的两个规则,要找个网页标记。我设置各自的网址做内容映射。天猫用的是@href,淘宝用的是@src(淘宝Logo的标签没有@href)。
PS:早以前不知道淘宝页面网页结构不同,第二级只做了天猫的规则。那个时候,抓取第二级还会出结果,只不过抓取地特别慢,其中也有很多抓取失败的。可至少会有个抓取结果的文件夹及部分文件。这次第二级建了两个规则,不仅抓取失败,出结果的文件夹都没生成。

别的可能的错误,实在是想不到了。望大神指点啊!!!跪谢!


举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2016-6-21 16:08

沙发
759924607 高级会员 发表于 2016-6-20 13:08:00 | 只看该作者
更新一下,第二级抓取的数据,不是全部失败。等到后边,采到部分信息。不过百分之九十五采集失败。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-6-20 14:46:46 | 只看该作者
第二级规则名是什么?
举报 使用道具
地板
759924607 高级会员 发表于 2016-6-20 14:54:55 | 只看该作者
Fuller 发表于 2016-6-20 14:46
第二级规则名是什么?

第二级主题名“淘宝记录仪详情”,这个主题下两个规则,规则1 规则2 。
举报 使用道具
5#
Fuller 管理员 发表于 2016-6-20 15:03:46 | 只看该作者
这么复杂的整理箱结构,最好用上定位标记映射,如下图,尽量给每个抓取内容都做映射

定位标志映射可以提高规则的适应性,详细请参看:http://www.gooseeker.com/doc/thread-707-1-1.html

举报 使用道具
6#
Fuller 管理员 发表于 2016-6-20 15:10:11 | 只看该作者
你要抓的信息,散布在页面的4个区域中,跨度很大,很容易受网页结构变化的影响。
1,logo再最顶上
2,人气在图片下面
3,名称,是品牌名称,在产品参数那里
4,其它抓取内容相对集中
这是网页上4个不同的区块,放在一个整理箱中,特别容易受影响。例如,在logo和下面的内容之间插一条广告,就有可能影响到抓取规则。

用上定位标志映射可以大大提高适应性。如果后期数据处理不是问题的话,可以放到4个整理箱中,那就可以有更高的适应性
举报 使用道具
7#
759924607 高级会员 发表于 2016-6-20 15:16:45 | 只看该作者
Fuller 发表于 2016-6-20 15:10
你要抓的信息,散布在页面的4个区域中,跨度很大,很容易受网页结构变化的影响。
1,logo再最顶上
2,人气 ...

哦哦!用定位标志,明白了。不过,之前都是把抓取的内容放到一个整理箱,如果放到其他整理箱,区别就是最后EXCEL的格局变复杂吧?
举报 使用道具
8#
759924607 高级会员 发表于 2016-6-20 15:18:57 | 只看该作者
Fuller 发表于 2016-6-20 15:10
你要抓的信息,散布在页面的4个区域中,跨度很大,很容易受网页结构变化的影响。
1,logo再最顶上
2,人气 ...

感谢您的耐心解答,彻底消除了我的疑问。感谢感谢!
举报 使用道具
9#
Fuller 管理员 发表于 2016-6-20 16:10:41 | 只看该作者
759924607 发表于 2016-6-20 15:16
哦哦!用定位标志,明白了。不过,之前都是把抓取的内容放到一个整理箱,如果放到其他整理箱,区别就是最 ...

excel就会变得很复杂,从资源板块下载的xml转excel工具处理不了,用会员中心的入库功能可以处理,每个整理箱就当成一个表。

先用定位标志映射试试能否满足要求吧
举报 使用道具
10#
759924607 高级会员 发表于 2016-6-21 14:04:50 | 只看该作者
Fuller 发表于 2016-6-20 15:03
这么复杂的整理箱结构,最好用上定位标记映射,如下图,尽量给每个抓取内容都做映射

定位标志映射可以提高 ...

您好,又来打扰您了。改了一上午,采集结果优化了许多。目前是天猫的都可以采集到,淘宝页面全部采集不到。
淘宝,我也用了定位标记映射,测试及再次加载都显示正确。新建了整理箱也一样,采集不到。您能帮我再分析一下嘛?万分感谢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 15:11