新手上路,找了个较标准的电商网页,尝试抓取每个商品的名称、ID、价格,最后只成功抓取了1200个商品的信息。但是该网页商品数不止1200个,大概剩1/3未抓取成功。

求大神解惑,怎么样才能全部抓取啊??!!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-4-26 21:46

沙发
Fuller 管理员 发表于 2016-4-26 19:10:40 | 只看该作者
如果是抓列表页,抽样看一些分页,对一下数量,比如要连续翻100页,拿出第52页的抓取结果,看看是否有漏的。列表页漏的原因主要是列表中某个信息块的某个抓取内容可能与别人不一样,比如,字体不一样,在这种情况下,如果抓取规则适应性不够就会漏

还有一个可能要检查:列表中的内容会不会有重复的?那么这引出一个问题,你看到的1200个商品信息是怎样统计出来的?是在抓取结果文件中统计的?还是存入了数据库进行统计的?哪一步是否有重复过滤?

如果是单独网页抓取,你看到有1300个网址,但是只看到1200个抓取结果文件,这种情况好检查,DS打数机选中这个规则名,点击鼠标右键,选择菜单 统计,看看有多少失败的线索,看看能否对上
举报 使用道具
板凳
Vickey_ni 初级会员 发表于 2016-4-26 19:37:41 | 只看该作者
Fuller 发表于 2016-4-26 19:10
如果是抓列表页,抽样看一些分页,对一下数量,比如要连续翻100页,拿出第52页的抓取结果,看看是否有漏的 ...

都是按照顺序抓取的,就是在第1201个截止了,后面的没抓上。刚看了其他人的帖子,跟配置里“超时时长"有关,默认的为“60”秒。
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-26 21:46:11 | 只看该作者
Vickey_ni 发表于 2016-4-26 19:37
都是按照顺序抓取的,就是在第1201个截止了,后面的没抓上。刚看了其他人的帖子,跟配置里“超时时长"有 ...

60秒还不够吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 04:54