按照教程操作后出现情况如下:1、爬数据后
正常的教程运行ds打数机

而我的出现这情况

2、第一级抓取的网址抓不完全
3、第一级抓取的网址有部分是错误的,出现非正常网址如:/gp/slredirect/picassoRedirect.html/ref=pa_sp_btf_aps_sr_pg1_3?ie=UTF8&adId=A0003205283GLAOR1F68D&url=https%3A%2F%2Fwww.amazon.cn%2F%25E7%25BE%258E%25E5%259B%25BDOmega-Juicers%25E6%25A8%25AA%25E5%25BC%258F%25E5%25A4%259A%25E5%258A%259F%25E8%2583%25BD%25E6%2585%25A2%25E7%25A3%25A8%25E6%2596%2599%25E7%2590%2586%25E6%259C%25BA%25E5%258E%259F%25E6%25B1%2581%25E6%259C%25BACNC82R-C%2Fdp%2FB0171581WK%2Fref%3Dsr_1_27%3Fie%3DUTF8%26qid%3D1483667905%26sr%3D8-27-spons%26keywords%3D%25E6%25A6%25A8%25E6%25B1%2581%25E6%259C%25BA%26psc%3D1&qualifier=1483667904&id=4686482199134860&widgetName=sp_btf4、第二级抓取图片只有显示一张

5、我要爬的内容

爬出来的内容却只有网址

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-6 10:42

沙发
Fuller 管理员 发表于 2017-1-6 10:39:39 | 只看该作者


列表里面穿插了广告,那些网址比较怪的是广告,这种需要自定义xpath进行过滤
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-6 10:42:24 | 只看该作者
检查是否抓全的话,打开一个结果文件,数一数有多少个抓到了,然后打开那个网页,看看哪几个漏掉了,观察一下他们的结构有什么差别,在MS谋数台的DOM树上,看他们的@class是否有不同,是否会影响规则。

请注意,亚马逊的网页内容是延迟加载的,不 滚屏就不加载,所以DS打数机运行的时候一定要设置滚屏次数,菜单 配置-》滚屏参数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 11:18