抓取了下京东手机的图片,image下带有src标签的可以抓取图片。没有src标签的抓取不到,没有src图片的IMG结构如下:
<IMG>
    attributes
          @width
          @height
          @data-lazy-img
          @data-img
          @class
每个都尝试了,但得不到图片的URL位置,无法获取图片。
希望大家帮我解决这个问题
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-11-12 16:27

沙发
Fuller 管理员 发表于 2015-11-12 11:56:37 | 只看该作者
滚屏到那个位置,京东网页才能把图片网址生成好,所以要打开滚屏
举报 使用道具
板凳
flosolis 新手上路 发表于 2015-11-12 14:47:56 | 只看该作者
本帖最后由 flosolis 于 2015-11-12 14:50 编辑
Fuller 发表于 2015-11-12 11:56
滚屏到那个位置,京东网页才能把图片网址生成好,所以要打开滚屏

设置了滚屏,每次滚屏数1,总共滚屏数1,滚屏速度设置为1(只搜索一个页面信息),但显示的图片信息还是不全。搜索结果有58条数据,只有10条数据有图片。
主题:京东三星手机图片信息
网站链接:http://search.jd.com/Search?keyword=三星&enc=utf-8&wq=三星&pvid=gzdnuvgi.of9b7i
再帮我看一下吧,thank you
举报 使用道具
地板
ym 版主 发表于 2015-11-12 15:31:11 | 只看该作者
本帖最后由 ym 于 2015-11-12 15:37 编辑

原因:这是规则没做好,只采到了十来个商品的图片网址,其他商品图片的网址没采到


分析:点测试,查看数据规则,图片的提取程序是*//*[@class='err-product']/@src,但是大部分图片是没有属性值@class='err-product',所以无法定位导致采不到这些图片网址


解决方法:找到图片网址@scr所在dom区块的共同属性值@class='p-img',做定位标志映射,从而修改提取程序的路径变为*//*[@class='p-img']/a/img/@src,这样做,就能把每个商品的图片网址抓下来


举报 使用道具
5#
ym 版主 发表于 2015-11-12 15:35:46 | 只看该作者
以后要检查一下输出信息里是否都采全了,否则,实际采的时候都会漏掉
举报 使用道具
6#
Fuller 管理员 发表于 2015-11-12 16:24:19 | 只看该作者
目前DS打数机V5.4.1版本还有个缺陷:如果图片不是img,而是style中的background,就抓不下来,如果遇到这种情况,发一个网址,我们好根据实际案例做修改和测试
举报 使用道具
7#
flosolis 新手上路 发表于 2015-11-12 16:27:59 | 只看该作者
ym 发表于 2015-11-12 15:35
以后要检查一下输出信息里是否都采全了,否则,实际采的时候都会漏掉

谢谢,问题已经解决了。这两天才接触这个软件,有些地方还不是很清楚,谢谢帮忙。以后会多注意输出信息里面的内容。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 04:07