本帖最后由 ym 于 2017-1-19 11:53 编辑

常见问题 > 制作规则—常见问题导航 > 采集图片 >  怎样下载大图

集搜客爬虫同时下载图片和文字特别好用,不用再安装其他下载软件了,但是我下载不了大图,怎么办?
举报 使用道具
| 回复

共 31 个关于本帖的回复 最后回复于 2017-8-14 14:15

沙发
Fuller 管理员 发表于 2016-10-29 15:47:47 | 只看该作者
可以把具体网址贴出来,我们帮你诊断。

原则上,能看到的图片都是可以下载的,因为在浏览器上能看到的话,说明图片已经在浏览器上了,可能是没有找到这个图片的位置。

电商网站上有放大镜功能,你是指放大镜对应的图吗?
举报 使用道具
板凳
HJLing 版主 发表于 2016-10-31 15:44:37 | 只看该作者
本帖最后由 HJLing 于 2016-10-31 16:00 编辑

通常小图链接带有图片大小的参数 直接修改即可
以淘宝为例

第一个小图直接采集下来的图片链接是 //gd1.alicdn.com/imgextra/i3/87589806/TB2kovJqpXXXXXKXXXXXXXXXXXX_!!87589806.jpg_50x50.jpg

后面的50×50就是图片大小 可以在规则通过Xpath去掉那个参数 直接采集//gd1.alicdn.com/imgextra/i3/87589806/TB2kovJqpXXXXXKXXXXXXXXXXXX_!!87589806.jpg

这样采集下来的就是原图


再比如京东
小图链接是://img14.360buyimg.com/n5/s75x75_jfs/t2755/57/1409598575/197491/b56ecad7/573e6c3eNec1a89c4.jpg
大图链接是://img14.360buyimg.com/popWaterMark/jfs/t2755/57/1409598575/197491/b56ecad7/573e6c3eNec1a89c4.jpg
可以比较大小图 带有图片大小的参数75x75 同样也可以通常xpath修改图片链接 这样下载的就是大图

Save
举报 使用道具
地板
zm_mark_one 新手上路 发表于 2016-12-14 19:01:28 | 只看该作者
怎么修改图片链接的参数
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-14 23:14:24 | 只看该作者
zm_mark_one 发表于 2016-12-14 19:01
怎么修改图片链接的参数

放在excel中修改,最便利,因为excel有很多函数,做替代,做串接
举报 使用道具
6#
zm_mark_one 新手上路 发表于 2016-12-15 10:45:55 | 只看该作者
搞定了。concat(substring-before(//*[@class='WB_pic li_5 S_bg1 S_line2 bigcursor']/img/@src,'thumb150'),'mw690',substring-after(//*[@class='WB_pic li_5 S_bg1 S_line2 bigcursor']/img/@src,'thumb150'))
顺便学会了xpath的函数的应用
举报 使用道具
7#
18873028857 初级会员 发表于 2016-12-19 16:26:44 | 只看该作者
Fuller 发表于 2016-10-29 15:47
可以把具体网址贴出来,我们帮你诊断。

原则上,能看到的图片都是可以下载的,因为在浏览器上能看到的话, ...

我能找到大图片的位置,但是一次只能打到一个图片,比如<图片>//img.alicdn.com/imgextra/i1/1657152846/TB26ozJa2OM.eBjSZFqXXculVXa_!!1657152846.jpg_60x60q90.jpg</图片>                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i3/1657152846/TB2iq6Oa5GO.eBjSZFEXXcy9VXa_!!1657152846.jpg_60x60q90.jpg</图片>
                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i1/1657152846/TB2cFnDaH1J.eBjSszcXXbFzVXa_!!1657152846.jpg_60x60q90.jpg</图片>
                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_60x60q90.jpg</图片>
中这些图片的大图片就是//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_60x60q90.jpg
                               改成//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_640x640q90.jpg
                               即可,可是不知道在程序输出前怎么改
网址是:https://detail.tmall.com/item.htm?id=534151697140&ns=1&abbucket=5

举报 使用道具
8#
18873028857 初级会员 发表于 2016-12-19 16:28:07 | 只看该作者
Fuller 发表于 2016-10-29 15:47
可以把具体网址贴出来,我们帮你诊断。

原则上,能看到的图片都是可以下载的,因为在浏览器上能看到的话, ...

我能找到大图片的位置,但是一次只能打到一个图片,比如<图片>//img.alicdn.com/imgextra/i1/1657152846/TB26ozJa2OM.eBjSZFqXXculVXa_!!1657152846.jpg_60x60q90.jpg</图片>                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i3/1657152846/TB2iq6Oa5GO.eBjSZFEXXcy9VXa_!!1657152846.jpg_60x60q90.jpg</图片>
                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i1/1657152846/TB2cFnDaH1J.eBjSszcXXbFzVXa_!!1657152846.jpg_60x60q90.jpg</图片>
                                        </item>
                                        <item>
                                                <图片>//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_60x60q90.jpg</图片>
中这些图片的大图片就是//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_60x60q90.jpg
                               改成//img.alicdn.com/imgextra/i2/1657152846/TB2GzTQa4eK.eBjSZFuXXcT4FXa_!!1657152846.jpg_640x640q90.jpg
                               即可,可是不知道在程序输出前怎么改
网址是:https://detail.tmall.com/item.htm?id=534151697140&ns=1&abbucket=5
举报 使用道具
9#
HJLing 版主 发表于 2016-12-19 16:28:42 | 只看该作者
Fuller 发表于 2016-12-14 23:14
放在excel中修改,最便利,因为excel有很多函数,做替代,做串接

在excel修改的通常是只想在采集结果取出某部分内容 如采下来的是“20条评论” 而只想要20这个数字 或者是要大批量构造网址的情况
如果是为了下载大图 就需要在谋数台自定义xpath来修改

举报 使用道具
10#
HJLing 版主 发表于 2016-12-19 16:30:10 | 只看该作者
18873028857 发表于 2016-12-19 16:28
我能找到大图片的位置,但是一次只能打到一个图片,比如//img.alicdn.com/imgextra/i1/1657152846/TB26oz ...


对下面的小图做样例复制就能采多个图片了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 12:25