需要采集电商网站上京东的商品图片数据,用爬虫可以采集到吗?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-10-15 11:27

沙发
wangyong 版主 发表于 2020-10-15 10:47:32 | 只看该作者
本帖最后由 wangyong 于 2020-10-15 10:52 编辑

在集搜客的快捷采集中有京东、淘宝和天猫的采集入口,快捷采集上的网站输入链接就可以采集到数据例如要采集京东搜索列表图片,选择对应的入口后,输入链接,按照流程启动采集,就可以采集到图片了

结果示例

举报 使用道具
板凳
Fuller 管理员 发表于 2020-10-15 11:22:23 | 只看该作者
这篇攻略文章也是值得读一读:《电商开店必备的图片抓取和下载工具》。

集搜客网络爬虫的一个独特优势:下载网页上的图片是跟采集文本内容同时执行的,这样就不会遇到防盗图限制,因为并不是下采集下来图片网址,再用一个下载器使用这些图片网址,而是浏览网页和下载图片同时进行的
举报 使用道具
地板
wangyong 版主 发表于 2020-10-15 11:27:21 | 只看该作者
本帖最后由 wangyong 于 2020-10-15 11:28 编辑

除使用快捷采集进行一键采集外,还可以自定义采集规则进行图片下载

这个方法不仅适用于电商网站,任何网站都可以使用此方法进行图片下载。

1,下载集搜客爬虫软件后,将要采集的网址在软件中打开,进入定义规则模式,创建采集任务,进行规则定义



2,采集规则的编写,详细方法可参考集搜客爬虫入门教程,下面重点介绍图片下载相关的设置


#a,点击图片位置
#b,展开IMG节点找到@src
#c,进行内容映射建立整理箱节点和抓取内容

3,进行样例复制映射(采集网页上的所有商品)翻页设置(采集过程中自动采集翻页后的数据)

样例复制映射

翻页设置
4,抓取内容高级设置中勾选图片下载

勾选此设置后就可以将图片下载到本地电脑了
5,保存规则、启动采集,软件右上角的可进行这两个操作图片存储路径和快捷采集相同,在打数机中的存储路径可以查看,按网页分页保存



上文中的演示规则,大家可以通过这个链接下载:https://www.gooseeker.com/secure ... ew/share555439.html
图片下载过程中有什么疑问,欢迎跟帖交流~

QQ截图20201015111813.png (396.1 KB, 下载次数: 589)

QQ截图20201015111813.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 07:52