快捷导航
我用集搜客爬虫软件加载这个网页,看不到内容,跟这个帖子说的一样:https://www.gooseeker.com/doc/thread-17347-1-1.html

那个帖子说了,用最新版 集搜客采摘软件 可以抓取这个网页,下载下来了,仔细看针对Alibaba外包询价网站的采集方法,就是这篇:https://www.gooseeker.com/doc/article-509-1.html

还有有些模糊,能不能针对京东拍卖网站,讲一下采集方法



举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-10-10 17:25

ym 版主 发表于 2020-3-2 11:45:38 | 显示全部楼层
本帖最后由 ym 于 2020-3-2 11:50 编辑

用新版的集搜客采摘浏览器采集京东拍卖的操作步骤如下:
1、下载新版的集搜客采摘浏览器,然后跟旧版集搜客软件登录同一个账号,另外,目前新版采摘浏览器还不能直接定义采集规则,需要跟旧版软件配合使用,所以还不能卸载旧版软件。
图片8.png

2、打开新版的集搜客采摘浏览器,在地址栏访问京东拍卖的网址,然后点左上角的“新建任务”按钮,这时会自动打开旧版软件,等几秒后可以看到访问了京东拍卖的网页快照,页面上的内容和样式与直接访问原网页基本是一样的。
图片9.png
图片10.png

3、然后就可以直接在旧版软件上对京东拍卖定义采集规则,选中要采集的信息做标注,然后“测试”核对数据,规则没问题了就点“保存”按钮即可。
图片11.png

4、做好采集规则后,不能直接用旧版软件采集数据,因为它没法正常加载京东拍卖的页面信息,而是要用新版集搜客采摘浏览器来做采集,点击新版左上角的“任务管理”按钮,就会打开任务管理页面。
图片12.png

5、选中刚创建的任务名称右侧的…按钮,点击“启动采集”,并且输入要采集的网址数量后,就会打开采集页签,跟旧版软件的单搜集搜是一样的作用,同一个任务可以点开多个采集页签做并发采集。
图片13.png

6、在采集页签里,可以看到页面正常加载上来了,点击右下角的状态图标就能看到具体的采集情况。
图片14.png

7、采集完成后,采集结果文件是存在跟旧版软件一样的文件目录里,在新版软件左侧的“设置”按钮里可以查看和修改存储路劲,而“配置”里是跟旧版软件一样的爬虫控制参数,有需要的可以修改。
QQ截图20200302114618.png
图片16.png

举报 使用道具
ym 版主 发表于 2020-3-2 14:55:28 | 显示全部楼层
只做直观标注的话,规则的适用性会比较低,建议像下图那样做上定位标志映射,这样可以大大提高规则的适用性
QQ截图20200302120619.png
举报 使用道具
ym 版主 发表于 2020-3-2 14:56:35 | 显示全部楼层
另外,要修改规则的话,就要到旧版软件里,搜规则然后右键选中“加载”即可。
QQ截图20200302115524.png
举报 使用道具
wangyong 版主 发表于 2020-10-10 17:25:19 | 显示全部楼层
采集拍卖数据可以采集51拍卖网上的,这个网站更全,包含京东拍卖和阿里拍卖
在集搜客的快捷采集中输入网址就可以采集51拍卖:https://www.gooseeker.com/res/da ... F%E5%88%97%E8%A1%A8
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 12:08