集搜客GooSeeker网络爬虫

标题: 【天眼查列表采集】#GooSeeker数据DIY# [打印本页]

作者: scraper    时间: 2017-2-13 15:50
标题: 【天眼查列表采集】#GooSeeker数据DIY#
本帖最后由 scraper 于 2017-5-8 16:09 编辑


【启动采集前的配置】

【运行方法】— 详见数据DIY图文教程


【常见问题】— 欢迎跟帖留言
   1.普通用户只能查看到100家公司,因此只能采到100家公司。

作者: xyz2017    时间: 2017-3-9 11:53
详细数据弄不下来啊,点采集按钮提示已开始采集。可以按钮没有变灰啊?
作者: HJLing    时间: 2017-3-9 15:14
xyz2017 发表于 2017-3-9 11:53
详细数据弄不下来啊,点采集按钮提示已开始采集。可以按钮没有变灰啊?

天眼查的详细页面又有变动,规则也修改了,查看到你的任务都采集成功了,没有问题了吧?


作者: xyz2017    时间: 2017-3-10 16:14
现在好了。
作者: hg946902208    时间: 2017-3-14 16:02
列表不会自动翻页,最多只有20条
作者: HJLing    时间: 2017-3-14 16:09
hg946902208 发表于 2017-3-14 16:02
列表不会自动翻页,最多只有20条

测试没问题
不翻页是你没有修改页数 默认只采1页


作者: hg946902208    时间: 2017-3-14 16:48
HJLing 发表于 2017-3-14 16:09
测试没问题
不翻页是你没有修改页数 默认只采1页

不好意思之前看错了,没注意到右边的,抱歉

一页20条,一共有50页。这不是浪费了很多数据吗。


作者: HJLing    时间: 2017-3-14 16:49
hg946902208 发表于 2017-3-14 16:48
不好意思之前看错了,没注意到右边的,抱歉

一页20条,一共有50页。这不是浪费了很多数据吗。

什么浪费数据?


作者: hg946902208    时间: 2017-3-14 17:08
HJLing 发表于 2017-3-14 16:49
什么浪费数据?

理论应该有1000条数据,但实际只扫描出340个,剩下的不就浪费了吗


作者: HJLing    时间: 2017-3-14 17:10
hg946902208 发表于 2017-3-14 17:08
理论应该有1000条数据,但实际只扫描出340个,剩下的不就浪费了吗

这是网站问题 有时候连续翻页就会失败看不到数据 这种情况下爬虫当然也就采不下去了
你可以把断开的那一页的网址重新添加进去继续采集


作者: hg946902208    时间: 2017-3-14 17:13
现在扫出了340个,意思是我再把第18页的网址添加进去就可以继续扫非重复的数据吗
作者: HJLing    时间: 2017-3-14 17:17
hg946902208 发表于 2017-3-14 17:13
现在扫出了340个,意思是我再把第18页的网址添加进去就可以继续扫非重复的数据吗 ...




作者: hg946902208    时间: 2017-3-14 17:59
HJLing 发表于 2017-3-14 17:17

您好,我把数据包导出然后开始扫描详细信息了

不过为什么扫描了20分钟,已采集的数据却只有一条,是必须信息齐全才会被录入?
能不能设置成有数据就录入的模式


作者: Fuller    时间: 2017-3-14 18:54
hg946902208 发表于 2017-3-14 17:59
您好,我把数据包导出然后开始扫描详细信息了

不过为什么扫描了20分钟,已采集的数据却只有一条,是必须 ...

扫描详细信息的话,需要把详细信息的网址导入进去,要导入的这个文件就是一行行网址,你先检查一下这些网址是否是完整的网址,开头是 http:// 的完整网址。如果不是完整网址,网页就会打不开。另外,爬虫运行的时候,观察一下爬虫的浏览器窗口,有没有显示验证码,如果出现验证码,就是扫描的数量太多了,被网站察觉出来了

作者: Fuller    时间: 2017-3-14 18:57
还可以看看具体哪个网址失败了,如下图,在会员中心的DIY数据板块,选中天眼查采集任务,点击查看所添加的网址,既有详细网址,也有采集状态



作者: hg946902208    时间: 2017-3-15 13:47
Fuller 发表于 2017-3-14 18:57
还可以看看具体哪个网址失败了,如下图,在会员中心的DIY数据板块,选中天眼查采集任务,点击查看所添加的 ...

恩,谢谢了,
我买了专业版怎么打包数据还是要分数,不是每月20w条数据吗


作者: HJLing    时间: 2017-3-15 14:10
hg946902208 发表于 2017-3-15 13:47
恩,谢谢了,
我买了专业版怎么打包数据还是要分数,不是每月20w条数据吗

每月20万数据是指自己做规则把xml转换成excel的量
使用 DIY还是按照数据量扣积分的 旗舰版才是免费导出DIY数据


作者: scraper    时间: 2017-3-15 15:26
hg946902208 发表于 2017-3-15 13:47
恩,谢谢了,
我买了专业版怎么打包数据还是要分数,不是每月20w条数据吗

现在购买专业版和旗舰版都是全额返还积分, 积分可以用来下数据






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2