集搜客GooSeeker网络爬虫

标题: 【知乎_独立话题动态内容采集】#GooSeeker数据DIY# [打印本页]

作者: scraper    时间: 2016-12-30 15:09
标题: 【知乎_独立话题动态内容采集】#GooSeeker数据DIY#
本帖最后由 scraper 于 2016-12-30 15:29 编辑


【启动采集前的配置】


【运行方法】— 详见数据DIY图文教程


【常见问题】— 欢迎跟帖留言

作者: 双鱼是篇小说    时间: 2018-3-27 21:09
怎么只能采集前40条啊
作者: shenzhenwan10    时间: 2018-3-27 21:48
双鱼是篇小说 发表于 2018-3-27 21:09
怎么只能采集前40条啊

你采集的网址是什么, 贴出来技术人员测试下


作者: 双鱼是篇小说    时间: 2018-3-27 22:31
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的
还有 采集精华话题的时候 知乎显示精华话题1000条 采集得到1000条 重复项300多条  只剩下600多条  说明数据采集是不完整的  你们刚回复说会加后台去重步骤 那加了之后 能收集完整的1000条数据吗
作者: umsung    时间: 2018-3-28 09:32
双鱼是篇小说 发表于 2018-3-27 22:31
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的

知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一样的,可以采集全

1.png (24.95 KB, 下载次数: 7356)

1.png

作者: 双鱼是篇小说    时间: 2018-3-28 12:06
umsung 发表于 2018-3-28 09:32
知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一 ...

我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/19739699/hot



作者: bowieD    时间: 2018-3-28 14:20
双鱼是篇小说 发表于 2018-3-28 12:06
我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/1973 ...

是否因为网络原因采集中断,我这边测试是没问题的

作者: 双鱼是篇小说    时间: 2018-3-28 14:30
bowieD 发表于 2018-3-28 14:20
是否因为网络原因采集中断,我这边测试是没问题的

没有提示网络中断  很顺利地采集完成  还是40多条


作者: anlday    时间: 2018-4-18 00:05
52个数据????
作者: maomao    时间: 2018-4-18 08:43
本帖最后由 maomao 于 2018-4-18 08:49 编辑
anlday 发表于 2018-4-18 00:05
52个数据????

打数机应该还在工作,你下载的只是一部分数据。此外,采集之前,要在gooseeker浏览器登陆知乎。

作者: 9556872    时间: 2018-6-15 08:12
测试https://www.zhihu.com/topic/19551915/hot
捕获结果一百多没有一条是文章,不能捕获文章?
作者: wrq6117    时间: 2018-12-25 14:19
好难用 用模板采集了好多次都失败
作者: Fuller    时间: 2018-12-25 15:09
wrq6117 发表于 2018-12-25 14:19
好难用 用模板采集了好多次都失败

你要采集的网址是什么?有没有用这个快捷采集试试?有两个快捷采集:
1,独立话题动态:https://www.gooseeker.com/res/da ... 9%E9%87%87%E9%9B%86
2,独立话题精华:https://www.gooseeker.com/res/da ... 9%E9%87%87%E9%9B%86

作者: leevian    时间: 2019-2-3 20:31
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/19551275/hot
作者: Fuller    时间: 2019-2-3 21:57
leevian 发表于 2019-2-3 20:31
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/1955 ...

应该是规则失效了,我已经安排技术人员进行检查,检查完成后会在这通知

作者: Fuller    时间: 2019-2-4 10:49
leevian 发表于 2019-2-3 20:31
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/1955 ...

您再测试一下试试,可以采集。请注意,1,DS打数机运行的时候,应该确保窗口最大,因为是动态加载内容的,窗口不够大可能激发不了加载内容

2,这个网页是瀑布流的,会一直滚屏,知道内存都消耗完了,程序就崩溃退出了。不过启动采集的时候会运行两个爬虫群窗口,一个采数据,一个导入数据,所以,崩溃的时候已经有些数据导入了,可能会漏一点,就是最后的那批还没有来得及导入

作者: leevian    时间: 2019-2-4 15:15
Fuller 发表于 2019-2-4 10:49
您再测试一下试试,可以采集。请注意,1,DS打数机运行的时候,应该确保窗口最大,因为是动态加载内容的 ...

进去之后看到下面显示还是匹配失败,求帮忙看看原因

作者: Fuller    时间: 2019-2-4 15:56
leevian 发表于 2019-2-4 15:15
进去之后看到下面显示还是匹配失败,求帮忙看看原因

今天我又爬了一次,是成功的。你在集搜客浏览器中登录了知乎没有?我是登录以后才爬的

作者: leevian    时间: 2019-2-4 17:03
Fuller 发表于 2019-2-4 15:56
今天我又爬了一次,是成功的。你在集搜客浏览器中登录了知乎没有?我是登录以后才爬的
...

确认是已登录状态,是否还需要进行什么别的操作。。





501d906f5cd09f380aaa5e3c0.png (94.32 KB, 下载次数: 5363)

501d906f5cd09f380aaa5e3c0.png

作者: Fuller    时间: 2019-2-5 08:01
leevian 发表于 2019-2-4 17:03
确认是已登录状态,是否还需要进行什么别的操作。。

有没有把窗口放大到最大?

作者: leevian    时间: 2019-2-5 11:17
Fuller 发表于 2019-2-5 08:01
有没有把窗口放大到最大?

放大最大了


2.jpg (267.87 KB, 下载次数: 4359)

2.jpg

作者: 知识产权    时间: 2019-2-5 17:46
leevian 发表于 2019-2-5 11:17
放大最大了

很不好意思给您造成困扰,我发现您用的是mac电脑,我用mac电脑测试了,这个快捷采集确实采集失败,我已经通知开发人员针对mac电脑进行调整了

作者: 知识产权    时间: 2019-2-7 09:27
规则已经修改好了,可以采集了
作者: wrq6117    时间: 2019-2-11 22:57
Fuller 发表于 2018-12-25 15:09
你要采集的网址是什么?有没有用这个快捷采集试试?有两个快捷采集:
1,独立话题动态:https://www.goos ...

是用的 模板 可是爬不到数据 是我设置有问题吗


作者: Fuller    时间: 2019-2-12 08:53
wrq6117 发表于 2019-2-11 22:57
是用的 模板 可是爬不到数据 是我设置有问题吗

你在集搜客浏览器中登录了知乎了吗?DS打数机窗口运行的时候,要处于放大状态,不要最小化。

你自己定义的规则?还是用这个快捷采集?

作者: wrq6117    时间: 2019-2-13 20:31
Fuller 发表于 2019-2-12 08:53
你在集搜客浏览器中登录了知乎了吗?DS打数机窗口运行的时候,要处于放大状态,不要最小化。

你自己定义 ...

快捷采集

作者: Fuller    时间: 2019-2-14 10:20
wrq6117 发表于 2019-2-13 20:31
快捷采集

刚才又把规则调整了一下,因为我发现有个网页类型采集不了。不知道是不是你遇到的网页类型。你可以再试试,如果还是失败,就把网址发出来我测试一下

作者: Fuller    时间: 2019-2-14 11:39
双鱼是篇小说 发表于 2018-3-28 12:06
我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/1973 ...

这个动态话题很特别,如果登录知乎以后看这个话题,可以看到是能编辑的,看来是一个公共可编辑的话题。

我把爬虫规则调整了一下,能够把这个类型的网页也能采集下来了。



作者: wrq6117    时间: 2019-2-15 22:06
Fuller 发表于 2019-2-14 10:20
刚才又把规则调整了一下,因为我发现有个网页类型采集不了。不知道是不是你遇到的网页类型。你可以再试试 ...

https://www.zhihu.com/topic/19550917/unanswered 知乎独立话题等待回答采集   
https://www.zhihu.com/topic/19550917//top-answers知乎独立话题精华回答采集   
都是莫名显示已停止的状态
只有知乎独立话题动态内容采集   是可以采集的



作者: wangyong    时间: 2019-2-16 18:11
wrq6117 发表于 2019-2-15 22:06
https://www.zhihu.com/topic/19550917/unanswered 知乎独立话题等待回答采集   
https://www.zhihu.com/ ...

之前出现已停止是因为知乎网页修改了,现在采集规则同步修改了

作者: 15829531503    时间: 2020-6-27 22:44
https://www.zhihu.com/topic/20086204/top-answers 请问大家都成功了吗?我这个一直爬不出来,给的样本网址也爬不出来。
作者: Fuller    时间: 2020-6-27 23:02
15829531503 发表于 2020-6-27 22:44
https://www.zhihu.com/topic/20086204/top-answers 请问大家都成功了吗?我这个一直爬不出来,给的样本网 ...

你这个网址不是这个快捷采集的,而是那个“精华”的,下面3个版块对应3个不同的快捷采集工具




作者: 15829531503    时间: 2020-6-28 20:48
Fuller 发表于 2020-6-27 23:02
你这个网址不是这个快捷采集的,而是那个“精华”的,下面3个版块对应3个不同的快捷采集工具

好的,我下图是用了“精华”的选项,复制了示例的网址,还是显示抓取失败,能否看看是我哪里有问题?太感谢了!


作者: Fuller    时间: 2020-6-28 22:42
15829531503 发表于 2020-6-28 20:48
好的,我下图是用了“精华”的选项,复制了示例的网址,还是显示抓取失败,能否看看是我哪里有问题?太感 ...

最新版的数据管家是1.6.2 ,今天发现采集知乎的网站有问题,只能采集第一屏的内容。明天会修复以后出一个新版本1.6.4,这个期间可以运行集搜客爬虫浏览器采集知乎网站。

作者: 15829531503    时间: 2020-6-28 22:48
Fuller 发表于 2020-6-28 22:42
最新版的数据管家是1.6.2 ,今天发现采集知乎的网站有问题,只能采集第一屏的内容。明天会修复以后出一个 ...

好的,明天试用下,谢谢!

作者: Fuller    时间: 2020-6-29 11:13
15829531503 发表于 2020-6-28 22:48
好的,明天试用下,谢谢!

刚刚发布了一个内测版,还没有放在网站上供下载,你可以在集搜客的qq群里面问管理员要

作者: QEmyHEART    时间: 2021-4-23 01:06
我尝试用知乎动态采集采集这个话题下的所有讨论内容 但是不知道为什么总是向下加载着加载着就突然不再加载了 然后显示已经采集结束 但肯定没有采集完 https://www.zhihu.com/topic/19561734/hot
另外 打包数据时发现显示的是本次可打包0条数据 也就是其实根本没有爬到
我已经看了该楼下的所有帖子 你们之前提到的 登录账号、最大化屏幕、选择全部页面 都已经排除了,不是这些问题
(顺便一提 我是win10)

作者: Fuller    时间: 2021-4-23 11:49
QEmyHEART 发表于 2021-4-23 01:06
我尝试用知乎动态采集采集这个话题下的所有讨论内容 但是不知道为什么总是向下加载着加载着就突然不再加载 ...

清缓存,然后下载安装最新版的数据管家,试试
作者: QEmyHEART    时间: 2021-4-23 14:23
Fuller 发表于 2021-4-23 11:49
清缓存,然后下载安装最新版的数据管家,试试

我尝试了清除缓存以及使用最新版的数据管家 但依然会显示采集结束并且只有0条数据可以打包
作者: scraper    时间: 2021-4-23 15:21
QEmyHEART 发表于 2021-4-23 14:23
我尝试了清除缓存以及使用最新版的数据管家 但依然会显示采集结束并且只有0条数据可以打包 ...

我们检查一下
作者: 内容分析应用    时间: 2021-4-23 16:00
QEmyHEART 发表于 2021-4-23 14:23
我尝试了清除缓存以及使用最新版的数据管家 但依然会显示采集结束并且只有0条数据可以打包 ...

这个工具已经维护好了, 你可以再次尝试打包, 或者添加新的快捷任务

作者: elsieanddonut    时间: 2021-11-3 19:21
您好,采集的数据数和话题下独立问题数不符,少了很多很多。已登录。
作者: gz51837844    时间: 2021-11-3 20:59
elsieanddonut 发表于 2021-11-3 19:21
您好,采集的数据数和话题下独立问题数不符,少了很多很多。已登录。

你使用的是哪个快捷采集工具, 添加的网址是什么?发出来技术人员测试下

作者: elsieanddonut    时间: 2021-11-3 21:16
知乎_独立话题精华内容采集
https://www.zhihu.com/topic/20049165/top-answers
https://www.zhihu.com/topic/20983925/top-answers
https://www.zhihu.com/topic/21664065/top-answers
https://www.zhihu.com/topic/21218328/top-answers
https://www.zhihu.com/topic/21667171/top-answers
作者: gz51837844    时间: 2021-11-4 10:01
elsieanddonut 发表于 2021-11-3 21:16
知乎_独立话题精华内容采集
https://www.zhihu.com/topic/20049165/top-answers
https://www.zhihu.com/top ...

你发的第一条网址, 我测试了一下, 一共获得了1098条数据。我粗看了一下,和页面上的内容是相符的。
因为知乎页面是瀑布流的, 不同的用户不同的网速条件,能看到的总条数是不同的,网速快电脑快有助于获得更多的数据。
另外通常来讲,更新到最新版数据管家爬虫软件效果会更好


作者: Nice2    时间: 2023-4-26 16:43
为什么下载数据的赞成数为空呀
作者: gz51837844    时间: 2023-4-27 09:26
Nice2 发表于 2023-4-26 16:43
为什么下载数据的赞成数为空呀

我们测试下

作者: Fuller    时间: 2023-4-27 10:42
Nice2 发表于 2023-4-26 16:43
为什么下载数据的赞成数为空呀

已经做了升级维护,可以正常采集“点赞数”,“评论数”,你可以再试试

作者: Nice2    时间: 2023-5-5 10:33
本帖最后由 Nice2 于 2023-5-5 10:35 编辑

“知乎_关键词搜索结果列表_话题”采集的数据中“话题关注数”为空




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2