评论 Fuller 2018-9-20 20:29
gooseeker0809: 加了,没有回复我,你能不能帮我一下?
你加我吧:1216257115
评论 gooseeker0809 2018-9-20 19:24
Fuller: 可以帮你定制规则,加入到集搜客的qq群,找“集搜客官方定制服务”这个管理员。qq群是801640866
加了,没有回复我,你能不能帮我一下?
评论 Fuller 2018-9-18 19:43
gooseeker0809: 我需要的就是你教程中这种,收集特定主题词下所有相关文章标题,见刊时间以及文章的关键词,别的信息不用。DIY中没有看到合我需求的。 ...
可以帮你定制规则,加入到集搜客的qq群,找“集搜客官方定制服务”这个管理员。qq群是801640866
评论 gooseeker0809 2018-9-18 15:39
Fuller: 这个没有视频,你可以把具体问题发在社区中,我们帮你分析。另外,这里有一套现成的采集规则,你找找有没有符合你的要求的:<a href="https://www.gooseeker.com/res/data" target="_blank">https://www.gooseeker.com/res/data</a> ...
我需要的就是你教程中这种,收集特定主题词下所有相关文章标题,见刊时间以及文章的关键词,别的信息不用。DIY中没有看到合我需求的。
评论 Fuller 2018-9-18 10:57
gooseeker0809: 你如果能做个视频就好了。
这个没有视频,你可以把具体问题发在社区中,我们帮你分析。另外,这里有一套现成的采集规则,你找找有没有符合你的要求的:https://www.gooseeker.com/res/datadiy.html?category=%E7%A7%91%E7%A0%94%E5%AD%A6%E6%9C%AF&web=%E7%9F%A5%E7%BD%91
评论 gooseeker0809 2018-9-17 20:46
你如果能做个视频就好了。
评论 Fuller 2018-9-17 20:18
gooseeker0809: 有些页面怎么不一样?
哪些页面不一样?贴出来看看,最好在 社区 板块发个帖子,那里可以贴各种类型的内容,比如截图。这里跟帖是受限的
评论 gooseeker0809 2018-9-17 19:53
有些页面怎么不一样?
评论 Ccc_雨 2018-3-20 23:32
现在知网采集有更简单方便的方法了,用Gooseeker数据DIY,只需输入关键词,就可以采集了。http://www.jisouke.com/res/datadiy.html?category=%E7%A7%91%E7%A0%94%E5%AD%A6%E6%9C%AF&web=%E7%9F%A5%E7%BD%91&rule=%E7%9F%A5%E7%BD%91%E6%96%87%E7%8C%AE%E6%90%9C%E7%B4%A22016
评论 442759129 2017-4-9 19:00
Fuller: 规则二抓到的网址应该是用来点击“更多”的,你是说这个网址吗?
真的是最后一个问题了哈哈哈,就是我最后第一个规则和第二个规则做出来的网址不是由“大数据”检索出来的,而仅仅是知网首页的文章。也即是“大数据”输入这个操作出了问题,但我就是按照教程一步步来的,好奇怪。。。
评论 442759129 2017-4-9 11:19
Fuller: 规则二抓到的网址应该是用来点击“更多”的,你是说这个网址吗?
我发个贴子吧,这样的问题让更多人能看到~
评论 Fuller 2017-4-9 10:53
442759129: 好的,太谢谢你啦~还有一个小问题(我的问题好多hhhh,抱拳),这个规则二收集出来的网址修改后,是无法通过复制粘贴到浏览器直接打开的是吗? ...
规则二抓到的网址应该是用来点击“更多”的,你是说这个网址吗?
评论 442759129 2017-4-9 09:52
ym: 用这个网址去测试数据DIY上的“知网文献详情”,采集成功,没有失败。你采集失败,可能是网速原因,也可能是采集过程出现了验证码导致了采集失败,知网也是有反 ...
好的,太谢谢你啦~还有一个小问题(我的问题好多hhhh,抱拳),这个规则二收集出来的网址修改后,是无法通过复制粘贴到浏览器直接打开的是吗?
评论 ym 2017-4-8 22:10
442759129: <a href="http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=3&CurRec=1&filename=ZGDC201501002&dbname=CJFDLAST2015&dbcode=CJFQ&pr=&urlid=&yx=&uid=WEEvREcwSlJHS" target="_blank">http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=3&CurRec=1&filename=ZGDC201501002&dbname=CJFDLAST2015&dbcode=CJFQ&pr=&urlid=&yx=&uid=WEEvREcwSlJHS</a> ...
用这个网址去测试数据DIY上的“知网文献详情”,采集成功,没有失败。你采集失败,可能是网速原因,也可能是采集过程出现了验证码导致了采集失败,知网也是有反爬的,采集多了就容易出验证码,如果遇到需要手工输入一下。
评论 442759129 2017-4-8 21:53
Fuller: 添加的网址发出来一个,我测试一下看看
http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=3&CurRec=1&filename=ZGDC201501002&dbname=CJFDLAST2015&dbcode=CJFQ&pr=&urlid=&yx=&uid=WEEvREcwSlJHSldRa1Fhb09jMjQxdjRYMVR6RW5KdVZGc3podzdqdDR5OD0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!&v=MTgzNjhIOVRNcm85RlpvUjhlWDFMdXhZUzdEaDFUM3FUcldNMUZyQ1VSTDJmWStabkZDamhVTHJNUHlyUGJiRzQ=
评论 Fuller 2017-4-5 17:25
442759129: 刚才我使用了diy的”知网文献详情“,但是总是抓取失败,为啥呢
添加的网址发出来一个,我测试一下看看
评论 442759129 2017-4-5 17:22
442759129: 我使用diy数据下载下来的数据仅限于这篇帖子所说的第一、二个规则,我想进入到第三四个规则中,也就是进入到单独文章的界面然后得到它关于摘要和参考文献的信息 ...
刚才我使用了diy的”知网文献详情“,但是总是抓取失败,为啥呢
评论 Fuller 2017-4-5 17:12
442759129: 我使用diy数据下载下来的数据仅限于这篇帖子所说的第一、二个规则,我想进入到第三四个规则中,也就是进入到单独文章的界面然后得到它关于摘要和参考文献的信息 ...
把问题发到论坛上讨论吧,那里还可以贴图,更方便。第二级运行完成后,得到抓取结果,把里面的网址拷贝出来,放在excel中,导入到知网详情那个数据DIY工具中,就是第三级的规则,知网详情的爬虫是:http://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E6%95%B0%E6%8D%AE&web=%E7%9F%A5%E7%BD%91&rule=%E7%9F%A5%E7%BD%91%E6%96%87%E7%8C%AE%E8%AF%A6%E6%83%85
评论 442759129 2017-4-5 16:43
Fuller: 有些时候不能用层级抓取,但是使用网址的时候就会失效,具体怎么运行要看这个文档。目前这些规则都放在数据DIY板块了,不用下载规则,直接运行爬虫就行,网址:h ...
我使用diy数据下载下来的数据仅限于这篇帖子所说的第一、二个规则,我想进入到第三四个规则中,也就是进入到单独文章的界面然后得到它关于摘要和参考文献的信息,怎么弄呢?
评论 Fuller 2017-4-4 17:21
442759129: 这四个规则都是独立存在的吗?分别建立四个规则并保存?也即是有四个主题,不存在多层抓取?
有些时候不能用层级抓取,但是使用网址的时候就会失效,具体怎么运行要看这个文档。目前这些规则都放在数据DIY板块了,不用下载规则,直接运行爬虫就行,网址:http://www.gooseeker.com/res/datadiy.html?category=&web=%E7%9F%A5%E7%BD%91 。他们之间的关系参看攻略:http://www.gooseeker.com/doc/thread-5603-1-1.html
评论 442759129 2017-4-4 16:13
这四个规则都是独立存在的吗?分别建立四个规则并保存?也即是有四个主题,不存在多层抓取?
评论 halosir 2017-1-4 09:37
有的摘要没有‘’更多‘’怎么办?要分别处理吗?
评论 Fuller 2016-10-16 12:24
1432507260: 请问第一个规则和第二个规则是分别单独运行吗?我第二个规则为什么运行不了?
第一层到第二层用的是连续动作,那么第二层就不能单独运行,一定要从第一层开始。连续动作和普通的层级抓取不一样,一定要从头开始执行。而第二层到第三层则是普通层级抓取,所以,第三层可以单独运行
评论 1432507260 2016-10-16 10:59
请问第一个规则和第二个规则是分别单独运行吗?我第二个规则为什么运行不了?
评论 Fuller 2016-9-11 11:34
lusiluo: 您好,我的按着教程制作的规则可以成功抓取到部分页面的信息,但也有相当一部分的页面抓取错误,显示规则不适用,请问这该怎么办呐? ...
你自己做的规则吗?如果是自己做的,你在论坛上把规则的主题名贴出来,让技术人员帮忙检查一下规则的适应性
12下一页

GMT+8, 2024-3-28 20:31