Fuller 发表于 2016-5-8 12:02
要建立多层嵌套整理箱:http://www.gooseeker.com/doc/article-151-1.html
难点在于选择一个合适的样例, ...
LQX930107 发表于 2016-5-8 20:56
如果样例不符合您说的要求,做出来的规则就难以适用于多个网页?咱们的爬虫就实现不了大量网页的抓取了是 ...
Fuller 发表于 2016-5-8 22:50
比如微博,假设抓取实时消息流,不断有人发新的消息,好容易找到一个含有转发的微博位于消息流的第一个位 ...
Fuller 发表于 2016-5-8 12:02
要建立多层嵌套整理箱:http://www.gooseeker.com/doc/article-151-1.html
难点在于选择一个合适的样例, ...
bennana 发表于 2016-12-25 16:14
像微博改版后这种共n条评论,需要点开后才能显示出来所有回复的网页,该如何抓取数据?
...
Fuller 发表于 2016-12-25 20:32
可以做连续动作,逐个点开
bennana 发表于 2017-1-2 21:01
多谢!按照高级教程淘宝和京东的做法尝试了一下,还是点不开,只能抓取显示出来的前两条。Xpath(//*[@cl ...
Fuller 发表于 2017-1-3 09:06
你做的规则的主题名是什么?我可以从后台帮你看看问题在哪
bennana 发表于 2017-1-3 12:09
微博评论连续动作0103-1
微博评论连续动作0103-2
Fuller 发表于 2017-1-3 16:04
第二级规则映射的不对,没有给回复内容做映射,应该做一个嵌套的整理箱,外层抓取普通的回复,内层也做样 ...
bennana 发表于 2017-1-3 17:52
第一级规则是想做连续动作,点击“更多回复”。
第二级规则在修改后保存弹出“Error: unsupported node t ...
Fuller 发表于 2017-1-3 18:07
有可能会遇到网页上没有“更多回复”的情形,这样的话,点击就会失效,那么就没有机会执行第二级。所以, ...
bennana 发表于 2017-1-4 11:23
还是没有完成点击 第一级规则想点击微博评论中的”共*条回复“来查看一条评论下的所有回复。
...
Fuller 发表于 2017-1-4 22:56
点击动作有高级设置,有一项“模拟点击”,勾上和不勾上都试试
bennana 发表于 2017-1-12 15:42
评论回复的连续动作问题已解决,但是在规则1中尝试通过爬虫路线显示页面下方的更多评论不执行,如果连续 ...
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) | Powered by Discuz! X3.2 |