11#
fishhaichun 高级会员 发表于 2017-6-7 12:07:59 | 只看该作者
shenzhenwan10 发表于 2017-6-7 10:33
测试了一下, 抓取正常
你抓取有问题的网址是什么?

试了两个博主主页抓取,单搜可以浏览加载到第一页底部,然后感觉就是不能自动翻页,直到超时退出。然后第一页也没能保存下来。
昨天我是手动在浏览器点击翻页才翻到第二页的。
麻烦再帮我分析一下。

抓取测试网址:
http://www.weibo.com/zhengfu?is_ ... date=201706#feedtop
http://www.weibo.com/rmrb?is_all ... &page=8#feedtop

以下为metalog:
2017-06-07 13:01:01 DataScraperEngine CrawlForTheme WARN: Transfer state from 18 to STATE_CRAWL_COUNTED.
2017-06-07 13:02:09 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 13:02:09 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:10 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:10 FetchSpiderClue flushLastModified WARN: lastmodified is expected
2017-06-07 12:36:04 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 12:36:04 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:05 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:06 FetchSpiderClue flushLastModified WARN: lastmodified is expected


举报 使用道具
12#
shenzhenwan10 金牌会员 发表于 2017-6-7 14:32:44 | 只看该作者
我测试了你贴出的2个网址, 抓取是正常的
可能我们电脑的爬虫设置有差异, 我把我的本地设置列一下, 你和你的对比一下:
1. 规则下载自新浪微博_博主主页采集
2. 测试使用GS浏览器
3. 在GS浏览器上登录了微博
4. 测试使用的"集搜", 并且集搜窗口开到最大
5. 关闭了GS浏览器自动播放视频功能, 关闭方法见http://www.gooseeker.com/doc/thread-7460-1-1.html
6. DS打数机的几个参数: 延迟抓取30, 超时时长300, 滚屏次数10, 滚屏速度2,  允许加载图片, 允许加载JS, 允许加载插件
举报 使用道具
13#
fishhaichun 高级会员 发表于 2017-6-7 16:02:05 | 只看该作者
谢谢耐心回复。按照你给的说明,
我试了一次,依然报错。
同样的配置下,同样的操作方法,新浪微博_关键词搜索采集46221 这个规则就可以正常浏览,自动翻页,并且保存到指定文件夹
然而,新浪微博_博主主页46221  这个第一页可以加载到浏览器里,不能够自动翻页,并且第一页的内容也没保存。
还有什么有可能影响到规则的运行吗

2017-06-07 16:49:18 main waitForEngineReady WARN: Wait again, in state:4; timeout:0
2017-06-07 16:54:56 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 16:54:56 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:55:00 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:55:14 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external
举报 使用道具
14#
wangyong 版主 发表于 2017-6-7 16:19:17 | 只看该作者
打数机参数是这样设置的吗?
6. DS打数机的几个参数: 延迟抓取30, 超时时长300, 滚屏次数10, 滚屏速度2,  允许加载图片, 允许加载JS, 允许加载插件
举报 使用道具
15#
shenzhenwan10 金牌会员 发表于 2017-6-7 17:23:35 | 只看该作者
这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页的规则更新过而你的规则还是旧版的
你可以重新下载一下, 不用花积分
举报 使用道具
16#
fishhaichun 高级会员 发表于 2017-6-7 20:22:47 | 只看该作者
shenzhenwan10 发表于 2017-6-7 17:23
这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页 ...

是很久前下载的了,至少6个月了。那我再下载一遍试试。谢谢

举报 使用道具
17#
fishhaichun 高级会员 发表于 2017-6-7 22:57:56 | 只看该作者
shenzhenwan10 发表于 2017-6-7 17:23
这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页 ...

感谢各位的耐心帮助,问题解决了。确实是因为下载的时间过久。我刚才重新下载一遍,就可以正常翻页保存了。
不得不说你们的客服真棒,我一定跟学生们多推荐你们的资源。非常感谢

举报 使用道具
18#
Fuller 管理员 发表于 2017-6-8 09:01:06 | 只看该作者
fishhaichun 发表于 2017-6-7 22:57
感谢各位的耐心帮助,问题解决了。确实是因为下载的时间过久。我刚才重新下载一遍,就可以正常翻页保存了 ...

多谢支持!用户的需求和鞭策是也是我们前进的动力因素
举报 使用道具
19#
lznboy88 新手上路 发表于 2019-7-2 15:14:30 | 只看该作者
想问一下这个方法可以把博主的博文所有内容都截下来吗,还是说只是截取博文的一小部分,有么有规则是截取博主的所有博文详情,谢谢
举报 使用道具
20#
wangyong 版主 发表于 2019-7-2 17:15:46 | 只看该作者
lznboy88 发表于 2019-7-2 15:14
想问一下这个方法可以把博主的博文所有内容都截下来吗,还是说只是截取博文的一小部分,有么有规则是截取博 ...

新浪不允许一次性查看万博主的所有微博,需要通过细分不同年月的链接来完成所有的爬取
例如这个链接,可以猜到雷军2019年6月份发布的所有微博
https://weibo.com/leijun?is_all=1&stat_date=201906#feedtop
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 10:23