新浪微博_博主主页采集

fishhaichun · 发表于 2017-6-7 12:07:59

shenzhenwan10 发表于 2017-6-7 10:33
测试了一下, 抓取正常
你抓取有问题的网址是什么?

试了两个博主主页抓取，单搜可以浏览加载到第一页底部，然后感觉就是不能自动翻页，直到超时退出。然后第一页也没能保存下来。
昨天我是手动在浏览器点击翻页才翻到第二页的。
麻烦再帮我分析一下。

抓取测试网址：
http://www.weibo.com/zhengfu?is_ ... date=201706#feedtop
http://www.weibo.com/rmrb?is_all ... &page=8#feedtop

以下为metalog：
2017-06-07 13:01:01 DataScraperEngine CrawlForTheme WARN: Transfer state from 18 to STATE_CRAWL_COUNTED.
2017-06-07 13:02:09 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 13:02:09 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:09 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:10 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 13:02:10 FetchSpiderClue flushLastModified WARN: lastmodified is expected
2017-06-07 12:36:04 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 12:36:04 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:04 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:05 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 12:36:06 FetchSpiderClue flushLastModified WARN: lastmodified is expected

shenzhenwan10 · 发表于 2017-6-7 14:32:44

我测试了你贴出的2个网址, 抓取是正常的
可能我们电脑的爬虫设置有差异, 我把我的本地设置列一下, 你和你的对比一下:
1. 规则下载自新浪微博_博主主页采集
2. 测试使用GS浏览器
3. 在GS浏览器上登录了微博
4. 测试使用的"集搜", 并且集搜窗口开到最大
5. 关闭了GS浏览器自动播放视频功能, 关闭方法见http://www.gooseeker.com/doc/thread-7460-1-1.html
6. DS打数机的几个参数: 延迟抓取30, 超时时长300, 滚屏次数10, 滚屏速度2, 允许加载图片, 允许加载JS, 允许加载插件

fishhaichun · 发表于 2017-6-7 16:02:05

谢谢耐心回复。按照你给的说明，
我试了一次，依然报错。
同样的配置下，同样的操作方法，新浪微博_关键词搜索采集46221 这个规则就可以正常浏览，自动翻页，并且保存到指定文件夹
然而，新浪微博_博主主页46221 这个第一页可以加载到浏览器里，不能够自动翻页，并且第一页的内容也没保存。
还有什么有可能影响到规则的运行吗

2017-06-07 16:49:18 main waitForEngineReady WARN: Wait again, in state:4; timeout:0
2017-06-07 16:54:56 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-07 16:54:56 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:54:56 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:55:00 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-07 16:55:14 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external

wangyong · 发表于 2017-6-7 16:19:17

打数机参数是这样设置的吗？
6. DS打数机的几个参数: 延迟抓取30, 超时时长300, 滚屏次数10, 滚屏速度2, 允许加载图片, 允许加载JS, 允许加载插件

shenzhenwan10 · 发表于 2017-6-7 17:23:35

这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页的规则更新过而你的规则还是旧版的
你可以重新下载一下, 不用花积分

fishhaichun · 发表于 2017-6-7 20:22:47

shenzhenwan10 发表于 2017-6-7 17:23
这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页 ...

是很久前下载的了，至少6个月了。那我再下载一遍试试。谢谢

fishhaichun · 发表于 2017-6-7 22:57:56

shenzhenwan10 发表于 2017-6-7 17:23
这个新浪微博_博主主页, 你是什么时候下载的?
如果你下载的时间已经比较久了, 比如4个月以上, 有可能资源页 ...

感谢各位的耐心帮助，问题解决了。确实是因为下载的时间过久。我刚才重新下载一遍，就可以正常翻页保存了。
不得不说你们的客服真棒，我一定跟学生们多推荐你们的资源。非常感谢

Fuller · 发表于 2017-6-8 09:01:06

fishhaichun 发表于 2017-6-7 22:57
感谢各位的耐心帮助，问题解决了。确实是因为下载的时间过久。我刚才重新下载一遍，就可以正常翻页保存了 ...

多谢支持！用户的需求和鞭策是也是我们前进的动力因素

lznboy88 · 发表于 2019-7-2 15:14:30

想问一下这个方法可以把博主的博文所有内容都截下来吗，还是说只是截取博文的一小部分，有么有规则是截取博主的所有博文详情，谢谢

wangyong · 发表于 2019-7-2 17:15:46

lznboy88 发表于 2019-7-2 15:14
想问一下这个方法可以把博主的博文所有内容都截下来吗，还是说只是截取博文的一小部分，有么有规则是截取博 ...

新浪不允许一次性查看万博主的所有微博，需要通过细分不同年月的链接来完成所有的爬取
例如这个链接，可以猜到雷军2019年6月份发布的所有微博
https://weibo.com/leijun?is_all=1&stat_date=201906#feedtop

新浪微博_博主主页采集

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页