在采集数据过程中发现了以下问题:
1.在微博数据中心有某一天的微博数据,可用集微客中的关键词搜索工具时却采集不到信息。
2.单独采集某一天的数据和采集包括这一天在内的时间段的数据,得到的同一天内的关于同一关键词的采集结果不一致。

求答疑呀!



举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2016-12-14 09:52

沙发
Fuller 管理员 发表于 2016-12-10 21:42:53 | 只看该作者
哪个关键词?什么时间段?我试试

因为微博排序的问题,不同的时间段的到的内容不一样,其实时间段A包含时间段B,那么也会发现在重叠的时间段内结果不一样。采集的时候,把时间段设置细一些
举报 使用道具
板凳
skyler 初级会员 发表于 2016-12-10 23:12:03 | 只看该作者
Fuller 发表于 2016-12-10 21:42
哪个关键词?什么时间段?我试试

因为微博排序的问题,不同的时间段的到的内容不一样,其实时间段A包含时 ...

关键词“魏则西”,抓不到2016.4.27这天的数据。
另外,我在抓数据时,出现了这样的问题:比如设置了5月1号0:00-23:00为抓取时间段,但只抓到18:00-23:00的数据,有时我只设置了两个小时的抓取时间段,结果出来的却是今天(12月10号)的微博数据并且里面并不包含我输入的关键词,难道是我抓的数据过多?我看了看,一共就抓了四千条左右啊。

举报 使用道具
地板
Fuller 管理员 发表于 2016-12-10 23:30:36 | 只看该作者
skyler 发表于 2016-12-10 23:12
关键词“魏则西”,抓不到2016.4.27这天的数据。
另外,我在抓数据时,出现了这样的问题:比如设置了5月1 ...

1,如果出现今天的微博,而且跟关键词无关,那是微博根本没有按照要求去搜索,很可能是你的搜索请求被拒绝了

2,如果一天的微博量特别多,那么就会只抓到时间最晚的那些,因为新浪微博的搜索结果只允许看40几页,否则就会出验证码,为了防止出现验证码,我们把翻页次数控制在40以内。那么,如果微博特别多,就要分成很细的时间断,比如,1小时,确保不要超过40页。如果超出了,超出的那些就抓不到了

3,一个微博账号,要控制抓取总量,通常,一个账号在一天之内不要超过2000个网页,否则,容易被微博封号,需要用手机验证才能解封。如果你想一天抓取很多,要有多个微博账号,要换账号。注意应该这样的顺序
1)老账号登出
2)清除cookie,参看《火狐插件版网络爬虫清除cookie》和《GS爬虫浏览器清除cookie
3)关闭爬虫程序,连火狐也关了(如果是火狐插件版),重新运行
4)用新账号登录

如果在第3)步的时候,能重新换一下IP地址就更好了。
举报 使用道具
5#
skyler 初级会员 发表于 2016-12-11 22:56:10 | 只看该作者
Fuller 发表于 2016-12-10 23:30
1,如果出现今天的微博,而且跟关键词无关,那是微博根本没有按照要求去搜索,很可能是你的搜索请求被拒 ...

很有效啊,准备抓取评论转发的数据了!
有两个小问题:
1.关键词内容抓取的数据里面的“fullpath”表示什么?
2.如果我要抓取转发评论数据,是不是只需要博文独立网址就可以了?如果批量输入博文网址的话,是不是也要保证评论转发微博总量最好不超过30页?
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-11 23:29:03 | 只看该作者
skyler 发表于 2016-12-11 22:56
很有效啊,准备抓取评论转发的数据了!
有两个小问题:
1.关键词内容抓取的数据里面的“fullpath”表示什 ...

fullpath 就是你输入的原始网址,抓取的时候可能会发生跳转,realpath是跳转后的网址

评论和转发没有数量限制,但是微博速度很慢,查看评论或转发的时候经常失败,如果数量很大,抓全的可能性很小
举报 使用道具
7#
skyler 初级会员 发表于 2016-12-13 16:49:08 | 只看该作者
Fuller 发表于 2016-12-11 23:29
fullpath 就是你输入的原始网址,抓取的时候可能会发生跳转,realpath是跳转后的网址

评论和转发没有数 ...

我在抓取评论数据时输入了微博独立网址,但点击确定时却提示“请输入至少一条微博网址”,这是怎么回事儿啊?
举报 使用道具
8#
HJLing 版主 发表于 2016-12-13 17:01:57 | 只看该作者
skyler 发表于 2016-12-13 16:49
我在抓取评论数据时输入了微博独立网址,但点击确定时却提示“请输入至少一条微博网址”,这是怎么回事儿 ...

截个图看看

举报 使用道具
9#
skyler 初级会员 发表于 2016-12-13 17:16:43 | 只看该作者


  
举报 使用道具
10#
HJLing 版主 发表于 2016-12-13 17:54:11 | 只看该作者

看不到图片 或者你直接加群问吧 481335253

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 22:40