671#
15600331919sh 新手上路 发表于 2018-4-26 10:32:52 | 只看该作者
maomao 发表于 2018-4-26 10:25
后台检查了一下,你的数据没有上传, 可能是本地采集完成后,没有打包上传就关闭了爬虫窗口。你重新采吧 ...

好的,我试一下,谢谢啦

举报 使用道具
672#
15600331919sh 新手上路 发表于 2018-4-26 10:36:27 | 只看该作者
maomao 发表于 2018-4-26 10:25
后台检查了一下,你的数据没有上传, 可能是本地采集完成后,没有打包上传就关闭了爬虫窗口。你重新采吧 ...

好的,谢谢

举报 使用道具
673#
Ellen_gaga 新手上路 发表于 2018-4-28 23:32:51 | 只看该作者
怎么设置导出格式呀?MAC版求教
举报 使用道具
674#
maomao 论坛元老 发表于 2018-4-28 23:56:38 | 只看该作者
Ellen_gaga 发表于 2018-4-28 23:32
怎么设置导出格式呀?MAC版求教

微博工具箱,导出是EXCEL格式的,不用设置。MAC版也是这样的。你用的哪个微博工具?采集完了,打包,下载导出EXCEL.
举报 使用道具
675#
naspecial 新手上路 发表于 2018-5-2 17:05:08 | 只看该作者
Fuller 发表于 2018-4-24 08:46
微博本身会限制翻页,所以就算是手工翻页也是翻不全的,所以能翻多少页就能采集多少页,全部能翻完的话就 ...

那如果需要采到后面页的怎么办呢?谢谢
举报 使用道具
676#
maomaotest4 新手上路 发表于 2018-5-2 17:46:39 | 只看该作者
naspecial 发表于 2018-5-2 17:05
那如果需要采到后面页的怎么办呢?谢谢

评论这个好像是没有办法呢。关键词或者微博主页,还可以通过细分时间来爬取更多。评论好像不能设置时间段。
举报 使用道具
677#
MerlinBeard 新手上路 发表于 2018-5-7 05:30:45 | 只看该作者
为什么打数器显示“微博话题采集”打包完成,线索数20,剩余0,但是任务那里还是显示“采集中”?还有在打数器状态面板那里,显示采集网页只有1,但是微博话题下的讨论很多页,肯定不止一页,这是为什么?会有遗漏的数据吗?

举报 使用道具
678#
Fuller 管理员 发表于 2018-5-7 09:14:58 | 只看该作者
MerlinBeard 发表于 2018-5-7 05:30
为什么打数器显示“微博话题采集”打包完成,线索数20,剩余0,但是任务那里还是显示“采集中”?还有在打 ...

DS打数机面板上的线索数是网址的数量,如果一个网页要翻页很多次,网址数还是算作1。另外,如果你一次添加了很多网址,DS打数机是分批运行的,一批可能是数量很少的网址,比如,只有一个网址。
“采集中”状态有可能是两种原因:
1,实际上采集完成了,但是采集完成上报没有准确发到,这时候可以刷新一下微博话题采集工具箱的网页,看看状态是否会变
2,某个话题翻页过程中中断了,没有采集全
翻页采集没有采集全的可能性是有的,因为微博网站很不稳定,即使手工翻看,也会突然说翻页到底了,没有内容了。遇到这种情况,爬虫也会中断了
举报 使用道具
679#
MerlinBeard 新手上路 发表于 2018-5-8 04:46:04 | 只看该作者
有没有专门获取用户之间关系的方法?比如包含用户@谁,以及被谁@这些数据?
举报 使用道具
680#
yangwenge 金牌会员 发表于 2018-5-8 10:23:27 | 只看该作者
本帖最后由 yangwenge 于 2018-5-8 10:37 编辑
MerlinBeard 发表于 2018-5-8 04:46
有没有专门获取用户之间关系的方法?比如包含用户@谁,以及被谁@这些数据? ...

可以参考下这篇帖子《微博转发关系》
用户之间的@关系不会像转发关系这样可以通过文章来找到一定的联系,@要先找到一个可以联系上的东西才行,会复杂很多。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-10 18:30