731#
Fuller 管理员 发表于 2018-9-17 09:06:13 | 只看该作者
candyluo5 发表于 2018-9-17 00:49
你好我需要设置只采取originl的页面,去掉官方号,这没办法筛选应该怎么办

你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工具,是要输入一个个博客网址的,输入的时候手工剔除掉官微就行。

如果是搜索工具,应该在导出采集结果后,进行剔除。
举报 使用道具
732#
candyluo5 中级会员 发表于 2018-9-17 14:08:30 | 只看该作者
Fuller 发表于 2018-9-17 09:06
你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工 ...

用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
举报 使用道具
733#
Fuller 管理员 发表于 2018-9-17 18:36:11 | 只看该作者
candyluo5 发表于 2018-9-17 14:08
用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
...

爬虫自己判断不了,但是可以通过爬这个博主的信息,能筛选出来哪个博主是哪类账号。

关键词搜索结果中有发博的博主链接,用这个链接导入到这个微博采集快捷工具: https://www.gooseeker.com/res/da ... D%E4%BF%A1%E6%81%AF ,采集以后会得到一个列表,里面标明了是哪类账号。用这个信息再与搜索结果表进行匹配和筛选。
这两个字段都可以用来识别是不是官微




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
734#
baixiaopang 中级会员 发表于 2018-10-16 10:09:22 | 只看该作者
你好!我添加了要下载的微博主页地址,点击启动之后没有任何反应,两个界面都显示等待分配采集任务
举报 使用道具
735#
Fuller 管理员 发表于 2018-10-16 11:04:46 | 只看该作者
baixiaopang 发表于 2018-10-16 10:09
你好!我添加了要下载的微博主页地址,点击启动之后没有任何反应,两个界面都显示等待分配采集任务 ...

添加任务的时候,你登录的是会员中心,在浏览器的网页上添加任务。而执行任务的是DS打数机,他也要登录。你检查一下这两个登录的账号是否一致
举报 使用道具
736#
zz19941117 新手上路 发表于 2018-10-16 12:14:21 | 只看该作者
为什么已经显示采集完成的数据无法打包?显示没有可打包的数据?
举报 使用道具
737#
tuesday1 初级会员 发表于 2018-10-16 12:19:10 | 只看该作者
zz19941117 发表于 2018-10-16 12:14
为什么已经显示采集完成的数据无法打包?显示没有可打包的数据?

是哪个工具?在集搜客浏览器登录微博了?
举报 使用道具
738#
baixiaopang 中级会员 发表于 2018-10-17 21:39:27 | 只看该作者
Fuller 发表于 2018-10-16 11:04
添加任务的时候,你登录的是会员中心,在浏览器的网页上添加任务。而执行任务的是DS打数机,他也要登录。 ...

确认是一个账号,但是还是无法下载.一直是等待分配任务
举报 使用道具
739#
tuesday1 初级会员 发表于 2018-10-17 23:52:56 | 只看该作者
baixiaopang 发表于 2018-10-17 21:39
确认是一个账号,但是还是无法下载.一直是等待分配任务

你是不是爬虫版本太老了,下载个最新版的试试
举报 使用道具
740#
baixiaopang 中级会员 发表于 2018-10-23 18:10:21 | 只看该作者
tuesday1 发表于 2018-10-17 23:52
你是不是爬虫版本太老了,下载个最新版的试试

我下载新版本试一下。谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-31 09:33