GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
4
9883
用集搜客采集到数据后,怎么做Excel表的重复过滤、格式转换、数据规整等等处理?
努力成为A
于 2020-3-18 16:46
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
努力成为A
积分
89
精华
0
威望
28
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
用集搜客采集到数据后,怎么做Excel表的重复过滤、格式转换、数据规整等等处理?
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 4 个关于本帖的回复 最后回复于 2020-3-19 12:06
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
ym
版主
发表于 2020-3-18 16:52:16
|
只看该作者
本帖最后由 ym 于 2020-3-18 17:01 编辑
对Excel表做数据处理,通常要做多种处理,针对基本的数据处理操作,整理了一些方法,如下:
一、把文本格式转换为数值格式
Excel表左上角有三角标记的单元格,虽然看上去是数字,但实际上是文本格式,文本格式没法直接计算,要先转换为数值格式才能进行计算,文本格式转换数值格式的方法如下:
方法1:使用“数据”->“分列”功能
方法2:使用value()函数
(1)新建X列用于存放转换后的数值,在X2单元格里输入=value(T2),表示把T2单元格转换为数值格式。
(2)把鼠标放置在X2单元格右下角,当出现十字标志时双击即可完成整列公式填充.
(3)选中X列的结果区域拷贝,在T2单元格单击右键,选择“粘贴-数值”,就能T列转换为数值格式
注:value函数只能把仅包含数值的文本字符转换为数值,如果还包含其它字符,比如汉字、英文,就会出错,需要先过滤掉除数值外的字符再使用value函数。
方法3:把文本格式的单元格乘以1或加减0
(1)在X2单元格输入1,并且选中单元格复制
(2)在T列选中文本格式的区域,右键选中“选择性粘贴”
(3)弹窗中,选中“乘”,就会把选中的文本格式区域和数值1相乘,从而转换为数值格式
ps:加减0的方法,前两步操作与乘以1是类似的,只是最后一步在“选择性弹窗”里是要选中“加”或“减”。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
ym
版主
发表于 2020-3-18 18:36:31
|
只看该作者
二、用通配符模糊匹配查找替换来过滤字符
通配符主要有3种:*?~是特殊的计算机语言。在Excel操作过程中,如果字符结构类似局部内容不一样,或者不愿意去输入很多字符去查找时,可以借助关键字加通配符的模式去模糊查找目标值。
方法1:用星号*模糊匹配,再做替换为空字符
星号*可以匹配任意个字符,通过关键字搭配就能定位,操作如下:
(1)选中“商品名称”列里要过滤的数据区域,按 Ctrl+H 弹出查找和替换窗口
(2)这里要过滤商品名称里包含“英寸”在内以及其右侧的字符,那么在查找内容里输入“英寸*”,替换为空字符(不输入内容)
(3)点“全部替换”,就会把单元格里包含英寸两字以及在它右侧的字符自动过滤掉
方法2:用英文问号?匹配指定位数的字符
?作为通配符,是英文状态输入才生效,?在关键词前面或后面,与星号*的使用效果一致,而?在关键词中间时,有多少个?就表示匹配多少位字符。
最后,波浪符~通常是用在通配符前面,~让后面的通配符不生效,从而能查找出包含通配符本身的单元格。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
月球漫步
积分
420
精华
1
威望
158
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
地板
月球漫步
中级会员
发表于 2020-3-19 11:58:38
|
只看该作者
很详细的讲解,超实用,点赞
举报
使用道具
回复
支持
反对
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
5
#
ym
版主
发表于 2020-3-19 12:06:28
|
只看该作者
三、过滤重复数据
部分网页采集可能会有重复数据,为了分析结果的准确性,通常要筛选重复数据、进行删除重复等处理。
方法1:利用 “删除重复值”功能
方法2:使用“高级筛选”功能
除了上面的过滤重复方法外,还可以利用countif()函数和if()函数来判断重复,感兴趣的可以深入了解下。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10609
访问主页>>
wangyong
帖子:1737
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-7 11:59
快速回复
快速发帖
返回顶部
返回列表
共 4 个关于本帖的回复 最后回复于 2020-3-19 12:06