用集搜客采集到数据后,怎么做Excel表的重复过滤、格式转换、数据规整等等处理?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-3-19 12:06

沙发
ym 版主 发表于 2020-3-18 16:52:16 | 只看该作者
本帖最后由 ym 于 2020-3-18 17:01 编辑

对Excel表做数据处理,通常要做多种处理,针对基本的数据处理操作,整理了一些方法,如下:

一、把文本格式转换为数值格式
Excel表左上角有三角标记的单元格,虽然看上去是数字,但实际上是文本格式,文本格式没法直接计算,要先转换为数值格式才能进行计算,文本格式转换数值格式的方法如下:


方法1:使用“数据”->“分列”功能


方法2:使用value()函数
(1)新建X列用于存放转换后的数值,在X2单元格里输入=value(T2),表示把T2单元格转换为数值格式。

(2)把鼠标放置在X2单元格右下角,当出现十字标志时双击即可完成整列公式填充.

(3)选中X列的结果区域拷贝,在T2单元格单击右键,选择“粘贴-数值”,就能T列转换为数值格式


注:value函数只能把仅包含数值的文本字符转换为数值,如果还包含其它字符,比如汉字、英文,就会出错,需要先过滤掉除数值外的字符再使用value函数。


方法3:把文本格式的单元格乘以1或加减0
(1)在X2单元格输入1,并且选中单元格复制
(2)在T列选中文本格式的区域,右键选中“选择性粘贴”

(3)弹窗中,选中“乘”,就会把选中的文本格式区域和数值1相乘,从而转换为数值格式


ps:加减0的方法,前两步操作与乘以1是类似的,只是最后一步在“选择性弹窗”里是要选中“加”或“减”。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
ym 版主 发表于 2020-3-18 18:36:31 | 只看该作者
二、用通配符模糊匹配查找替换来过滤字符
通配符主要有3种:*?~是特殊的计算机语言。在Excel操作过程中,如果字符结构类似局部内容不一样,或者不愿意去输入很多字符去查找时,可以借助关键字加通配符的模式去模糊查找目标值。

方法1:用星号*模糊匹配,再做替换为空字符
星号*可以匹配任意个字符,通过关键字搭配就能定位,操作如下:
(1)选中“商品名称”列里要过滤的数据区域,按 Ctrl+H 弹出查找和替换窗口
(2)这里要过滤商品名称里包含“英寸”在内以及其右侧的字符,那么在查找内容里输入“英寸*”,替换为空字符(不输入内容)
(3)点“全部替换”,就会把单元格里包含英寸两字以及在它右侧的字符自动过滤掉



方法2:用英文问号?匹配指定位数的字符
?作为通配符,是英文状态输入才生效,?在关键词前面或后面,与星号*的使用效果一致,而?在关键词中间时,有多少个?就表示匹配多少位字符。



最后,波浪符~通常是用在通配符前面,~让后面的通配符不生效,从而能查找出包含通配符本身的单元格。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
月球漫步 中级会员 发表于 2020-3-19 11:58:38 | 只看该作者
很详细的讲解,超实用,点赞
举报 使用道具
5#
ym 版主 发表于 2020-3-19 12:06:28 | 只看该作者
三、过滤重复数据
部分网页采集可能会有重复数据,为了分析结果的准确性,通常要筛选重复数据、进行删除重复等处理。
方法1:利用 “删除重复值”功能



方法2:使用“高级筛选”功能



除了上面的过滤重复方法外,还可以利用countif()函数和if()函数来判断重复,感兴趣的可以深入了解下。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-7 11:59