为政民互动大数据分析建立特征词库

2018-5-18 10:06| 发布者: xandy| 查看: 5166| 评论: 0|原作者: 集搜客GooSeeker

摘要: 本文的目的是让“文科生”也能做文本挖掘。这也是我在多个商业分析项目中采用的方法,看起来简单粗暴,但是非常有效。*越来越多的地方政府网站已经建立了自己的政民互动平台,比如,建设热线平台让市民可以咨询问题 ...

本文的目的是让“文科生”也能做文本挖掘。这也是我在多个商业分析项目中采用的方法,看起来简单粗暴,但是非常有效。

越来越多的地方政府网站已经建立了自己的政民互动平台,比如,建设热线平台让市民可以咨询问题和投诉,这样有利于城市治理优化。随着自然语言处理技术(NLP)的发展,已经具备条件对文本内容做量化分析和数据挖掘运算。

NLP看起来是相当高科技的东西,对于一个商业分析师来说,不要被这个缩略语所迷惑了,重要的是要高效的完成研究报告。为了达到这个目的,采用以下处理过程可以免受高科技的迷惑:

  • 首先要把原始语料切分成一个个词语,就是所谓的文本分词
  • 接着应该将跟研究目的相关的特征词筛选出来
  • 这样就把一行行语句转换成了一个行列表,每一列对应一个特征词,如果一句话含有这个词,对应的单元格就得1。这样就把语句标签化了
  • 有了这个标签矩阵,可以做各种统计,也可以用数据挖掘算法做深度挖掘

使用GooSeeker研发的分词打标软件,就可以实现上面几点,看到这里,你可能会疑惑,为什么第二步还要筛选特征词?

用过分词软件的人就会知道,切分出来的词语包含了单个字、两个字、多个字等情况,单字是很难判断出它的语义,两个字以上的组合词才带有明确的语义特征,所以,筛选词语还是有必要的。但是,为什么是手工做呢?都什么年代了。

虽然现在是AI的时代,我仍然推荐手工筛选特征词。

其实一点都不low,首先,可以起一个好听的名字:基于专家经验的特征工程。很高大上吧!这不是我杜撰的,所谓特征工程,可以说是机器学习的奠基石,就是将数据以更加合适的方式展示出来,通常需要大量的人工干预和专家经验,所以,人工提取特征词的方法在大部分场合仍然是最有效的。

你可能会问,现在有自动化的特征工程算法,甚至可以用深度学习方法自动完成特征选择过程,为什么不直接用啊,手工多费劲啊,但是在实际的使用场景里,作为一个商业分析人员,往往只有一周时间,需要制作一个报告,作为专职的商业分析人员,不可能总是固守一个行业,那么在这一周既要熟悉这个行业,又要做出一个有可读性的研究报告,我认为工作量这么大的机器学习是很难帮上忙的。

根据我的体验,我要查阅大量资料熟悉这个行业,掌握他们的行话,要打这个基础,刚好可以借用合适的工具把描述这个行业的特征词库建立起来。随着量化分析技术的广泛采用,自然语言处理(NLP)的深入程度和细致程度越来越高,就是所谓的"画像",而画像的层面是很多的,所以,不同行业领域的特征词,都需要老练的经验技能才能选对,不是随便选出来的。

从上图可以看出,不同的语句或者同一条语句,都可能说不同角度的事情。例如,"流程"是直白地问xxx流程怎么样到哪查等,而"时候"可能更倾向于表达一种诉求:我想更快地办完,行吗?显然他们是不同角度的表达。

在筛选特征词的时候应该把这些角度做些梳理和记录。如果要做多层次、多类别分析,这个时候把他们类别梳理出来是有用的。

举一个更有切实体验的例子

这是一个手机消费者画像的例子,将消费者对手机的感知可以分成4大类进行分析:硬件配置、软件功能、ID与结构、用户体验等,每个大类还可以细分小类。这样就形成了分级分类结构,也就是把特征词进行分类整理。这样我们就可以对研究对象做不同层面的剖析,可以深度钻取,也可以横向比较。

可见,所有这些成果都建立在特征词库的基础上的,无论后续的数据挖掘算法有多么高科技,关键的特征词依然是有效的。

前面说了,在大部分场景下,手工筛选特征词是最实用和最经济的,为了好听一点,我们称之为:基于专家经验的特征工程。接下来可以交给"高科技的"建模运算,其实主要是调参,那么手工筛选特征词依然是最大比重的一块,合在一起可以叫做:"专家经验+调参",不失"高科技"形象。

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-10-6 15:05