什么是文本分析(Text Analytics)

根据维基百科文本分析基本上可以作为文本挖掘(Text Mining)的同义词,当前,商业环境更多采用文本分析这个词,而文本挖掘这个词主要用在最早采用此技术的应用领域。

文本分析采用自然语言处理(NLP:Natural Language Processing)和分析方法将文本内容转换成数据用于分析。相关技术众多,例如:

  • 信息检索:Information Retrieval
  • 词法分析:Lexical Analysis,例如,用于研究词频分布
  • 模式识别:Pattern Recognition
  • 标注:tagging/annotation
  • 信息提取:information extraction
  • 数据挖掘:data mining
  • 可视化:visualization
  • 预测分析:predictive analytics

可见,文本分析涉及众多先进技术,是否创业公司和小公司很难在这个领域起步?《Anderson Analytics Eyes Text Analytics Software Space with OdinText》一文介绍了Anderson Analytics对文本分析软件定位的见解,要避开大公司的正面堵截,例如,SAP Text Analytics,还要甩掉用户DIY风潮的围追,SaaS(软件即服务)也许是突破口,很遗憾Anderson Analytics宣布的OdinText还没有面世。在这么惨烈的竞争环境中,GooSeeker也推出了自有技术和软件SliceProfile,由于采用了独具特色的语义管理和部署管理技术,迅速被电子制造、卫浴洁具、汽车营销、IT建设、金融服务行业客户所采用。