Fuller's blog

参照MPQA思考怎样实现观点挖掘系统(opinion mining)

MPQA是一个语料库和观点识别系统(Corpus and Opinion Recogntion System)。根据其网页,该系统有下面几部分:

什么是词性标注(POS tagging)

词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。

维基百科对POS Tagging的定义:

有关情感分析和观点挖掘的几个概念

  • 情感和主观观点分类(sentiment and subjectivity classification):情感分析(sentiment analysis)就是一个文本分类(text classification)问题,主要有两个级别:
    • 文档级别的分类:含有主观观点的文章表达的是正面的还是负面的观点(positive or negative opinion),有个专用名词表示这一类sentiment classification或者document-level sentiment classification
    • 句子级别的分类:主要目的
      • 句子表述的意思是主观的还是客观的,表示这一类的专用名词:subjectivity cl

传统零售商圈地在线电子商城

下面的内容摘自[1],可以作为市场分析的素材。


待回答的问题

以收取进店费、促销费用以及供应商返点为主要盈利手段的传统零售商,如何驾驭这块全新的市场?

什么是sentiment analysis(情感分析)?

Sentiment analysis(情感分析) or opinion mining(观点挖掘)的目的是判断作者或者演讲者对某个话题(topic)的态度(attitude),所述态度包括:

  • 判断
  • 评价
  • 情绪状况
  • 情绪交流等等

互联网进入Web2.0时代后,网络上大量涌现网友创作的内容(user-generated content),因此对这些内容进行情感分析或者观点挖掘具有巨大价值。下面的内容摘自维基百科

基于网络数据采集系统的社交媒体/网络营销

《社交媒体的“钱”途,企业拥有一套社交媒体营销战略的意义》一文向读者展示企业的网络营销战略正在转变,早期的网络营销主要以广告为载体,经历了三个阶段:

基于Facebook电子邮件email挖掘的市场调研分析

根据CNN科技新闻,Facebook最近进行了隐私策略调整,市场调研分析又增添了新手段:使用email(电子邮件)地址挖掘Facebook上的用户信息,获得极具价值的市场概况(marketing profiles)等商业情报信息,可以抓取的信息包括(受用户的隐私设置影响):名字、头像和其他图片、年龄、地区、兴趣、相片、消息板上的留言(wall posts)、朋友列表和名字,通过数据挖掘算法,可以扫描营销

网页内容抓取在市场营销调研分析领域的地位走势

Next Gen Market Research刚刚发布了一个调查报告概要,关于当前和今后使用的市场营销调研分析技术,数据挖掘及其相关技术仍然是最主流技术,下面两图引自原文


当前按重要性从高到低排序

比较实体提取/识别(entity extraction)API

看到某网友对比了多个实体识别/提取API,很有参考价值,摘录如下:

Syndicate content