评论 Fuller 2015-12-30 22:18
1)当数据高度稀疏的时候,完全不像上面ppt说的那样“顺理成章”的样子,当一个特征向量只知道{A,B,C}三个值,如果强行认为是<1,1,1,0,0>显然是错误的,你可以想象一下,这些特征点是否在同一个多维空间中?你都不敢确定,那么怎么能拿来算呢?(你在正世界,她在逆世界,你真相信能碰出爱情火花?目前来看,那是个电影故事而已)再想象一下,如果后两个维度是0,大量的数据只有少数维度有值,那么这些数据点其实是蜷缩到某个面上的

2)利用Ontology 本体 做用户画像研究似乎是个严重误导。计算机科学领域的本体工程 Ontology engineering的主要目标是自动化推论。这个技术体系基本上是在这个链条上:xml-〉RDF-〉Ontology,本人认为RDF也不过走了一半就要被人遗忘了。现在的研究方法完全基于另一套理论基础,是朴素贝叶斯统领数据挖掘的时代,所以,在这个ppt中把本体拉出来有些忽悠的嫌疑

GMT+8, 2024-5-2 15:06