预测分析可能代表数据科学未来方向

2015-10-21 MedSci MedSci原创

从SGI的首席科学家John R. Masey在1998年提出大数据(big data)概念，到大数据分析技术广泛应用于社会的各个领域，已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量，并且都在竞相利用大数据来增强自己企业的业务竞争力。但是，即使17年过去，大数据分析行业仍然处于快速发展的初期，每时每刻都在产生新的变化。从概念到实用、从结构化数据分析到非结构化数据分析，大数据分析技

从SGI的首席科学家John R. Masey在1998年提出大数据(big data)概念，到大数据分析技术广泛应用于社会的各个领域，已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量，并且都在竞相利用大数据来增强自己企业的业务竞争力。但是，即使17年过去，大数据分析行业仍然处于快速发展的初期，每时每刻都在产生新的变化。

从概念到实用、从结构化数据分析到非结构化数据分析，大数据分析技术在不断地进化。虽然国内仍然在关注舆情分析，但是记者注意到，在美国，大数据分析的研究已经进入到了一个全新的阶段，“预测分析”技术成为最具有代表性的未来技术方向。

那么，“预测分析”技术和传统的大数据分析有什么不同？记者就此采访了美国数据科学家、前北卡大学夏洛特分校助理敎授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO，Derek Wang（汪晓宇）博士。

大数据行业爆发，现在的技术不够用了

汪晓宇博士正好经历了整个大数据产业爆发的全过程。他和记者回忆说，在2010年的时候，来他们夏洛特视觉中心进行交流的还仅仅是大公司的数据硏究员，2011年已经变成了公司的主任，而到了2012年，来的几乎全是CIO和CTO们了。他们甚至还为企业开了一门数据分析的进修课程，讲座虽然只有两天，但注册学费几千美金，学员们全都是来自国内各大公司的资深高管。

从这可以看出，在这个数据时代，中美都在用尽一切办法实现数据上领先的概念和追求。而在这技术飞速发展的几年间，数据本身呈现出了不少新的特点，市场也相应地对大数据分析技术提出了新要求。

首先，数据点越来越多，也越来越碎片化

在汪晓宇博士看来，大数据时代就是人的时代，数据形态越来越丰富和多样。除去社交网站等传统数据点以外，新形态的数据点也已经出现，比如Airbnb和Uber这种O2O服务。如果再看远一点，随着可穿戴设备、物联网等先进设备和个人的信息结合起来，随时随地产生和收集数据更加成为可能。在这样的情况下，每个人随时随地的“情绪”和“状态”这些都会成为商家必须要重视的数据源。
与此相对应的，非结构化数据分析将越来越重要。而非结构化数据的模块化更加灵敏，不是传统的单一解决方案可以做到的。这导致人们在进行大数据分析时使用的工具将更加细化，利用垂直创新的工具进行非常纵深的研究将成为主流。

其次，大数据分析技术成为了决定社会服务效率的关键

有报道指出，随着信息技术的发展，包括公共服务、物流等在内的人们衣食住行的服务会纷纷电子化，虚拟世界和物理世界的边界将进一步模糊。这个大的产业背景一旦形成，大数据分析能力就将成为整个产业服务最关键的竞争力。

这样就意味着，大数据分析工具应该越来越实用化。汪晓宇博士介绍说，在面对新的技术和工具时，美国企业高层都会迅速做出决断，考虑怎么把数据分析和现有业务进行快速整合。他举例说，在他们和美国一家大型银行合作时，对方的CIO就可以迅速做出反应，和他们探讨应该怎么把他们开发的创新型非结构化数据分析技术应用到自家银行某一个产品中去。

决定下一代大数据产业的新技术：“预测分析”

在这样的数据特点和市场要求下，中国和美国各大公司和科研中心都在大力投入，研发下一代数据分析技术。但是，在这方面，美国还是有着3-5年时间的领先。

根据汪晓宇博士的分析，国内在科研上的眼光很高，水平层次力度都在，但是商业化不行，研发出来转到应用上和美国有一定差距。中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段，但是美国已经跨越“舆情分析”和“情感分析”，进入到了“预测分析”阶段。

由汪晓宇博士一手打造的Taste Analytics团队，就在进行“预测分析”技术的研发。它摆脱了传统的“舆情分析”和“情感分析”的框架，更进一步，把人们在社交网站和其他平台上产生的数据都收集起来，进行实时、全面地分析，帮助企业建立用户的立体形象，了解他们的品味和喜恶，从而提供预测性地判断。这听来似乎和传统的“推荐系统”、类Clickstream分析有些类似，但是实际上完全不同。

首先，传统的“推荐系统”会需要一个很长的建立过程，也就说，它需要很多强相关的、相似的历史数据，才有可能实现推荐功能。比如它只能根据你买电饭锅的行为，才能向你推荐其他厨具。

但是企业怎么能在一开始就知道，顾客想要买电饭锅呢？这就是“预测分析”的强大之处。它不需要这样的历史数据，而是直接通过人们在社交网络上的留言和在各大平台上留下的信息，来进行预测。也就是说，当你在社交网络上留下类似“好想在家做饭”的状态，系统就有可能已经知道你想买厨具了。

汪晓宇博士举例说，“预测分析”技术发展成熟的话，就会非常接近美国科幻电影《少数派报告》里的情景——它会根据你在网络留下的痕迹，来理解你的性格、行为、情绪，来建立一个随时更新的、立体的形象。无论是HR、企业、客服、公共机构，都可以根据这些信息来提供真正的前瞻性、个性化的服务。

其次，Clickstream无法解决冷启动的问题，而且很难精准到个人、到细节。Clickstream分析技术的实现，是通过不同的cookie，来追踪人们的点击，它无法解决的是冷启动过程中数据的缺乏。比如你第一次登陆优酷，没有任何观看记录，系统应该怎么进行推荐呢？而且，人们的误点击操作很有可能就被系统追踪下来，进行了错误的分析。

但是这对于“预测分析”技术就不是问题。通过对各大社交平台上的多重语义分析和叠加验证，一个人的具体形象已经建立起来：这个人比较保守，不喜欢暴力，最近正在谈恋爱……那么这时，向他推荐浪漫喜剧就会非常对味。

“我们在做的，就是在集合的范围上进行分析。”汪晓宇博士说，“以前的技术是告诉你们人们在‘说什么’，现在我们已经进化到人们在行动之前‘有什么感觉’。这个核心技术的突破，就能实现对于整个数据分析市场的革新变化。”

再次，“预测分析”比起传统的大数据分析方法，可以更好地实现人机互动。尽管人工智能非常火热，但是汪晓宇博士仍然指出了这项技术的局限性：它的可控性很差，没有依靠人的能动力。在他看来，大数据分析应该更好地利用人机互动的机制，来发挥最大功用。

汪晓宇博士介绍说，以前的数据分析技术，机器只能做到一半，到后面的时候还需要人来负责数据输入。但是现在他们在研究的“预测分析”技术，可以把大范围的用户数据总结集成在一起，自动给出结果。人和机器的互动，将主要在于洞察内涵、提供反馈，让机器知道人的倾向。这就是新型的人机互动先进所在。

“比如说，某个产品本来定位年轻人，但是机器通过收集数据进行分析，发现它在中年人之间更受欢迎，那么人就可以来调整产品的市场定位，做出加大在中年人群体中加大宣传的决策。这就是非常典型的人机互动。” 汪晓宇博士说。

中国为什么没有出现“预测分析”技术？

作为美国最前沿的大数据分析技术，“预测分析”仍然处在研发的早期阶段，各家公司都在发力，想要在这个方向上取得领先地位，技术挑战仍然非常大。

预测分析最大的难度在于精准度。汪晓宇博士说，精准度越高，系统就越能把人的性格全面呈现出来，而且会在不同时间地点下进行分析，做出一个高维的性格理解。要实现这个精准度，光是数据挖掘方面就会有很大挑战，而且在面向不同客户时，比如企业、HR、公共服务等，还要把影响他们的特征分别提取出来，这又把难度上升了一个层次。

目前，汪晓宇博士已经在带领Taste Analytics团队在打造这样的“预测分析”系统，而且，他透露，目前他们向特定的几个企业提供了试用版本；而他们提供的非结构化数据分析服务，也就是“预测分析”的基础，已经被6家福布斯全球500强公司以及多家美国主流企业使用，并通过实践“实时分析”、“数据驱动”（Data-driven）、“人机互动”等最新的数据分析理念，为新的“预测分析”系统提供研究基础和进一步的反馈。
“美国市场上现在领先的数据分析公司，都只精专一点。” 汪晓宇博士说，“这也是行业进化到一定程度的结果，因为其实每一个环节都很难，没有一个数据分析公司是可以把所有的都做完；但是反过来，精细化研究才可以激发更多创新。”

反观中国市场，仍然在流行SAP、SAS这类的整体解决方案。虽然这些方案可以覆盖到数据分析的基本方面，但是却失去了对数据的深入挖掘能力，也就错失了数据分析的新机会，进一步来说，就很难诞生类似“预测分析”这样领先的研究。

“中国企业也应当大胆尝试新工具。如果总是寻求旧的解决方案，那么企业将无法真正挖掘出数据的价值。”汪晓宇博士说，“到时候，不仅是预测分析，中美在大数据分析技术和商业应用上的整体差异还将进一步扩大。”

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (1)

#插入话题

插入图片

[GetPortalCommentsPageByObjectIdResponse(id=2045249, encodeId=dbec20452497e, content=<a href='/topic/show?id=99465e75960' target=_blank style='color:#2F92EE;'>#数据科学#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=33, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=57759, encryptionId=99465e75960, topicName=数据科学)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=8e4c53, createdName=jiyangfei, createdTime=Thu Dec 31 17:35:00 CST 2015, time=2015-12-31, status=1, ipAttribution=)]
2015-12-31 jiyangfei

#数据科学#

33 0

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计