那么是什么概念呢?这个概念就叫数据湖泊,它其实是一个舶来品。2010年James Dixon首次提出了Data Lake(数据湖泊)的概念。当时并没有引起足够的重视,直到最近才开始被广泛关注和讨论。我从第一次接触Data Lake的理念开始,就深深地为其着迷。甚至我认为,这是大数据时代最伟大、最具颠覆性的发明创造。我迫不及待地想把它引进中国,于是就创造了瑞雪分析云这款产品。希望通过简单易用的产品,能够使中国的企业直观感受到Data Lake的强大之处并从中受益。Data Lake究竟是什么,为什么具备如此大的魔力呢?它最初的定义非常晦涩。我简单地讲,就是存储每一个可能有用(注意是可能有用)的细节数据,当需要时再一站式分析的理念。咦?听起来没有什么特别之处嘛。难道跟我们现在的数据分析有什么不同吗?听我讲,这里的差别是非常非常巨大的。接下来,我通过以下三点逐步说明。 首先,我要说明的第一点是:大数据其实离我们很近很近,只有一个转身的距离。 很多企业可能会说,你不是骗人吧?我们哪有那么多的数据啊?我告诉大家,数据就好像空气一样,其实无处不在。你看不到,只是因为管理精细度还不够。任何企业的生存和发展,其实都逃不开数据的支撑。就好像人离不开空气一样。再粗线条的老板,至少也要了解公司的财务状况不是吗?财务报表可不能胡乱编造。虽然看起来只有几十行数据,背后却是根据企业销售的每一件商品的成本和售价统计出来的。几乎所有的企业都已经把这些数字,以某种形式记录了下来。回去看一下就知道这些数据有多少了。企业其实每天都被数据的海洋包围着。比如线下零售门店每天的客流数据,再比如餐饮企业每天的翻台数据。它们很少被关注过,但却真实存在。它们中的绝大多数,都没有被记录下来就已经消失了。这是数据的悲哀,更是企业的不幸。 我给大家讲一个真实的故事。我曾经遇到过一个做在线教育的公司老板。他说啊:“虽然最近几年大数据很火,但我估计一辈子都用不上。别看我现在有几十万的用户,可我的数据规模根本就没有那么大。有空琢磨大数据,还不如琢磨怎么做好营销呢。”我说:“你真是守着金矿过穷日子。你的网站有多少视频?每个视频有多长时间?如果把每个视频都按秒划分并记录内容,这是多少数据?如果把每个用户每天在网站上的操作行为也记录下来,这是多少数据?如果再把每个用户的操作行为和每秒的视频内容一一对应起来,有没有意义?你是不是就知道了每个用户喜欢什么内容?讨厌什么内容?这又是多少数据?还是担心一下,你有没有能力处理得了吧。”他跟我聊完很受启发。回去第二天,就开始组建大数据团队了。 其实大数据并没有创造新的数据。它只是把企业忽视的、遗漏的数据重新挖掘出来,然后进行统一的、交叉的分析。注意,这不是简单的1+1+1+到n,而是Cnn。什么是Cnn?就是跨所有数据源,每一条数据的各种排列组合。这是无法估量的指数型规模。既是数据的规模,同时也是价值的规模。让我们再展望一下不远的将来。当万物互联的时代真正到来,每个人的一言一行,都将链式产生成千上万的设备数据。要实现智能商业,可能面对的数据规模还会进一步膨胀。我再强调一下,这道算术题可不是加法,而是乘法!听我讲到这里,有的朋友可能已经后悔参加这个会了。“没来参加之前,我还觉得大数据离我很远,不用着急。听你讲完,我不知道该怎么办了。”不知道怎么办就对了!说明你开始意识到了问题。我想说,如果现在还没有一点必须要迎头赶上的觉悟,那么等到将来就只能是一筹莫展了。 其次,我要说明的第二点是:传统的数据分析理念,根本无力解决海量数据的问题。 在坐的朋友里,一定有不少人使用过所谓的BI和数据仓库。我告诉大家一个秘密,目前主流的数据分析产品都是在耍流氓。企业数据少的时候,这个系统好像还管点用。可是业务越做越大,数据越来越多,系统就开始难用了。等到了大数据时代,就彻底没用了。你有没有注意到?每次所谓的专家顾问过来解决问题,肯定是先问你分析目标,然后就帮你做ETL。他们每来一次,下一次你的报表需求反而会增加一倍。这个不正常啊。我们花钱请人过来是解决问题的啊,怎么问题还越来越多了呢? (责任编辑:本港台直播) |