其次,是关于空间资源利用率的。目前我们有一千多台机器,存储是很大的成本。之前也提到了,我们是属于花钱的部门,所以压力非常大。那怎么节省成本是一个很重要的问题。除了传统压缩之外,还能做什么?HDFS RAID是一个比较好的解决方案。 HDFS RAID采用是RC编码,类似RAID6,比如一个文件有m个块,根据m个块生成k个校验块,然后能保证k个块丢失的情况下数据还能找回来,举个例子来说,比如文件2.5G大小,256M一个块,可以分成10个块,根据RC算法再生成4个校验块,可以保证丢了4个块情况下,数据都能找回来。在这个例子中,3副本情况下,一共需要30个块,而采用HDFS RAID,仅需要14个块。但他们的可靠性一样,空间占用情况却差了57%。 具体实施时,第一步对集群数据进行冷热分析,RAID毕竟有些性能问题,一旦数据有问题,你要通过计算才能恢复,势必会造成性能低下,所以针对冷数据做肯定是风险最低的。第二步就是压缩+archive+RAID,通过三方面技术结合把文件数和空间全部节省出来。归档实际上是会变换目录的,为了做适配,我们通过软连接功能,做到对用户透明。最后在数据读取时,如果是RAID数据,就要具备实时RAID修复功能才能保证在数据缺失的情况下不影响数据的访问。 后续我们会对计算资源利用率再做进一步提升。另外也会考虑Storm和YARN扩展性。还有Kubernetes调度优化,比如针对GPU资源管理功能。 以上就是我今天想介绍的全部内容。在结束之前请允许我再做一下总结。 首先我介绍了58目前的大数据平台架构是怎么样的,简单来说就是“342”,三个层次、细分为四个子层、旁边两列。所以大家要做大数据平台建设工作,这几个方面是必备的。 第二个方面我重点的介绍了58在一年半的时间内的技术改进。第一点是关于稳定性,主要从Flume和HDFS扩展性方面重点介绍了我们的解决方案,举了三个案例来说明突发问题,不是说有了可用性和扩展性就万事OK了,还要解决突发问题。针对平台治理首先介绍了一下数据和资源的治理方法,接着又介绍了关于易用性方面的改进,我们提供了一系列平台来提高开发人员的开发效率。 第三方面从性能上介绍了我们这边做的优化工作以及优化的结果是怎么样的; 第四方面介绍了在异构环境下如何支持不同特征的作业进行合理调度。 最后我介绍了58深度学习平台建设方面以及存储资源空间利用率优化方面的内容。以上就是我今天的全部内容,希望对大家有帮助。 今日荐文
微软开源软件列表 (责任编辑:本港台直播) |