本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】大会|惊喜与挑战并行的NSDI 2017(4)

时间:2017-04-27 02:07来源:本港台直播 作者:118开奖 点击:
随着机器学习和人工智能系统的迅速发展,以及这些技术在生产环境中的大规模应用,很多网络系统的工作开始研究如何针对性的优化这些新应用。这届的

随着机器学习和人工智能系统的迅速发展,以及这些技术在生产环境中的大规模应用,很多网络系统的工作开始研究如何针对性的优化这些新应用。这届的NSDI大会上涌现出了不少跟机器学习相关的文章,研究员们并不只停留于设计实现网络系统来为机器学习算法应用服务,还有更多的学者将机器学习方法应用到网络系统的实际问题之中,而这个角度的工作相对来说是比较少的,十分令人欣喜。

Curator【6】是华盛顿大学和Nutanix合作的系统,它是一个部署在后端的MapReduce-style的框架,用于处理存储系统中的后台任务,比如说磁盘碎片整理,冷热数据搬运,备份数据等。论文介绍了他们多年来在分布式存储系统设计上的经验。值得一提的是,他们提出了用强化学习的方法来去确定SSD和HDD中分别存储的数据量,并称相较于经验性的阈值策略方法会降低20%的延迟。

无独有偶,这种动态阈值的思想在这届NSDI大会中关于内容分发网络(CDN)相关的工作AdaptSize【7】也得到了体现。CDN是一种节点散落在不同地理位置的大规模分布式系统。举例来说,很多网络应用中需要的资源,例如视频和图片等这样的静态资源,就可以预先缓存在就近的节点上。当用户请求数据时,CDN系统根据网络状态的实际情况重定向用户请求到就近节点上,以方便用户的访问。这样既减轻核心服务器的负载压力,又降低了获取资源的延迟,提高了用户体验。在CDN上,一般会区分冷热数据,把用户经常访问的热数据 (Hot object) 放在内存这样的低访问延迟的存储模块中,而剩下的放在磁盘中,这样内存中的热数据就构成一个缓存。这里最关键的问题就是,什么样的数据需要放进内存,现有的做法无非是把全部都放进去然后根据访问频率把低频的踢出,或者是基于一个阈值把小数据放进去,毕竟小数据更加划算。这篇文章采用一个马尔可夫模型,根据请求的模式 (Request pattern) 自动调节相应阈值决定缓存的文件大小,进而获得更好的缓存命中率。这个论文的结果非常的令人振奋,相比于现有的其他方法有20个百分点的提升!

  

报码:【j2开奖】大会|惊喜与挑战并行的NSDI 2017

不只是CDN,这种方法很容易应用到其他的相似场景,即上层有复杂而多变的数据访问模式(Access pattern)的带有缓存的系统。

更进一步的说,在系统中引入机器学习方法来代替固定的阈值,我认为是一个相对通用的方法,并且这种方法有可能在很多情况下都会有好处。系统或者网络本身也许能学习感知到上层不同应用不同的数据访问模式,从而自适应其特性,调整到更加合适的配置之下。然而这又为系统本身增加了复杂性和不确定性,毕竟稳定性、简单可靠、乃至可复现是基础设施平台一直以来的追求。所以说,这并不是放诸四海皆准的灵丹妙药,但是也是一个很有趣的新思路。

CherryPick【8】是来自耶鲁和微软等四个机构的多方合作项目,其研究关注在云系统的调度层面,一个云端服务可以应用不同的系统配置。然而,为了达到相同的性能,不同的配置可能会导致高达12倍乃至更多的成本耗费上的差别,这一点在重复性作业 (recurring job) 上显得尤为突出。自动的在低搜索空间下为云端服务找到最优配置所带来的经济性自然是不言而喻。文章使用了一个简单的贝叶斯优化 (Bayesian Optimization) 来帮助优化搜索过程,决策搜索哪个配置下的运行性能,以及什么时候停止搜索以找到最优的系统配置。我觉得这个工作建模的系统指标项还是相对来说比较简单的,仅考虑任务占用的VM、CPU、内存、磁盘、网络等静态系统指标,并不考虑数据、系统当前总资源占用、任务间的相互干扰之类的当前整个系统状态相关的问题。其使用简单模型针对这一特定问题固然有其好处,但是不一定适合更加复杂的情况。正如Google曾透露他们已经试图用强化学习优化一些调度问题一样,我相信机器学习在系统领域应用的研究才刚刚开始。采用数据驱动的方法,通过对于数据的分析和问题的建模,可以帮助我们加深对于复杂系统的理解,减少乃至避免经验性的阈值和静态配置,而这些新的方法论最终将反过来影响网络系统的设计。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容