lasticsearch Global BV平时以Elastic之名开展业务,它已为其一套开源产品组成的Elastic Stack解决方案增添了机器学习功能,这些产品可用于搜索含有非结构化信息的庞大数据库。这家公司是通过最近收购行为分析厂商Prelert Inc.获得了这项技术的。 Elastic表示,第一代新的机器学习功能可用于自动识别异常情况,自动执行根源分析工作,并且自动减少实时应用里面的误报。这些功能最初将专注于时间序列分析,比如识别Web流量中的异常情况,或异常的应用程序响应时间。 Elastic Stack结合了一套之前单独提供的产品,包括Kibana可视化引擎、Beats数据采集工具、Logstash日志数据管理工具以及Elasticsearch for Apache Hadoop。这套产品还包括面向安全、警报和监控的专有扩展件。整个套件可免费下载,或作为一项云服务供人使用,另外提供了基于订阅模式的支持。 这家公司表示,Elasticsearch是最流行的数据存储系统(非数据库),下载量已达到1亿人次。谷歌最近将一个完全托管的版本添加到了谷歌云平台(https://siliconangle.com/blog/2017/04/09/google-add-elasticsearch-cloud-platform-later-year/),有力地提升了这个平台。 非监督式机器学习算法可不断仔细搜查大量未加以分类的数据,识别模式(如图),然后将这些模式提供给人类分析员。没有意义的模式被丢弃,值得关注的模式重新馈送给算法,以便进一步提炼。 Prelert的产品负责人兼产品经理斯蒂夫·卡恩斯(Steve Kearns)说:“它可以在一段时间内自动了解什么是正常情况,然后运用该信息检测异常情况。我们没必要事先了解什么是异常情况。机器的调整或改动实现了可以自我维护。” Elastic让算法可以在开源可视化引擎Kibana里面加以编程,从而竭力让大众更容易了解深奥的机器学习领域。Prelert负责开发这项技术的斯蒂夫·多德森(Steve Dodson)说:“机器学习方面的关键问题之一就是,你得是个专家,才能使用机器学习。我们想要将权力下放给普通人,那样如果某人拥有创建仪表板的技能,就能够定义和设置阈值。” Elastic计划添加更多的机器学习功能,不过眼下专注于为这样的用户提供附加值:使用Elasticsearch,存储时间序列数据,比如日志文件、应用程序及性能度量指标、网络流量或金融/交易数据。 这项技术最典型的使用场景就是识别度量值或事件率何时偏离正常行为。比如说,服务的响应时间是否大大变长?网站访客的预期数量与当前时段的正常数量是否大不一样?在过去,规则、阈值或简单的统计方法用于这种类型的分析。遗憾的是,就实际的数据而言,这些简单方法很少管用,atv直播,因为它们常常依赖无效的统计假设(比如高斯分布),不支持趋势(长期或周期性),很容易受到信号变化的干扰。 具体实现的方法还得到了优化,以便可以直接在Elasticsearch集群运行,那样就能在短短数秒内分析数百万个事件。 这款机器学习产品还可以扩展,支持数10万个度量指标和日志文件,所以下一步是协同分析多个度量指标。这可能是主机上的多个相关度量指标、来自数据库或应用软件的性能度量指标,或者来自多个主机的多个日志文件。这种情况下,我们可以对分析任务进行划分,直播,然后将分析结果整合到单一管理平台,显示总体系统异常。 比如说,如果我知道一大批应用服务的响应时间,那么就能在一段时间内分析每个服务的响应时间,找出行为异常的那些服务,并显示总体系统异常。 机器学习功能是专有代码,将不断加以完善和改进,以便支持多因数分析,并与其他分析引擎整合起来。该产品将作为Elastic X-Pack的一部分来交付,而Elastic X-Pack包括其他开源产品和专有产品。价格没有宣布。这篇博文(https://www.elastic.co/blog/introducing-machine-learning-for-the-elastic-stack)里面介绍了机器学习功能和应用方面的额外详细信息。 (责任编辑:本港台直播) |