项目名称:Data Pipeline 主营业务:帮助企业管理数据资产、打造实时自动化的数据融合集成平台 上轮融资情况:2016年6月完成了数百万元天使轮融资,投资方为峰瑞资本 下轮融资意向:暂未开启 项目关键词:实时数据集成,容器化部署,数据监控,近10家种子客户 对企业而言,数据一直都很重要,只不过数据的载体从账本变成了Excel,随着数据体量增大、种类变多,数据又散落到了企业内部、外部的各种数据库中。在应用数据解决问题之前,组织数据是基础。而数据集成概念的可以追溯到上世纪90年代,企业逐渐开始使用各种商业软件,这时候企业要面对的,不仅仅是数据孤岛的问题,还有业务数据无法直接应用于分析的问题。 我们熟悉的Informatica、IBM DataStage、SAP、Oracle、Microsoft,还有Attunity、Adpetia都针对这些问题提供了相应的解决方案。当数据存储、数据计算、传输带宽的成本降低时,处理分析数据不再是金融、电信等行业的特权,头部行业带动其他行业对这件事重视起来。也因此有了类似Snaplogic、 MuleSoft、TreasureData、Striim这样的新公司进入赛道,用不同的方式来为企业用户解决数据带来的问题。 “我之前就是在企业内部解决这些问题的。”陈诚曾是“美国版大众点评”Yelp的资深大数据工程师,从零参与设计、实现了Yelp新一代的实时数据平台。毕业于密歇根大学计算机专业,去了Google实习,又到Yelp工作,陈诚一直把编程当作创造,回国后,他创立了Data Pipeline。那么针对国内市场,这家技术驱动的公司能做些什么呢? 企业的核心资源应放在自身业务上 Data Pipeline的初衷是帮助企业管理数据资产,相当于一个数据工程师团队。数据的集成与清洗是将数据应用于分析决策的第一步,数据源和数据目的地的复杂性导致这件事情很难做,企业如果投入大量人力、财力去做,会有些吃力不讨好。“企业应该专注于两件事,做业务和通过业务分析做决策。”陈诚说道。 如果把这件事交给类似Data Pipeline的公司去做,企业的考量会有哪些方面? 首先是数据时效,我们可以揣摩一位管理者的心理,他一定想随时都能看到最新的数据情况,这关系到他该做什么决策,也关系到企业的竞争力;其次是数据质量,企业希望在复杂的、分布式的、高可用的情况下仍能保证数据不丢失或重复;再者,在企业的整条线上,使用数据的人权限不一,对数据的要求也不一样,从业务部门到技术部门,再到分析部门,如果缺少协同的工具和流程,数据从生产到使用不仅耗时费力,而且得不到充分利用;最后也最重要的,自然是数据安全。 Data Pipeline则将这些考量融入了产品之中。针对复杂的数据源,Data Pipeline预置了各类型数据源接口,目前对SQLServer、MySQL、mongoDB、Oracle等主流的数据源支持对接;而数据目的地也能满足Redshift、Greenplum、Hadoop、ElasticSearch等。在产品界面上选择数据库、数据目的地,进行数据清洗后,就可以完成数据同步了。 陈诚表示,“数据从产生到可以应用于分析,接近实时。”此外,Data Pipeline通过解析数据库的复制日志,捕获数据与数据定义的变化,将过去需要人为修复的地方总结到产品中,让数据系统变得自适应,解决了业务数据与分析数据的差异问题。这样一来,整个同步的过程能更加实时,也减小了数据源的输出压力。 通过管理界面,用户可以看到数据同步的状态,也能看到数据的来源与结构,用户可以在此处做一些适当的批注,以解决企业内部口径不统一的问题。当数据同步出现问题时,基于完善的纠错机制与系统状态监控,也能第一时间找到数据源并进行处理。 (责任编辑:本港台直播) |