报码:【j2开奖】被峰瑞青睐的Data Pipeline要做企业的数据工程师_本港台直播_J2开奖直播

报码:【j2开奖】被峰瑞青睐的Data Pipeline要做企业的数据工程师

　　项目名称：Data Pipeline

　　主营业务：帮助企业管理数据资产、打造实时自动化的数据融合集成平台

　　上轮融资情况：2016年6月完成了数百万元天使轮融资，投资方为峰瑞资本

　　下轮融资意向：暂未开启

　　项目关键词：实时数据集成，容器化部署，数据监控，近10家种子客户

　　对企业而言，数据一直都很重要，只不过数据的载体从账本变成了Excel，随着数据体量增大、种类变多，数据又散落到了企业内部、外部的各种数据库中。在应用数据解决问题之前，组织数据是基础。而数据集成概念的可以追溯到上世纪90年代，企业逐渐开始使用各种商业软件，这时候企业要面对的，不仅仅是数据孤岛的问题，还有业务数据无法直接应用于分析的问题。

　　我们熟悉的Informatica、IBM DataStage、SAP、Oracle、Microsoft，还有Attunity、Adpetia都针对这些问题提供了相应的解决方案。当数据存储、数据计算、传输带宽的成本降低时，处理分析数据不再是金融、电信等行业的特权，头部行业带动其他行业对这件事重视起来。也因此有了类似Snaplogic、 MuleSoft、TreasureData、Striim这样的新公司进入赛道，用不同的方式来为企业用户解决数据带来的问题。

　　“我之前就是在企业内部解决这些问题的。”陈诚曾是“美国版大众点评”Yelp的资深大数据工程师，从零参与设计、实现了Yelp新一代的实时数据平台。毕业于密歇根大学计算机专业，去了Google实习，又到Yelp工作，陈诚一直把编程当作创造，回国后，他创立了Data Pipeline。那么针对国内市场，这家技术驱动的公司能做些什么呢？

　　企业的核心资源应放在自身业务上

　　Data Pipeline的初衷是帮助企业管理数据资产，相当于一个数据工程师团队。数据的集成与清洗是将数据应用于分析决策的第一步，数据源和数据目的地的复杂性导致这件事情很难做，企业如果投入大量人力、财力去做，会有些吃力不讨好。“企业应该专注于两件事，做业务和通过业务分析做决策。”陈诚说道。

　　如果把这件事交给类似Data Pipeline的公司去做，企业的考量会有哪些方面？

　　首先是数据时效，我们可以揣摩一位管理者的心理，他一定想随时都能看到最新的数据情况，这关系到他该做什么决策，也关系到企业的竞争力；其次是数据质量，企业希望在复杂的、分布式的、高可用的情况下仍能保证数据不丢失或重复；再者，在企业的整条线上，使用数据的人权限不一，对数据的要求也不一样，从业务部门到技术部门，再到分析部门，如果缺少协同的工具和流程，数据从生产到使用不仅耗时费力，而且得不到充分利用；最后也最重要的，自然是数据安全。

　　Data Pipeline则将这些考量融入了产品之中。针对复杂的数据源，Data Pipeline预置了各类型数据源接口，目前对SQLServer、MySQL、mongoDB、Oracle等主流的数据源支持对接；而数据目的地也能满足Redshift、Greenplum、Hadoop、ElasticSearch等。在产品界面上选择数据库、数据目的地，进行数据清洗后，就可以完成数据同步了。

报码:【j2开奖】被峰瑞青睐的Data Pipeline要做企业的数据工程师

　　陈诚表示，“数据从产生到可以应用于分析，接近实时。”此外，Data Pipeline通过解析数据库的复制日志，捕获数据与数据定义的变化，将过去需要人为修复的地方总结到产品中，让数据系统变得自适应，解决了业务数据与分析数据的差异问题。这样一来，整个同步的过程能更加实时，也减小了数据源的输出压力。

　　通过管理界面，用户可以看到数据同步的状态，也能看到数据的来源与结构，用户可以在此处做一些适当的批注，以解决企业内部口径不统一的问题。当数据同步出现问题时，基于完善的纠错机制与系统状态监控，也能第一时间找到数据源并进行处理。

(责任编辑：本港台直播)