【猎云网(微信:ilieyun)北京】3月6日报道(文/王艺多)
“数据集成”的概念或许可以追述到上世纪90年代。受限于处理器、存储、带宽等技术条件限制,在过去很长一段时间里,IBM、Oracle、Informatica等厂商在数据集成方面,通常的作法是将大数据转化为“小数据”,可以简单理解为数据提炼与管理。这种做法需要专门的团队开发和维护数据集成平台,耗时费力,易用性不高。
而如今随着基础设施与技术的飞速发展,大数据从概念逐渐落地,企业也纷纷意识到大数据在商业上的价值,这也使数据驱动产品设计,客户运营和商业决策变得可能。不过在进行最终的数据分析之前,必须先进行数据聚合、集成与清洗,而且这往往要占整个数据分析流程中80%的工作量。
尴尬的是,很多企业虽然有数据决策的意识,却没有能力完成这第一步。因为以往处理分布在各个系统内的异构数据,需要聘用专业的数据工程师通过编写代码才能完成;另外若采购厂商的数据集成方案,价格高昂不说,在数据集成的实时性、可扩展性和处理实时变化数据等方面都有一定程度的不足。
为了解决这些问题,陈诚在2016年3月创立Data Pipeline,致力于帮助企业提供实时自动化的数据聚合集成平台。陈诚向猎云网(微信:ilieyun)独家透露,Data Pipeline已于2016年6月完成了数百万元天使轮融资,投资方为峰瑞资本。
创始人陈诚毕业于密歇根大学计算机专业,曾是前Yelp的大数据工程师。在Yelp期间从零参与设计并实现Yelp新一代实时数据平台;销售合伙人毛海英曾在用友任职大客户总监,并曾是SAP华中地区销售负责人。团队其他成员多来自于亚马逊、Yahoo等公司。
据了解,Data Pipeline是一家一站式企业实时自动化数据聚合的服务提供商,致力于为企业提供快捷、安全的数据资产管理工具、平台和服务,解放企业创新力,帮助企业将资源集中在自身业务和对业务的分析上,让数据更好更快的支持企业战略决策。
Data Pipeline网站首页演示的产品架构示意图
以电商企业发展为例:最初该电商只需使用其交易后台进行数据统计。随着交易量、品类、业务、收入的逐步增多,开始引入ERP、CRM、财务等等系统。不同系统产生的大量数据,无法统一进行管理。此时,Data Pipeline的数据聚合作用就体现出来了。
“一站式解决企业数据孤岛问题,将使数据聚合效率提高5倍,整体成本降低90%,正是Data Pipeline的优势。”陈诚说。
据他介绍,Data Pipeline能够处理企业的存量与增量数据,并采用可视化视图,操作简洁。工程师在配置好数据源(可连接包括Oracle、MySQL、SQL Server等任意数据库)后,系统即可按照设定的规则进行数据清洗,之后便会自动同步到相应的数据目的地(包括Hive、Greenplum、Redshift等数据仓库),并让使用者实时监控数据同步情况,实现可视化数据管理。
另外,Data Pipeline还提供API与SDK供企业对接自身业务系统,使生成的数据可直接同步到Data Pipeline并完成数据整合工作。
值得一提的是,考虑到部分企业对数据安全的需求,除了公有云SaaS版以外,Data Pipeline还提供私有化部署。另外其公有云版支持国内主流公有云厂商的部署。
乍一看,该项目与此前的Datablau比较相似,都是进行企业数据处理。不过Data Pipeline更重视数据聚合层面。
猎云网了解到,该产品在收费方面与常见的SaaS类项目略有不同,并非按照账号年限付费,而是按照其占用的服务器进行年费收取。猎云网认为,由于Data Pipeline需要进行大量数据处理工作,所以从资源占用上收费无疑要比销售账号使用权限更加合理。
Data Pipeline演示后台截图
目前该产品尚在内测阶段,已有多家客户正在试用,客户群集中在电商、社交以及线下零售企业方面,并且已有客户达成了付费意向。
2017年,陈诚计划在打磨产品的同时,着重发力软件销售以及市场推广,打造细分领域标杆案例。
对于该产品,峰瑞资本早期项目负责人朱祎舟表示,数据聚合是企业大数据分析的基础模块,随着企业分析需求的深入,数据环境的复杂,传统的数据集成方案价格高昂,可扩展性和处理实时性差,没有办法满足现代企业需求。
而Data Pipeline提供的更灵活、更实时的数据聚合服务,可以帮企业数倍地提高效率、按需付费。峰瑞资本持续看好数据服务领域潜力巨大的市场和机会,也看好Data Pipeline及其团队能够为企业主提供价值对等交换和解决方案。
名称:Data Pipeline
公司:北京逐风科技有限公司
网站:www.datapipeline.com