数据流量增长越来越快,分析要求越来越精准,数据分析工具的使用者范围越来越广……因为这些趋势,BI从业者必须不断迭代自己的产品,而迭代过程中必然伴随着新技术的研发和旧技术的舍弃。但拓扑社今天的主角Apache Kylin(麒麟)
,将一项大部分人认为在大数据下做不到的技术——多维立方体预计算(MOLAP),用在了新的应用场景中,不仅让这项技术焕发了新的生命力,还让原有的计算能力实现了突破性增长:不用一秒,就能够从百亿级、甚至千亿级的数据中通过标准SQL得到分析师想要的结果。
不受数据体量限制,如何秒级返回?
在十多年前,也就是关系数据库时期,多维立方体与传统数据仓库技术正值青春时期,直到前几年Hadoop等技术开始火起来,业界开始认为多维立方体技术不适合于大数据的场景。因为多维立方体技术需要额外的存储,如果原本的数据是千亿级别,经过多维立方体运算之后可能会再放大几十甚至上百倍,虽然能够产生精准的结果,但由于数据量级过大,计算、分析、查找以及存储仍然十分困难。
不同于传统意义上的分布式并行计算技术,韩卿(现Kyligence联合创始人及CEO,Apache
Kylin联合创建者及项目副总裁)带领的团队在技术上取得了突破,开源分布式分析引擎Apache
Kylin问世,并由eBay在2014年贡献到了Apache软件基金会(ASF),成为首个国人贡献的项目,并与核心开发者在2016年初组建了创业公司Kyligence,致力于为用户提供企业级商业分析解决方案。Apache Kylin为Hadoop之上超大规模数据集提供标准SQL查询接口及多维分析(OLAP)能力,而这种能力恰恰是基于经过二次“进化”的多维立方体技术。
“我们有一系列专有技术,包括稀疏立方体,压缩和存储,还有微批量构建等等,在传统的多维立方体技术上做了新的探索,突破了传统商业智能产品或者数据分析工具的架构。作为一个领先的基于Hadoop的OLAP解决方案,Apache
Kylin填补了大数据与人使用之间的空白,使分析人员、最终用户、开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache
Kylin能够将BI带回Apache Hadoop以释放出大数据的更多价值。”
“现在市场上看到的大部分大数据分析技术是基于大规模并行处理,这是经典的大数据处理方式,但这种方式的一个特点是处理量和时间成正比,
如果十亿数据用一秒处理,百亿千亿数据就需要成倍甚至十倍百倍的增加,并且在高并发下带来过多的网络负载及重复计算,这是大规模并行处理的弱点。
Apache Kylin用的是多维立方体预计算技术,通过提前计算,不管数据是十亿百亿,还是千亿万亿,都能够保证在高并发下相应查询都能在秒级别返回,并且很好的解决了数据冗余问题。
”李扬,Kyligence的CTO这样介绍。
韩卿认为,这样的技术的生命周期是非常长的,只要有数据分析需求,只要数据规模越来越大,它的生命周期甚至会和数据分析一样长。
“而且技术本身也会不断地演化和进化,就好像我们在20年前的技术上面实现了一次进化,得到了这一代以Apache
Kylin为代表的新一代多维立方体技术,随着时间的推移,它会进一步进化,我们会持续跟踪和研发前沿技术,让它始终保持在世界领先水平。”
哪些公司和人员在使用Apache Kylin?
在今天大数据的场景下,越来越多的传统企业和互联网企业都很容易拥有超大规模数据,但超过百亿或者千亿规模的时候,分析师很难在短时间用其熟悉的报表工具或其他数据分析工具快速在海量数据中获取分析结果。而Apache
Kylin就是为了解决这个挑战。“Kylin解决的是为企业在这种超大规模的数据之下提供秒级的查询延迟
,这也是目前全球做的最快做好的一个。”韩卿介绍道。
除了能够在超大规模数据集上提供非常快的查询效率,Apache
Kylin还能够通过标准的ODBC/JDBC驱动与行业内常用的BI及前端展现工具进行整合,分析师们能够很轻松地使用Tableau, Excel及Power
BI,Zeppelin等业界流行工具与Apache
Kylin系统进行交互以快速获取分析结果,而无需关心或另外学习新的底层技术,这样一来,产品经理、运营业务人员等群体不需要懂技术就可以顺利进行数据分析
,全民BI时代正在一步步趋近。
目前使用Apache
Kylin作为Hadoop上大数据分析、数据仓库解决方案的已经不乏eBay、百度、网易、美团、京东、唯品会、中国移动、Exponential、Expedia等国际国内公司,客户囊括了互联网行业,传统制造业、电信、金融等行业。
在整个Apache
Kylin社区也非常活跃,特别是来自国内的开发者和使用者,并且在参与过程中贡献了非常多的特性,已经发展了多位来自网易、美团、京东等的外部技术顾问。
Apache
Kylin在2015年11月正式毕业成为Apache顶级项目,这是首个由中国团队完整贡献到Apache的项目。同时,2015年9月的InfoWorld
Bossie Awards中,Apache Kylin与 Spark,Kafka, H2O, Elasticsearch,Zeppelin
等在内的其他世界著名项目一起入选“最佳开源大数据工具”奖。此外,Kyligence已于2016年2月获得了来自美国红点投资(Redpoint
Ventures)数百万美元的种子轮投资。对于投资人,韩卿有着自己的选择标准。“我们团队坚信我们的产品和技术可以走的很远,所以希望与长期价值投资者,与专注于企业服务、大数据领域产品和技术创新的投资者一起合作,构建大数据分析的生态。”
版权声明:
凡本网内容请注明来源:T媒体(http://www.cniteyes.com)”的所有原创作品,版权均属于易信视界(北京)信息科技有限公司所有,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。
本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,易信视界(北京)信息科技有限公司将追究其相关法律责任。
评论