大数据

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 大数据

Hadoop 如何推动现代数据仓库技术的变革

作者:thebigdata出处:博客2016-04-07 10:11

 在2016 Hadoop技术峰会的主题演讲上,星环科技创始人孙元浩深入浅出的阐述了Hadoop是如何推动数据仓库技术进行深刻变革。

星环

  一、数据库技术进入战略转折点

  今年大会的主题是Hadoop十年。2006年雅虎等团队开始研发Hadoop技术至今已整整十年。在此之间技术发展迅速,Hadoop上的生态系统逐渐扩大。各个行业的用户逐渐开始基于这一新的技术来开发全新的应用,甚至将原先的应用向Hadoop之上进行迁移。未来,Hadoop会成为企业数据中心的核心,星环的产品也定位成Data Hub。经过这10年的发展,今年开始进入一个战略转折点(strategic inflection point)。这意味着新的技术开始逐渐取代和超越老的技术,并在各个行业迅速发展。未来的若干年之内,取代过程会不断加速。星环近3年的发展,经过持续的研发、投入以及大量的案例积累,达到新的高度。去年12月份Gartner分析师把星环科技(Transwarp)列为了国际主流的Hadoop发行版厂商之一,其他几家包括Cloudera、Hortonworks、MapR。另外还有两家公司分别是IBM和Pivotal,他们采用Open data Platform。全球共有6家公司上榜,星环也很荣幸能成为其中一家。

hadoop数据库

  今年2月份Gartner发布的数据仓库魔力象限当中,星环科技也被放入了远见者(Visionaries)象限当中。这个象限里基本上都是采用Hadoop技术的创业公司。这些公司采用全新的技术,逐渐替代传统数据库来构造新的数据平台。另外虽然目前领导者象限(Leaders)仍是大厂商,如Oracle、Teradata等,但是经过这10年的经验技术的积累,逐渐达到战略转折点,技术的取代过程明显加速。如果关注这些领导者公司股票在过去一年的价格变化,就会发现市场预期在2016至2017年技术会发生非常大的变化。在企业客户中,使用新技术的步伐会明显加速。今天星环科技是在远见者象限,而且分析师、国外的媒体把我们排在了最右边的位置上,也就意味着星环技术的领先性和完备性是超过国外的大数据厂商的。希望有朝一日星环能够进入挑战者象限(Challengers)、进入领导者象限,成为大数据时代新的技术的领导者。

魔力象限

  二、中美Hadoop应用统计对比

  今天我演讲的题目是介绍Hadoop是如何推动数据仓库技术进行深刻变革的。这里有一组统计数据:

  左边的数据是Wikibon的分析师做的美国市场中Hadoop新技术的应用场景统计。他采访了上千名Hadoop的用户,这其中有60%的用户使用Hadoop技术来做数据仓库,有25%的用户是按照交互式BI的,在 Hadoop之上用报表工具、可视化工具来做交互式分析数据报表。同时有6%的用户是在用HBase、Cassandra来做OLAP的简单轻量级Key-Value查询。有4%用户使用MongoDB、Couchbase文档式数据库进行文档存储,还有5%的用户使用流处理来做实时数据研判,由此构成一个完整的100%的应用分类。当然还有可能有一些其他的应用漏掉了,但这几个是主要的应用产品。

  在中国市场,根据我们的样本中几百名企业用户进行统计,结果跟美国稍微有点差异。分析结果显示,有56%的客户是做数据仓库的,包括ODS、ETL、数据清洗等,如在我们的客户中,用于取代关系型数据库提供完整的数据仓库支持,来建构各种主题模型。这个比例是比较接近美国用户的。但是我们只有8%的用户在做交互式BI。自主BI这一块在国内也开始兴起。注意到和美国市场相比,显著不一样的地方在于我们有24%的客户是用来做轻量级查询的,这个百分比指的是客户数量占比而不是客户集群规模(构成的集群节点数量)。这个比较有趣的现象说明,实际上在中国,应用比较简单,因为客户的数据量非常巨大,才会使用新技术解决问题。实际上中国客户的数据量,跟美国同类型客户的数据量相比是要大一个数量级(10倍)的,简单的查询对中国的客户来说是有巨大的困难的。所以我们可以看到有24%的客户在用Hyperbase(HBase)组件进行简单查询。还有2%的客户是用我们的产品来进行文档的搜索和图检索。另外还有个很大的不同是有10%的用户是用流处理的。从图中就可以发现,我们国家的工业4.0制造业传感器的网络建设速度是快于美国的。我们的用户群中比例明显就超过了美国的市场比例。

  三、传统数据仓库面临的四大挑战

  实际上大家可以看到,Hadoop技术在过去一段时间之内,至少在2015年逐渐开始往数据仓库方向转变。当然,Hadoop在早年刚开始创建的时候,主要也是作为数据仓库的,所以现在越来越多的行业也开始用Hadoop技术做数据仓库。那么什么是数据仓库?Gartner的解释是:数据仓库不仅是一个单一的数据库,它是一整套的数据管理系统,包含很多的辅助工具、一些设计理念和管理方法。传统的数据仓库技术,经过快20年或者更长时间的发展,已经面临了一些瓶颈。

传统数据面临挑战

  第一个问题,我们看到随着数据量增大,包括复杂程序应用的增多,传统数据仓库越来越不堪重负。我们有一个客户在数据仓库建立了5000个统计报表应用。我们也有客户使用着数据量近20个PB的商业系统。对于大部分的企业用户,数据量一般在几十个TB或者几百个TB左右。这么大的数据量对传统的仓库系统来说是非常大的负担。单一的数据仓库无法处理这么大量的数据,所以在这一块需要新的技术,特别是利用分布式计算来取代原本单一的计算方式来进行横向扩展。我们认为Hadoop技术能成功的最根本的原因是它是从单机的集中式运算变成了分布式计算,这是它最大的计算模式的演变。把集中计算变成分布计算是一个必然趋势,这是碰到的第一个困难,一是需要一些新型的分布式数据库技术进行性能的加速,来处理这种几百TB或者上PB的数据量。二是随着数据源的不断增多,访问数据的方式变得非常复杂。我们很多客户有几百个库表,有几千上万张表,这样复杂的数据模型通常很难把所有数据存储到一个数据库当中,只能分摊到很多个库当中。对数据的使用者带来了很大的困难,因为他们需要把多种数据全部存储起来。这个是第一个大的困难。

  第二个问题是数据的类型发生变化,过去是以结构化数据为主,80%是结构化数据。现在非结构化数据逐渐增多,这个值开始反过来,80%是非结构化数据和半结构化数据。但是从价值度来讲, 80%的价值密度仍然是来自于结构化数据。而对于企业来讲,需要这些非结构化数据,进行存储分析。另外在数据源变多以后,用户和业务部门也变多。这些部门之间如何进行资源有效管理和隔离,变成一个非常严重的问题。例如过去有些银行客户是采用行政处罚措施,如果有人写一条SQL,把数据仓库资源耗尽,导致其他人不能使用,那么这个人今年的奖励就没有了。采用这种方式是没有效果的,因为用户根本就不知道他写的这个SQL,会不会把数据仓库跑挂掉。另外做访问控制也是很痛苦的,为了使不同的分支机构只能访问自己的数据,需要创建视图。如果用户有1000张表,同时还有几十个分支机构,那么久需要创建上万个视图,这对数据的视图管理会带来巨大的挑战。所以在几年前,分析机构就提出要建逻辑数据仓库。逻辑数据仓库就是在过去几年当中一直被数据仓库领导者反复强调,我们需要去建一个逻辑上大的数据仓库,他底下可以包括多个数据源—-通过database federation(数据联邦)功能,同时它可以跨多种数据源,可以把结构化数据和非结构化数据统一处理。Michael Stonebraker在前段时间讲过,未来不管是传统数据库技术还是大数据技术,大家都会统一到使用SQL接口,包括结构化数据与非机构化数据,非结构化数据也会被结构化后进行处理。所以逻辑数据仓库适应于这种变化,通过统一接口统一方式访问数据源,完成跨各种数据源的访问,同时也会建造一个有多租户管理、资源管控的环境,能够被很多部门、用户进行使用。这从理论上来讲是区别于传统数据仓库的应用场景。

  第三个挑战是数据处理的延时太长。过去整个数据架构前面是OLTP系统,中间是ODS,后面是数据仓库层,再往后是数据集市。那么在数据仓库这一层,数据是T+1的,意味着第二天才访问前一天的数据。但是很多行业需要更实时的数据,为了了解当前的生产运营状况,它们需要基于T+0、准实时的,甚至是实时的几分钟几秒钟之内的数据。这种需求就演变成第三种数据仓库运营模式——Operational Data Warehouse。这种业务模式的设计初衷是希望把数据实时或准实时的导入到数据仓库当中,能够对实时数据进行快速的分析和挖掘。传统的数据仓库是每天晚上数据导入,花7-8个小时进行批处理计算,第二天才能看到报表。所以传统技术面临一个普遍的问题:不能实现实时处理。

相关文章

关键词:大数据处理

责任编辑:zzzz_ll

专题推荐

原创文章

微博互动

白皮书

网警备案