在数据仓库、数据平台、数据中心、数据湖的相关概念中,都与数据有关,但它们之间有什么区别呢?本文介绍了它们的概念、架构和使用场景。让我们来看看。
我们经常听到人们谈论数据仓库、数据平台、数据中心和数据湖的相关概念。都和数据有关,但它们之间有什么区别呢?下面我们将介绍数据仓库、数据平台、数据湖、数据中心的概念、架构和使用场景。
一、数据仓库1. 数据仓库概念
数据仓库是由数据仓库之父比尔·恩门于1990年提出的。其主要功能是通过数据仓库理论,对长期以来阻碍企业系统联机事务处理(OLTP)的大量数据进行系统的分析和整理。
随着企业的发展,业务系统的数据迅速增长。这些数据存储在企业业务数据库(即关系数据库Oracle、微软SQL Sever、MySQL等)中。)随着时间的推移会越积越多,使得业务数据库有一定的负载,导致业务系统运行效率低下,而这些数据很大一部分是冷数据,而我们的业务系统一般都是调用我们的近期数据,也就是热数据,频繁使用冷数据。
同时,随着企业数据驱动业务概念的兴起,企业需要从各个业务部门提取业务数据进行数据分析和挖掘,以辅助高层的分析和决策。但是各部门要求的数据类型千差万别,接口复杂。连接了过多的数据查询脚本和接口,导致业务数据库的稳定性降低。
为了防止冷数据和历史数据的积压影响我们业务数据库的效率,企业需要定期从业务数据库中调出冷数据,存放在专门存储历史数据的仓库中。各部门可以根据自己的业务特点提供统一的数据服务。这个仓库就是数据仓库。
2. 数据仓库特点
数据仓库的特点是:面向主题、集成、稳定和反映历史数据的变化。
面向主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面向主题的。例如,电商行业的主题域通常分为交易域、会员域、商品域等。集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。稳定的:数据一旦进入数据仓库,则不可改变。数据仓库的历史数据是不应该被更新的,同时存储稳定性较强反映历史数据变化的:数据仓库保存了长期的历史数据,这点相对OLTP的数据库而言。因为性能考虑后者统筹保存近期的热数据。3. OLTP与OLAP
1)OLTP和OLAP概念
数据处理可以大致分为两类:联机事务处理(OLTP)和联机分析处理(OLAP)。
OLTP是传统关系数据库的主要应用,主要处理基本的、日常的事务,比如银行事务。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重于决策支持,提供直观易懂的查询结果。
2)OLTP和OLAP的区别。
OLTP系统强调数据库内存的效率,内存各种索引的命令率,绑定变量,并发操作等等。OLAP系统强调数据分析、SQL执行市场、磁盘I/O、分区等等。
3)OLAP与数据仓库的连接
OLAP和数据仓库之间的关系是相互依赖、相辅相成的。通常,基于数据仓库,从数据仓库中提取详细数据的子集,并存储在OLAP存储中,以供数据分析工具读取。
4. 数据仓库的作用
数据仓库聚集了来自不同来源的结构化数据,用于商业智能领域的比较和分析。数据仓库是一个包含各种数据的存储库,高度模型化。
如下图所示:各系统的元数据通过ETL同步到业务数据仓库ODS,ODS数据在面向主题的域中建模,形成DW(数据仓库)。DM是针对某个业务领域建立模型,特定用户(决策层)可以查看DM生成的报表。
什么是ETL?(提取-转换-加载提取-转换-加载)
传统的数据仓库集成处理架构是ETL。利用ETL平台的能力,E=从源数据库中提取数据,L=清洗数据(不符合规则的数据)和转换数据(根据业务需求统计不同维度、不同粒度、不同业务规则的表),T=将处理后的表分增量、分数量、分时间加载到数据仓库中。
什么是ELT?(提取-加载-转换提取-加载-转换)
大数据背景下的架构体系是ELT结构,根据上层的应用需求,随时从数据中心提取想要的原始数据进行建模分析。
ELT使用数据库的处理能力,E=从源数据库提取数据,L=将数据加载到目标库的临时表中,T=将临时表中的数据转换后加载到目标库的目标表中。
ELT优于ETL的优势:
资源利用率的提升:ELT主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源)。任务运行效率的提升:ELT可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性。并行处理优化:ELT可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。可扩展性增强:ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。性能优化:通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特别困难。
数据仓库系统的功能可以实现跨业务线、跨系统的数据集成,为管理分析和经营决策提供统一的数据支持。数据仓库可以从根本上帮助你将公司的运营数据转化为高价值的可访问信息(或知识),在正确的时间以正确的方式将正确的信息传递给正确的人。以下图为例:
数据仓库的作用主要体现在以下几个方面:企业决策、分析、计划和反应:
数据仓库在实时数据处理和非结构化数据处理方面较弱,在预警和预测方面的应用有限。
二、数据平台1。数据平台的概念在大数据时代,数据平台一般被称为大数据平台。
狭义的数据平台是解决数据仓库无法处理非结构化数据,报表开发周期长的问题,所以我们抛开业务需求,把企业的所有数据提取在一起,成为一个大的数据集,包括结构化数据和非结构化数据。当业务方有需求时,会分别提取自己需要的几个小数据集,以数据集的形式提供给数据应用。
广义大数据平台:广义大数据平台通常被赋予更多使命,是主要处理海量数据存储、计算、不间断流数据实时计算、离线计算、智能推荐、交互查询、数据湖构建等场景的一套基础设施。典型的例子包括基于Hadoop生态系统构建的大数据平台。提供易于部署和管理的Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio等开源大数据计算和存储引擎。
狭义的数据平台与传统的数据平台(数据仓库)功能相同,唯一不同的是技术架构和数据容量。
从广义上讲,大数据平台是数据湖的基础,它为泛Hadoop生态系统和其他易于部署和管理的存储计算引擎提供PaaS平台,帮助企业构建企业级数据湖技术架构。
提示:本文对数据平台进行了狭义的比较,这里不做过多概述。
三、数据中台1. 数据中台概念
台湾的数据起源:2015年年中,马云带领阿里巴巴集团高管访问芬兰小型游戏公司Supercell。这家员工不足200人的小游戏公司,却创造了高达15亿美元的年税前利润!Supercell之所以能够支持多个团队快速敏捷地推出高质量的游戏作品,强大的中平台能力功不可没。
因此,在Supercell之行后,马云决定整体调整阿里巴巴的组织和体系架构,以阿里产品技术和数据能力建立强大的中间平台,构建“大中小前台”的组织和业务体系。
数据中心的主要目的是解决企业发展过程中因数据激增、业务扩大而导致的统计口径不一致、重复开发、对指标开发需求响应慢、数据质量低、数据成本高等问题。通过一系列数据工具(元数据中心、数据指标中心、数据仓库模型中心、数据资产中心——资产质量/治理/安全、数据服务中心等。),数据供应链的各个环节都是标准化的。
2. 数据中台特点
数据中心的特点:以标准、安全、可靠、统一、共享、解耦、面向服务的方式支持前端数据的应用。
3. 数据中台作用(阿里数据中间站逻辑架构图)
(数据中心产品功能图)
数据中心通过对企业内外多源异构数据的收集、构建、管理、分析和应用,对内优化数据的管理,提高商业价值,对外与外部数据合作,释放商业价值,使之成为企业数据资产管理的中心。数据中心建立后,将形成数据API服务,为企业和客户提供高效的数据服务。
数据中心在企业的数字化转型和可持续发展中发挥着至关重要的作用。数据中的平台因解耦而生,在企业数据中搭建平台最大的意义就是应用与数据的解耦,让企业可以无限制的按需搭建满足业务需求的数据应用。
构建开放、灵活、可扩展的企业级统一数据管理与分析平台,按需链接企业内外部数据,打破数据的系统边界。
通过使用大数据智能分析、数据可视化等技术,实现了数据共享、日报表自动生成、快速智能分析,满足了企业各层级间数据分析的应用需求。
深挖数据价值,帮助企业实现数字化转型。实现了目录、模型、标准、问责、安全、可视化、共享等数据的管理,实现了数据的集中存储、处理、分类和管理,建立了大数据分析工具库和算法服务库,实现了报表生成自动化、数据分析敏捷化和数据挖掘可视化,实现了数据质量评估和落地管理流程。
四、数据湖1. 数据湖概念
数据湖的起源:数据湖的起源要追溯到2010年10月,由Pentaho的创始人兼CTO詹姆斯·迪克森(James Dixon)提出。按照当时的历史背景,他的目的其实是为了推广自己的产品Pentaho。当时要解决的核心问题是传统数据仓库报表分析面临的两个问题:
只使用部分属性,这些数据只能回答预先定义好(pre-determined)的问题。数据被聚合了,最低层级的细节丢失了,能回答的问题被限制了。
我们目前讨论的数据湖已经远远超过了詹姆斯·狄克逊定义的数据湖,厂商之间对数据湖的定义也更加不同。
1)AWS
数据湖是一个集中式存储库,允许您存储任何规模的所有结构化和非结构化数据。您可以按原样存储您的数据,而不必首先结构化数据,并运行不同类型的分析-从仪表板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。
“数据湖是一个集中式存储库,允许您存储任何规模的所有结构化和非结构化数据。您可以按原样存储数据(无需首先对其进行结构化),并运行不同类型的分析——从仪表盘和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。”
2)微软
Azure Data Lake包括所有必要的功能,使开发人员、数据科学家和分析师能够轻松存储任何大小、形状和速度的数据,并跨平台和语言进行所有类型的处理和分析。它消除了接收和存储所有数据的复杂性,同时加快了批量、流式和交互式分析的启动和运行。
“Azure的数据湖包括所有使开发人员、数据科学家和分析师更容易存储和处理数据的功能。这些功能使用户能够存储任何规模、任何类型和任何生成速度的数据,并可以跨平台和语言进行所有类型的分析和处理。数据湖可以帮助用户加速数据的应用,同时消除数据收集和存储的复杂性,还可以支持批处理、流式计算、交互式分析等。”
3)阿里云
“数据湖是一个统一的存储池,可以连接各种数据输入方式。您可以存储任何规模的结构化、半结构化和非结构化数据。数据湖可以与各种计算和分析平台无缝连接。根据不同的业务场景,可以选择相应的计算引擎对数据湖中存储的数据进行处理和分析,从而打破孤岛,挖掘商业价值。”
2. 数据湖内容
数据湖包括结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF等)。)和来自关系数据库的二进制数据(如图像、音频和视频)。
3. 数据湖的特点统一的数据存储,存放原始的数据。支持任意结构的数据存储,包括结构化、半结构化、非结构化。支持多种计算分析,适用多种应用场景。支持任意规模的数据存储与计算能力。目标都是为了更好,更快的发现数据价值。4. 数据湖能够解决的问题
1)数据湖的总体架构
底层是分布式文件系统;
第二层是数据加速层。数据湖体系结构是存储和计算完全分离的体系结构。如果所有的数据访问都是远程读取文件系统上的数据,那么性能和成本都非常高。如果能够在本地计算节点缓存一些频繁访问的热点数据,自然会实现冷热分离,一方面可以获得良好的本地读取性能,另一方面也可以节省远程访问的带宽。
第三层是表格式层,主要是将一批数据文件封装成具有业务意义的表,并提供ACID、snapshot、schema、partition等表级语义。
顶层是不同计算场景的计算引擎。一般有Spark,Flink,Hive,Presto,Hive MR等。这些计算引擎可以同时访问同一个数据湖的表。
2)数据湖能解决什么样的问题?
数据零散分散,形成数据孤岛,无法通过数据组合发现更多价值。
在这方面,其实数据湖和数据仓库是类似的,只是因为它的定义支持半结构化和非结构化数据的管理,所以有所不同。传统的数据仓库只能解决结构化数据的统一管理。
在这个万物互联的时代,数据来源多种多样。随着应用场景的不同,输出的数据格式也越来越丰富,不能再局限于结构化数据。如何统一存储这些数据是一个亟待解决的问题。
3)存储成本
数据库或数据仓库的存储受实现原理和硬件条件的限制,导致存储海量数据的成本很高。为了解决这类问题,出现了HDFS/对象存储等技术方案。如果将这种低存储成本的技术架构用在数据湖场景中,将会为企业大大节约成本。结合生命周期管理的能力,湖中的数据可以更好的分层(冷热存储在不同的存储介质:HDD、SSD、MEM),不用担心是保留数据还是删除数据来节省成本。
4)SQL已经不能满足的分析需求。
越来越多的数据种类意味着越来越多的分析方法,传统的SQL方法已经不能满足分析的需要。如何通过各种语言定制贴近自己业务的代码,如何通过机器学习挖掘更多的数据价值。
5)存储/计算可扩展性不足
在PB规模的海量数据下,传统的数据库已经不能满足扩展的要求,或者由于技术架构的原因,扩展成本极高。在这种情况下,通过数据湖架构下的扩展技术能力,实现成本为零,硬件成本可控。商业模式是不确定的,无法提前建模。
传统的数据库和数据仓库都是写模式,模式信息需要预先定义。在数据湖场景中,您可以先保存数据,然后在以后分析数据时发现模式,即读取模式。
五、对比1. 数据仓库 VS 数据中台 VS 数据湖2.数据仓库VS数据平台因为狭义的数据平台是由于数据仓库的历史特点,其中存储的数据大部分是结构化数据,而数据平台的出现解决了数据仓库无法处理非结构化数据,报表开发周期长的问题,所以将数据仓库和数据平台(狭义)分开比较。
本质区别:技术架构和数据容量的不同。
通过上面的讨论,我们发现数据平台和数据湖似乎有很多相似之处,两者的区别要从数据处理的角度来分析。数据湖更注重原始数据的存储,而数据平台和数据仓库一样,需要对原始数据进行清洗和转换,然后按照统一的标准和规范进行存储。
六、总结
根据上述数据平台、数据仓库、数据湖和数据中心的概念,我们做如下总结:
数据中台、数据仓库和数据湖没有直接的关系;数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;数据仓库是数据驱动业务的逻辑概念,用于支持管理决策分析,为业务提供服务的主要方式是报表;数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;数据湖是企业级的技术逻辑概念,体现企业级数据湖架构加速数据向业务价值转化的能力,为业务提供服务的主要方式是原始数据;数据中台、数据湖距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层;
本文由@Z先生发表于产品原创。每个人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。
本文仅代表作者本人,大家都是产品经理。平台只提供信息存储空服务。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
本文来自网络,若有侵权,请联系删除,作者:小熊王子,如若转载,请注明出处:https://www.taoqixiong.com/28594.html