2021-02-24 10:55:45

百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、产品、ai算法、ai模型、软件、工具等领域词条。快速提交,并将在这里展现。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。

介绍

数据仓库基本上是一个专门用于存储,过滤,检索和分析非常大的数据集合的数据库(或一组数据库)。数据仓库是基于OLAP(联机分析处理)并专为分析而设计的。现代的方法是将来自所有数据库(和数据流)的数据放入单一数据仓库中。这允许您一次执行可视化和分析 - 同时对大部分数据执行可视化和分析,而不是在较小的块上多次执行 - 而无需合并或协调结果。

数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。换句话说,在数据仓库中找到的任何数据都将与数据仓库中的所有其他数据密切相关。此外,仓库中的数据往往是高度标准化和非常“干净”的。

数据仓库定义

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

1988年,为解决企业的数据集成问题,IBM的两位研究员创造性地提出了一个新的术语:数据仓库(Data Warehouse)。到了1992年,后来被誉为“数据仓库之父”的比尔·恩门给出了数据仓库的定义,二十多年后的今天他的定义依然没有被时代淘汰。

如何理解

对于数据仓库的概念我们可以从两个层次予以理解:
  • 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;

  • 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

简单的理解,其实就是为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。

原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库

自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。这个决策支持系统,其实就是我们现在说的商务智能即BI。可以这么说,数据仓库为OLAP解决了数据来源问题,数据仓库和OLAP互相促进发展,进一步驱动了商务智能的成熟。

数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。

优点缺点

数据仓库用于汇总来自许多不同数据源的数据,并将这些数据用于可视化,报告和分析。专门用于分析。

优点:更好地支持报告,数据分析大数据,数据检索和可视化,旨在存储来自任意数量数据源的数据;

缺点:与单一数据库相比,成本高昂,摄入前准备/配置数据(对于云数据仓库),对访问和安全配置的控制较少。

特点

相对于数据库,数据仓库有以下特点

1、面向主题

数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。

2、集成性

数据仓库会将不同源数据库中的数据汇总到一起。

3、历史性

较之操作型数据库,数据仓库的数据是为企业数据分析而建立,所以数据被加载后一般情况下将被长期保留,前者通常保存几个月,后者可能几年甚至几十年。

4、时变性

是指数据仓库包含来自其时间范围不同时间段的数据快照,有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告。

5、稳定性

数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。但是需定期加载和刷新数据。

应用场景

一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。

企业为什么搭建数据仓库

简单来说,就是为了有效分析数据 。

你说直接从业务数据库中取数据来做分析?

也不是不可以,就是业务系统多,业务复杂时,会发现结构复杂,数据脏乱,难以理解,缺少历史,大规模查询缓慢这些问题。

业务到一定规模,大家需要面临的问题越来越复杂和深入,数据需求不再只是昨日的营收,上月的uv这些,而是“28到45岁女性在社区的活跃度与公司策划的专题内容活动的关系”这类精细化的分析,而从数据库是很难取出这类数据的。

毕竟业务型数据库是为了支撑业务设计的,不是为了查询和分析数据。

解决方案

对于数据仓库,选择内部部署和基于云的解决方案。

内部部署的数据仓库(例如Oracle,IBM,Teradata等)通常擅长灵活性和安全性。在托管服务器或直接访问服务器时,您可以更好地控制管理和配置。

基于云的数据仓库(如Amazon Redshift,Google BigQuery,Snowflake等)提供更高的可扩展性和更低的入门和维护成本。例如,只有在需要时才能启动(并支付)额外的计算能力和存储空间。此外,资源始终可用,因此您可以快速启动并运行,而无需等待购买,安装和联机的新硬件或容量。我们在“选择正确的云数据仓库指南”中讨论如何 选择数据仓库。


计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       乐普医疗
       安德医智
       联影医疗
       推想医疗
       AdisInsight
       特斯拉
       北京环球影城
       RPA智能机器人
       大疆无人机
       网络产品安全漏洞管理规定
       数字资产保护(法律)
       电子驾驶证(机动车驾驶证)
       动态图构建
       静态图构建
       分层式图池化