2021-02-24 10:55:45

百香果nlp(nlp.100xg.cn):欢迎提交人工智能(AI)、自然语言处理(NLP)、大数据(big data)、机器学习(ML)、数据挖掘(DM)、知识图谱、智能硬件、工业互联网、工业机器人、云计算、5G网络、物联网、边缘计算(MEC)、机器人流程自动化(RPA)、前沿科技相关的公司、术语、API接口、项目、生成器、解决方案、开放平台产品、ai算法、ai模型、源码、sdk\模块、软件系统、在线/离线工具等领域词条。快速提交,并将在这里展现。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。

介绍

数据仓库基本上是一个专门用于存储,过滤,检索和分析非常大的数据集合的数据库(或一组数据库)。数据仓库是基于OLAP(联机分析处理)并专为分析而设计的。现代的方法是将来自所有数据库(和数据流)的数据放入单一数据仓库中。这允许您一次执行可视化和分析 - 同时对大部分数据执行可视化和分析,而不是在较小的块上多次执行 - 而无需合并或协调结果。

数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。换句话说,在数据仓库中找到的任何数据都将与数据仓库中的所有其他数据密切相关。此外,仓库中的数据往往是高度标准化和非常“干净”的。

数据仓库定义

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

1988年,为解决企业的数据集成问题,IBM的两位研究员创造性地提出了一个新的术语:数据仓库(Data Warehouse)。到了1992年,后来被誉为“数据仓库之父”的比尔·恩门给出了数据仓库的定义,二十多年后的今天他的定义依然没有被时代淘汰。

如何理解

对于数据仓库的概念我们可以从两个层次予以理解:
  • 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;

  • 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

简单的理解,其实就是为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。

原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库

自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。这个决策支持系统,其实就是我们现在说的商务智能即BI。可以这么说,数据仓库为OLAP解决了数据来源问题,数据仓库和OLAP互相促进发展,进一步驱动了商务智能的成熟。

数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。

优点缺点

数据仓库用于汇总来自许多不同数据源的数据,并将这些数据用于可视化,报告和分析。专门用于分析。

优点:更好地支持报告,数据分析大数据,数据检索和可视化,旨在存储来自任意数量数据源的数据;

缺点:与单一数据库相比,成本高昂,摄入前准备/配置数据(对于云数据仓库),对访问和安全配置的控制较少。

特点

相对于数据库,数据仓库有以下特点

1、面向主题

数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。

2、集成性

数据仓库会将不同源数据库中的数据汇总到一起。

3、历史性

较之操作型数据库,数据仓库的数据是为企业数据分析而建立,所以数据被加载后一般情况下将被长期保留,前者通常保存几个月,后者可能几年甚至几十年。

4、时变性

是指数据仓库包含来自其时间范围不同时间段的数据快照,有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告。

5、稳定性

数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。但是需定期加载和刷新数据。

应用场景

一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。

企业为什么搭建数据仓库

简单来说,就是为了有效分析数据 。

你说直接从业务数据库中取数据来做分析?

也不是不可以,就是业务系统多,业务复杂时,会发现结构复杂,数据脏乱,难以理解,缺少历史,大规模查询缓慢这些问题。

业务到一定规模,大家需要面临的问题越来越复杂和深入,数据需求不再只是昨日的营收,上月的uv这些,而是“28到45岁女性在社区的活跃度与公司策划的专题内容活动的关系”这类精细化的分析,而从数据库是很难取出这类数据的。

毕竟业务型数据库是为了支撑业务设计的,不是为了查询和分析数据。

解决方案

对于数据仓库,选择内部部署和基于云的解决方案。

内部部署的数据仓库(例如Oracle,IBM,Teradata等)通常擅长灵活性和安全性。在托管服务器或直接访问服务器时,您可以更好地控制管理和配置。

基于云的数据仓库(如Amazon Redshift,Google BigQuery,Snowflake等)提供更高的可扩展性和更低的入门和维护成本。例如,只有在需要时才能启动(并支付)额外的计算能力和存储空间。此外,资源始终可用,因此您可以快速启动并运行,而无需等待购买,安装和联机的新硬件或容量。我们在“选择正确的云数据仓库指南”中讨论如何 选择数据仓库。


计算机语言:Java、JavaScript、PHP、Python、C#、Android、Objective-C、Go语言、c/C++、NodeJS、Swift、R语言。

       木链科技基于工业互联网的工控安全解决方案怎么样
       蘑菇物联工业设备智能控制系统怎么样
       橙子自动化精密贴装和微针测试工艺技术怎么样
       雪浪云工业互联网平台 雪浪OS的工业大脑方案怎么样
       源清慧虹科技智能化桥梁结构健康监测方案怎么样
       华清科盛(TBL)基于工业物联网技术的智慧物流方案怎么样
       寄云科技工业互联网物联网NeuSeer平台怎么样
       力太科技MIOT工业物联网制造物联系统平台怎么样
       长扬科技物联网工业互联网安全产品怎么样
       三一重工旗下的树根互联物联网工业互联网平台怎么样
       2026年全球IIoT工业物联网市场发展前景怎么样
       工业物联网的优势和挑战有哪些
       Siemens西门子的工业物联网平台怎么样
       SAP公司的S/4HANAERP和Leonardo物联网工具怎么样
       Samsung三星ARTIK智能物联网软件平台怎么样
       Qualcomm高通的物联网芯片怎么样
       美国物联网新创公司Particle的物联网平台怎么样
       Microsoft微软的Azure云计算物联网解决方案怎么样
       Intel英特尔的物联网业务怎么样
       IBM沃森Watson物联网中心怎么样
       Huawei华为提供的移动物联网解决方案怎么样
       Hitachi日立公司如何通过工业和存储技术参与物联网
       Google谷歌物联网生态系统版包括哪些
       GE的工业物联网IIoT Predix平台怎么样
       Fujitsu富士通物联网IoT平台怎么样
       Dell戴尔的物联网产品和解决方案怎么样
       Cisco思科的车联网和窄带物联网平台怎么样
       Bosch博世基于云技术的物联网套件软件平台怎么样
       Ayla敏捷型物联网平台怎么样
       AT&T公司的物联网技术怎么样