大数据存储技术概述总结(通用3篇)

时间：2025-06-15 14:38:43 作者：admin

大数据存储技术概述总结第1篇

各式各样的数据，经由各种上层应用进行了采集和存储。但我们一提到大数据，自然想到的就是大数据分析。大数据分析的第一步就是大数据仓库建设。

大数据仓库建设，必要的工作就是ETL（抽取、转换、导入）。抽取，这步就又细分为：数据抽取、数据清洗、数据校验。在转换这步，我们也需要关注数据安全脱敏，也就是说，进入大数据仓库的数据需要分级。

不过大家一般建设大数据仓库，首先做的第一个应用工作就是：主数据治理。所以这个第一期，需要做：主数据标准制定、主数据清洗与校验、主数据转换（拆分合并）、主数据复制分发、主数据访问OpenAPI。

数据复制分发，我们可以使用消息队列和调度服务来工作。消息队列如Kafka、ZeroMQ、ActiveMQ、RabbitMQ。调度服务如ZooKeeper。

数据抽取传输开源项目，我能看到的Sqoop on Hadoop。可能很多数据都是直接被Spark、Storm、Presto、Hbase处理了。

大数据存储技术概述总结第2篇

数据是个很泛的概念，但是我们脑海里第一反应的就是关系型数据库和EXCEL这种二维表是数据。

而现在数据各种各样特色，有文档、有图片、有流式的音频视频、有日志数据、有IM消息数据、有索引数据、有社交应用的网状关系数据、有地图数据。他们对存储访问都有不同的要求，因而NoSQL兴起了。

如KV型，先后出现了Memcached、Redis。如文档型，出现了CouchDB、MongoDB。如日志数据，也出现了Facebook Scribe、Flume、Logstash。

即使在传统关系型数据领域，由于大数据规模也出现了真正的分布式关系型数据库，如GreenPlum、TiDB、OceanBase

为了多维分析，也出现了专门的列式数据库，如HBase。

大数据存储技术概述总结第3篇

1、大数据搜索：Lucene、Solr、ElasticSearch。ElasticSearch是新推出的比Solr在大规模数据情况下更好的开源解决方案。

2、大数据查询：这里有Hive/Impala，Hive的作用是你可以把结构化数据导入到Hadoop中然后用简单SQL来做查询。你可以把Impala看做是性能更快的Hive，因为Impala不强依赖MapReduce。而Facebook开源的Presto更是能查询多种数据源，而且一条Presto查询可以将多个数据源的数据进行合并。

3、大数据分析：咱们要提到去年新晋顶级Apache项目的Kylin。它创始于ebay，2014年进入apache孵化项目。Kylin不仅仅能做SQL查询，而且能做Cube多维分析。

4、大数据挖掘：这个领域包含精准推荐、机器学习/深度学习/神经网络、人工智能。自从AlphaGo火了以后，机器学习再度火热。Google开源了最新机器学习系统TensorFlow，微软亚洲研究院开源了分布式机器学习工具包-DMTK，雅虎也开源了Caffe On Spark 深度学习。Mahout是Apache的一个开源项目，提供一些机器学习领域经典算法的实现，包括聚类、分类、推荐过滤、频繁子项挖掘。

大数据存储技术概述总结(通用3篇)

大数据存储技术概述总结 第1篇

大数据存储技术概述总结 第2篇

大数据存储技术概述总结 第3篇

大数据存储技术概述总结第1篇

大数据存储技术概述总结第2篇

大数据存储技术概述总结第3篇