hadoop是什么？hadoop是做什么的

root

知识库

发布于：2025-03-20 14:28:33

Hadoop的概念：

hadoop是一个开源的、可靠的、可扩展的分布式计算框架

Hadoop可以做什么：

Hadoop发展史：

1、2003-2004年Google发表了三篇论文

GFS: Google的分布式文件系统Google File System

MapReduce: Simplified Data Processing on Large Clusters

BigTable:一个大型的分布式数据库

2、2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了GFS和MapReduce机制).

3、2006年4月-标准排序(10 GB每个节点在188个节点上运行47.9个小时。

4、2008年4月-赢得世界最快1TB数据排序在900个节点上用时209秒。

5、2008年-淘宝开始投入研究基于Hadoop的系统-云梯。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。

6、2009年3月-Cloudera推出CDH (Clouderarsquo;s Dsitribution lncluding Apache Hadoop)。

7、2009年5月- Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

8、2009年7月- Hadoop Core项目更名为Hadoop Common;

9、2009年7月-MapReduce和Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。

10、2012年11月一Apache Hadoop 1.0 Available。

11、2018年4月一Apache Hadoop 3.1 Available。

12、搜索引擎时代

有保存大量网页的需求(单机集群)

词频统计word count PageRank。

13、数据仓库时代

FaceBook推出Hive。

曾经进行数分析与统计时,仅限于数据库,受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析(决策数据,财务相关)

Hive可以在Hadoop上运行SQL操作,可以把运行日志,应用采集数据,数据库数据放到一起分析。

14、数据挖掘时代

啤酒尿不湿

关联分析

用户画像/物品画像。

15、机器学习时代广义大数据

大数据提高数据存储能力,为机器学习提供燃料

alpha go

Siri小爱天猫精灵