Hadoop的概念:
hadoop是一个开源的、可靠的、可扩展的分布式计算框架
- 允许使用简单的编程模型跨计算机集群分布式处理大型数据集;
- 可扩展:从单个服务器扩展到数千台计算机,每台计算机都提供本地计算机存储
- 可靠的:不依靠硬件来提供高可用性,而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务。
Hadoop可以做什么:
- 搭建大型数据仓库
- PB级数据的存储、处理、分析、统计等业务
- 搜索引擎
- 日志分析
- 数据挖掘
- 商业智能
Hadoop发展史:
1、2003-2004年Google发表了三篇论文
GFS: Google的分布式文件系统Google File System
MapReduce: Simplified Data Processing on Large Clusters
BigTable:一个大型的分布式数据库
2、2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了GFS和MapReduce机制).
3、2006年4月-标准排序(10 GB每个节点在188个节点上运行47.9个小时。
4、2008年4月-赢得世界最快1TB数据排序在900个节点上用时209秒。
5、2008年-淘宝开始投入研究基于Hadoop的系统-云梯。云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。
6、2009年3月-Cloudera推出CDH (Cloudera’s Dsitribution lncluding Apache Hadoop)。
7、2009年5月- Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
8、2009年7月- Hadoop Core项目更名为Hadoop Common;
9、2009年7月-MapReduce和Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。
10、2012年11月一Apache Hadoop 1.0 Available。
11、2018年4月一Apache Hadoop 3.1 Available。
12、搜索引擎时代
有保存大量网页的需求(单机集群)
词频统计word count PageRank。
13、数据仓库时代
FaceBook推出Hive。
曾经进行数分析与统计时,仅限于数据库,受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析(决策数据,财务相关)
Hive可以在Hadoop上运行SQL操作,可以把运行日志,应用采集数据,数据库数据放到一起分析。
14、数据挖掘时代
啤酒尿不湿
关联分析
用户画像/物品画像。
15、机器学习时代广义大数据
大数据提高数据存储能力,为机器学习提供燃料
alpha go
Siri 小爱 天猫精灵