Hadoop的概念:

hadoop是一个开源的、可靠的、可扩展的分布式计算框架

  1. 允许使用简单的编程模型跨计算机集群分布式处理大型数据集;
  2. 可扩展:从单个服务器扩展到数千台计算机,每台计算机都提供本地计算机存储
  3. 可靠的:不依靠硬件来提供高可用性,而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务。

Hadoop可以做什么:

  • 搭建大型数据仓库
  • PB级数据的存储、处理、分析、统计等业务
  • 搜索引擎
  • 日志分析
  • 数据挖掘
  • 商业智能

Hadoop发展史:

1、2003-2004年Google发表了三篇论文

GFS: Google的分布式文件系统Google File System

MapReduce: Simplified Data Processing on Large Clusters

BigTable:一个大型的分布式数据库

2、2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了GFS和MapReduce机制).

3、2006年4月-标准排序(10 GB每个节点在188个节点上运行47.9个小时。

4、2008年4月-赢得世界最快1TB数据排序在900个节点上用时209秒。

5、2008年-淘宝开始投入研究基于Hadoop的系统-云梯。云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。

6、2009年3月-Cloudera推出CDH (Cloudera’s Dsitribution lncluding Apache Hadoop)。

7、2009年5月- Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

8、2009年7月- Hadoop Core项目更名为Hadoop Common;

9、2009年7月-MapReduce和Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。

10、2012年11月一Apache Hadoop 1.0 Available。

11、2018年4月一Apache Hadoop 3.1 Available。

12、搜索引擎时代

有保存大量网页的需求(单机集群)

词频统计word count PageRank。

13、数据仓库时代

FaceBook推出Hive。

曾经进行数分析与统计时,仅限于数据库,受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析(决策数据,财务相关)

Hive可以在Hadoop上运行SQL操作,可以把运行日志,应用采集数据,数据库数据放到一起分析。

14、数据挖掘时代

啤酒尿不湿

关联分析

用户画像/物品画像。

15、机器学习时代广义大数据

大数据提高数据存储能力,为机器学习提供燃料

alpha go

Siri 小爱 天猫精灵

评论
头像
验证码:
相关推荐

七年之痒是什么意思

520送什么给女友

第一次见女方父母送什么好




如果未经特殊说明,本站内容皆为原创,转载内容如果侵犯了您的权益,如有侵权请联系管理员删除
联系QQ:2380712278

备案号:皖ICP备19012824号