Hadoop生态圈以及各国片的简介

1.Hadoop是什么?

抱这多少个数量的分布式存储和计量平台

HDFS: Hadoop Distributed File System分布式文件系统

MapReduce:并行总结框架

釜底抽薪之题目:

HDFS: 海量数据的积存

MapReduce:海量数据的分析

2.Hadoop生态圈

Java 1

①HBase

Google Bigtable的开源实现

列式数据库

不过集群化

可以shell、web、api等强措施访

称高读写(insert)的观

HQL查询语言

Java,NoSQL的天下第一代表出品

Java 2

②Hive

数据仓库工具。能够拿Hadoop下之原有结构化数据化Hive中的申

帮助一种植和SQL几乎完全相同的言语HiveQL。除了不补助改进、索引和工作,几乎SQL的另外特征都能支撑

可视作是于SQL到Map-Reduce的映射器

提供shell、JDBC/ODBC、Thrift、Web等接口

Java 3

③Zookeeper

Google Chubby的开源实现

用于协调分布式系统上之各样服务。例如确认音信是否准确到达,避免单点失效,处理负荷均衡等

采用场景:Hbase,实现Namenode自动切换

办事原理:领导者,跟随者以及选举过程

Java 4

④Sqoop

用以在Hadoop和涉项目数据库中互换数据

经JDBC接口连抱关系项目数据库

Java 5

⑤Chukwa

搭在Hadoop之上的数据搜集和分析框架

根本开展日志采集与分析

透过设置于搜集节点的“代理”采集最老的日记数据

代办将数据发给收集器

收集器定时以数据形容入Hadoop集群

指定定时启动的Map-Reduce作业队数据举行加工处理同剖析

Java 6

⑥Pig

Hadoop客户端

动用类似于SQL的面向数据流的言语Pig Latin

Pig Latin可以就排序,过滤,求与,聚组,关联等操作,可以帮助从定义函数

Pig自动把Pig
Latin映射为Map-Reduce作业上盛传集群运行,裁减用户编写Java程序的烦心

Java 7

⑦Avro

数连串化工具,由Hadoop的奠基者Doug Cutting主持开发

用于协理大批量数据交换的施用。补助二前行制系列化形式,可以便捷,急迅地拍卖大量数据

动态语言友好,Avro提供的建制使动态语言能够便宜地拍卖 Avro数据。

Thrift接口

Java 8

⑧Cassandra 

NoSQL,分布式的Key-Value型数据库,由非死不可贡献

以及Hbase类似,也是借鉴Google Bigtable的思辨体系

止生各类写,没有轻易写的统筹,满意大负荷情况的性能需求

Java 9

 

3.Hadoop生态圈流程图

Java 10

 

相关文章