首页 » 大数据 ( 第 2 页 )

Hadoop学习笔记(9)--Yarn

 

MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文

Hadoop学习笔记(8)--MapReduce工作机制

 

任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文

Hadoop学习笔记(3)--Hive

 

Hive是建立在Hadoop上的数据仓库基础构架。 它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储 、查询和分析存储在Hadoop中的大规模数据的机制。 根据管理层次 (1)元数据存储 Hive将元数据存储在RDBMS中,有三种模式可以连 … 阅读全文

Hadoop学习笔记(2)--Hbase

 

HBase是一个类似Bigtable的分布式数据库,大部分特性和Bigtable一样; 是一个稀疏的、长期存储的(存在硬盘上)、多维度的排序映射表; 表的索引是行关键字、列关键字和时间戳; 表中的每个值是一个纯字符数组,数据都是字符串,没有类型; 用户在表格中 … 阅读全文