首页 » 2016 » 5月 » 15

原 Hadoop学习笔记(5)--MapReduce计算模型

2016年5月15日　zuobin

暂无评论　3,544次浏览

执行MapReduce任务的有两个角色：一个是JobTracker，另一个是TaskTracker。每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段： Map阶段和Reduce阶段，即对应Map函数和Reduce函数 Map … 阅读全文

原 Hadoop学习笔记(4)--安装

2016年5月15日　zuobin

暂无评论　3,883次浏览

安装模式环境准备 su # 上述提到的以 root 用户登录 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop visudo 添加hadoop ALL=(ALL) ALL #安装java,s … 阅读全文

2016年5月15日　zuobin

暂无评论　4,244次浏览

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。根据管理层次（1）元数据存储 Hive将元数据存储在RDBMS中，有三种模式可以连 … 阅读全文

2016年5月15日　zuobin

暂无评论　3,527次浏览

HBase是一个类似Bigtable的分布式数据库，大部分特性和Bigtable一样; 是一个稀疏的、长期存储的（存在硬盘上）、多维度的排序映射表; 表的索引是行关键字、列关键字和时间戳; 表中的每个值是一个纯字符数组，数据都是字符串，没有类型; 用户在表格中 … 阅读全文

2016年5月15日　zuobin

暂无评论　3,683次浏览

HDFS的特性对于整个集群有单一的命名空间；具有数据一致性，都适合一次写入多次读取的模型，客户端在文件没有被成功创建之前是无法看到文件存在的；文件会被分割成多个文件块，每个文件块被分配存储到数据节点上，而且会根据配置由复制文件块来保证数据的安全性。 HD … 阅读全文