原 Hadoop学习笔记(11)--Hive基础使用
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
以下都是Hive 2.0.1的安装指南 下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文
MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文
任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。 对HDFS文件系统,scheme是hdfs,对 … 阅读全文
Hadoop参数API org.apache.hadoop.conf:定义了系统参数的配置文件处理API; org.apache.hadoop.fs:定义了抽象的文件系统API; org.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS … 阅读全文
执行MapReduce任务的有两个角色: 一个是JobTracker, 另一个是TaskTracker。 每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段: Map阶段和Reduce阶段,即对应Map函数和Reduce函数 Map … 阅读全文
安装模式 环境准备 su # 上述提到的以 root 用户登录 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop visudo 添加hadoop ALL=(ALL) ALL #安装java,s … 阅读全文
Hive是建立在Hadoop上的数据仓库基础构架。 它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储 、查询和分析存储在Hadoop中的大规模数据的机制。 根据管理层次 (1)元数据存储 Hive将元数据存储在RDBMS中,有三种模式可以连 … 阅读全文
HBase是一个类似Bigtable的分布式数据库,大部分特性和Bigtable一样; 是一个稀疏的、长期存储的(存在硬盘上)、多维度的排序映射表; 表的索引是行关键字、列关键字和时间戳; 表中的每个值是一个纯字符数组,数据都是字符串,没有类型; 用户在表格中 … 阅读全文