原 Hadoop学习笔记(11)--Hive基础使用
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
以下都是Hive 2.0.1的安装指南 下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文
MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文
Leiningen教程 英文原文 原文链接 Leiningen是什么 Leiningen是一个用于自动化(构建)clojure项目的工具,使你免于心急火燎的窘境。 它处理各种各样项目相关的任务,可以做到: 创建新项目 管理你的项目的依赖关系 运行测试 运行一个 … 阅读全文
任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。 对HDFS文件系统,scheme是hdfs,对 … 阅读全文
Hadoop参数API org.apache.hadoop.conf:定义了系统参数的配置文件处理API; org.apache.hadoop.fs:定义了抽象的文件系统API; org.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS … 阅读全文
执行MapReduce任务的有两个角色: 一个是JobTracker, 另一个是TaskTracker。 每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段: Map阶段和Reduce阶段,即对应Map函数和Reduce函数 Map … 阅读全文
安装模式 环境准备 su # 上述提到的以 root 用户登录 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop visudo 添加hadoop ALL=(ALL) ALL #安装java,s … 阅读全文
Hive是建立在Hadoop上的数据仓库基础构架。 它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储 、查询和分析存储在Hadoop中的大规模数据的机制。 根据管理层次 (1)元数据存储 Hive将元数据存储在RDBMS中,有三种模式可以连 … 阅读全文