原 Hive,Pig,Hbase总结
Hive Hive用SQL的方式去描述MapReduce。 会写SQL基本就能够写出MapReduce出来了,解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层,面向行存储。 ,对存储在Hadoop群上的数据提供类S … 阅读全文
Hive Hive用SQL的方式去描述MapReduce。 会写SQL基本就能够写出MapReduce出来了,解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层,面向行存储。 ,对存储在Hadoop群上的数据提供类S … 阅读全文
以下使用PIG来做一个最简单的统计。 统计网站服务某一个nginx日志,在一天之内,存在哪些频繁访问的IP。 以前曾使用awk来做过类似的统计,具体可参看以前的文章。 首先,nginx日志格式如下: 121.42.0.88 - - [10/May/2016:0 … 阅读全文
安装配置Pig mkdir -p /opt/hadoop/pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.16.0/pig-0.16.0.tar.gz tar -zxvf pig-0.16.0.tar.gz … 阅读全文
进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令), 认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文
安装配置 Hbase需要zookeeper的支持,本博客有专门写zookeeper安装教程的可参看。 单机安装的话可以用Hbase自带的,伪分布安装的话自己安装一个Zookeeper即可。 下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
以下都是Hive 2.0.1的安装指南 下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文
MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文
任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。 对HDFS文件系统,scheme是hdfs,对 … 阅读全文