原 Hive,Pig,Hbase总结

2016年6月20日　zuobin

暂无评论　5,916次浏览

Hive Hive用SQL的方式去描述MapReduce。会写SQL基本就能够写出MapReduce出来了，解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层，面向行存储。，对存储在Hadoop群上的数据提供类S … 阅读全文

原 Hadoop学习笔记(14)--Pig使用

2016年6月18日　zuobin

暂无评论　5,369次浏览

以下使用PIG来做一个最简单的统计。统计网站服务某一个nginx日志，在一天之内，存在哪些频繁访问的IP。以前曾使用awk来做过类似的统计，具体可参看以前的文章。首先，nginx日志格式如下： 121.42.0.88 - - [10/May/2016:0 … 阅读全文

2016年6月17日　zuobin

暂无评论　5,213次浏览

安装配置Pig mkdir -p /opt/hadoop/pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.16.0/pig-0.16.0.tar.gz tar -zxvf pig-0.16.0.tar.gz … 阅读全文

2016年6月10日　zuobin

暂无评论　4,005次浏览

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文

2016年6月8日　zuobin

暂无评论　5,600次浏览

安装配置 Hbase需要zookeeper的支持，本博客有专门写zookeeper安装教程的可参看。单机安装的话可以用Hbase自带的，伪分布安装的话自己安装一个Zookeeper即可。下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文

2016年5月29日　zuobin

暂无评论　5,981次浏览

创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文

2016年5月29日　zuobin

暂无评论　4,040次浏览

以下都是Hive 2.0.1的安装指南下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文

2016年5月27日　zuobin

暂无评论　3,824次浏览

MapReduce V1 版本中，JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配，管理所有的心跳信息等。容易造成作业分配不均，作业延迟严重等等问题。 MapRed … 阅读全文

2016年5月22日　zuobin

1条评论　4,721次浏览

任务执行流程代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成，每个任务的执行过程中，又包含输入准备→任务执行→输出结果。各角色分工 1.客户端（Client）：编写MapReduce代码，配置作业 … 阅读全文

2016年5月20日　zuobin

暂无评论　3,909次浏览

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对 … 阅读全文