首页 » 大数据 » Hadoop

Hive,Pig,Hbase总结

 

Hive Hive用SQL的方式去描述MapReduce。 会写SQL基本就能够写出MapReduce出来了,解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层,面向行存储。 ,对存储在Hadoop群上的数据提供类S … 阅读全文

Hadoop学习笔记(14)--Pig使用

 

以下使用PIG来做一个最简单的统计。 统计网站服务某一个nginx日志,在一天之内,存在哪些频繁访问的IP。 以前曾使用awk来做过类似的统计,具体可参看以前的文章。 首先,nginx日志格式如下: 121.42.0.88 - - [10/May/2016:0 … 阅读全文

Hbase常用命令

 

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令), 认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文

Hadoop学习笔记(12)--Hbase安装

 

安装配置 Hbase需要zookeeper的支持,本博客有专门写zookeeper安装教程的可参看。 单机安装的话可以用Hbase自带的,伪分布安装的话自己安装一个Zookeeper即可。 下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文

Hadoop学习笔记(9)--Yarn

 

MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文

Hadoop学习笔记(8)--MapReduce工作机制

 

任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文