转 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
Hive Hive用SQL的方式去描述MapReduce。 会写SQL基本就能够写出MapReduce出来了,解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层,面向行存储。 ,对存储在Hadoop群上的数据提供类S … 阅读全文
以下使用PIG来做一个最简单的统计。 统计网站服务某一个nginx日志,在一天之内,存在哪些频繁访问的IP。 以前曾使用awk来做过类似的统计,具体可参看以前的文章。 首先,nginx日志格式如下: 121.42.0.88 - - [10/May/2016:0 … 阅读全文
安装配置Pig mkdir -p /opt/hadoop/pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.16.0/pig-0.16.0.tar.gz tar -zxvf pig-0.16.0.tar.gz … 阅读全文
进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令), 认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文
安装配置 Hbase需要zookeeper的支持,本博客有专门写zookeeper安装教程的可参看。 单机安装的话可以用Hbase自带的,伪分布安装的话自己安装一个Zookeeper即可。 下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文
创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文
以下都是Hive 2.0.1的安装指南 下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文
MapReduce V1 版本中,JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配,管理所有的心跳信息等。容易造成作业分配不均,作业延迟严重等等问题。 MapRed … 阅读全文
任务执行流程 代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成, 每个任务的执行过程中,又包含输入准备→任务执行→输出结果。 各角色分工 1.客户端(Client):编写MapReduce代码,配置作业 … 阅读全文