转 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
zookeeper相关命令 1、启动、停止、重启zk(bin目录下) 启动:zkServer.sh start 停止:zkServer.sh stop 重启:zkServer.sh restart 2、连接zookeeper 连接本地: ./zkCli.sh … 阅读全文
Hive Hive用SQL的方式去描述MapReduce。 会写SQL基本就能够写出MapReduce出来了,解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层,面向行存储。 ,对存储在Hadoop群上的数据提供类S … 阅读全文
以下使用PIG来做一个最简单的统计。 统计网站服务某一个nginx日志,在一天之内,存在哪些频繁访问的IP。 以前曾使用awk来做过类似的统计,具体可参看以前的文章。 首先,nginx日志格式如下: 121.42.0.88 - - [10/May/2016:0 … 阅读全文
安装配置Pig mkdir -p /opt/hadoop/pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.16.0/pig-0.16.0.tar.gz tar -zxvf pig-0.16.0.tar.gz … 阅读全文
利用ELK分析Log4j日志 举一个处理log4j格式类型的例子。 日志格式大概如下: 属于比较常规的log4j日志. 主要是需要将Java的堆栈合并成单行。 2016-06-02 15:16:50,330 [ActiveMQ Session Task-270 … 阅读全文
进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令), 认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文
安装配置 Hbase需要zookeeper的支持,本博客有专门写zookeeper安装教程的可参看。 单机安装的话可以用Hbase自带的,伪分布安装的话自己安装一个Zookeeper即可。 下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文
利用Redis分布式收集日志 安装Redis 这个不用介绍了,本博客也有安装教程 Logstash中的redis 配置选项(部分) data_type 可选项为:["list", "channel", "pattern_channel"] list即为BLPO … 阅读全文
ELK是一组完全开源工具,包括Logstash,Kibana,ElasticSearch。 其中包含Logstash,kibana,ElasticSearch,Redis等组件。 用于对日志进行过滤、分析、收集、汇总、展示、搜索等。 LogStash类似于Fl … 阅读全文