首页 » 大数据

转大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

2016年11月25日　zuobin

暂无评论　4,198次浏览

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据 … 阅读全文

原 Zookeeper常用命令

2016年7月31日　zuobin

暂无评论　5,855次浏览

zookeeper相关命令 1、启动、停止、重启zk（bin目录下）启动：zkServer.sh start 停止：zkServer.sh stop 重启：zkServer.sh restart 2、连接zookeeper 连接本地: ./zkCli.sh … 阅读全文

2016年6月20日　zuobin

暂无评论　6,071次浏览

Hive Hive用SQL的方式去描述MapReduce。会写SQL基本就能够写出MapReduce出来了，解放了数据分析人员。 Hive在Hadoop中是数据仓库的角色。建立在Hadoop集群的最顶层，面向行存储。，对存储在Hadoop群上的数据提供类S … 阅读全文

2016年6月18日　zuobin

暂无评论　5,555次浏览

以下使用PIG来做一个最简单的统计。统计网站服务某一个nginx日志，在一天之内，存在哪些频繁访问的IP。以前曾使用awk来做过类似的统计，具体可参看以前的文章。首先，nginx日志格式如下： 121.42.0.88 - - [10/May/2016:0 … 阅读全文

2016年6月17日　zuobin

暂无评论　5,383次浏览

安装配置Pig mkdir -p /opt/hadoop/pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.16.0/pig-0.16.0.tar.gz tar -zxvf pig-0.16.0.tar.gz … 阅读全文

2016年6月15日　zuobin

暂无评论　4,514次浏览

利用ELK分析Log4j日志举一个处理log4j格式类型的例子。日志格式大概如下: 属于比较常规的log4j日志. 主要是需要将Java的堆栈合并成单行。 2016-06-02 15:16:50,330 [ActiveMQ Session Task-270 … 阅读全文

2016年6月10日　zuobin

暂无评论　4,184次浏览

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami … 阅读全文

2016年6月8日　zuobin

暂无评论　5,802次浏览

安装配置 Hbase需要zookeeper的支持，本博客有专门写zookeeper安装教程的可参看。单机安装的话可以用Hbase自带的，伪分布安装的话自己安装一个Zookeeper即可。下面HBASE_MANAGES_ZK=false: false使用自带 … 阅读全文

2016年6月5日　zuobin

暂无评论　4,647次浏览

利用Redis分布式收集日志安装Redis 这个不用介绍了，本博客也有安装教程 Logstash中的redis 配置选项(部分) data_type 可选项为:["list", "channel", "pattern_channel"] list即为BLPO … 阅读全文

2016年6月3日　zuobin

暂无评论　4,488次浏览

ELK是一组完全开源工具，包括Logstash,Kibana,ElasticSearch。其中包含Logstash,kibana,ElasticSearch,Redis等组件。用于对日志进行过滤、分析、收集、汇总、展示、搜索等。 LogStash类似于Fl … 阅读全文