转 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据 … 阅读全文
默认的Storm日志配置不是很好用,这里改成按照天生成日志, 并且每天产生的日志再进行大小切分。 <?xml version="1.0"?> <configuration scan="true" scanPeriod="60 seconds" … 阅读全文
各版本Linux安装可能都不太一样,这里我用的还是自己的Ubuntu15.04工作机来安装的。 生产环境可能是CentOS或者其他版本Linux 如果使用Netty作为消息中间件的话,可以不用安装zeromq,jzeromq 安装Python 安装JDK配置 … 阅读全文
Storm基础学习笔记 Storm特点 用例非常广泛 可伸缩性 保证没有数据丢失 强壮的鲁棒性 容错性好 编程语言无关 Storm框架核心 以下为个人的理解,如有错误,请帮忙指摘。大部分对比Spring的JMS处理机制来理解。 暂不对比Netty实现。 Spo … 阅读全文