首页 » 大数据 ( 第 2 页 )

原 Hadoop学习笔记(11)--Hive基础使用

2016年5月29日　zuobin

暂无评论　6,175次浏览

创建数据(文本以tab分隔) 创建数据 touch test.txt vim test.txt 创建以Tab分隔 1 zhangsan 20 Beijing 2 lisi 13 changsha 3 wangwu 31 chengdu 4 liuliu 14 … 阅读全文

原 Hadoop学习笔记(10)--Hive安装

2016年5月29日　zuobin

暂无评论　4,213次浏览

以下都是Hive 2.0.1的安装指南下载Hive2.0.1 1.X版本可能和2.x版本安装有所差异。 wget http://mirror.bit.edu.cn/apache/hive/hive-2.0.1/apache-hive-2.0.1-bin.ta … 阅读全文

2016年5月27日　zuobin

暂无评论　4,007次浏览

MapReduce V1 版本中，JobTracker单点瓶颈问题是影响Hadoop稳定性(可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷)的重要因素。需要处理所有的资源分配，管理所有的心跳信息等。容易造成作业分配不均，作业延迟严重等等问题。 MapRed … 阅读全文

2016年5月22日　zuobin

1条评论　4,884次浏览

任务执行流程代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成，每个任务的执行过程中，又包含输入准备→任务执行→输出结果。各角色分工 1.客户端（Client）：编写MapReduce代码，配置作业 … 阅读全文

2016年5月20日　zuobin

暂无评论　4,027次浏览

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对 … 阅读全文

2016年5月20日　zuobin

暂无评论　4,934次浏览

Hadoop参数API org.apache.hadoop.conf：定义了系统参数的配置文件处理API； org.apache.hadoop.fs：定义了抽象的文件系统API； org.apache.hadoop.dfs：Hadoop分布式文件系统（HDFS … 阅读全文

2016年5月15日　zuobin

暂无评论　3,543次浏览

执行MapReduce任务的有两个角色：一个是JobTracker，另一个是TaskTracker。每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段： Map阶段和Reduce阶段，即对应Map函数和Reduce函数 Map … 阅读全文

2016年5月15日　zuobin

暂无评论　3,882次浏览

安装模式环境准备 su # 上述提到的以 root 用户登录 useradd -m hadoop -s /bin/bash # 创建新用户hadoop passwd hadoop visudo 添加hadoop ALL=(ALL) ALL #安装java,s … 阅读全文

2016年5月15日　zuobin

暂无评论　4,244次浏览

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。根据管理层次（1）元数据存储 Hive将元数据存储在RDBMS中，有三种模式可以连 … 阅读全文

2016年5月15日　zuobin

暂无评论　3,527次浏览

HBase是一个类似Bigtable的分布式数据库，大部分特性和Bigtable一样; 是一个稀疏的、长期存储的（存在硬盘上）、多维度的排序映射表; 表的索引是行关键字、列关键字和时间戳; 表中的每个值是一个纯字符数组，数据都是字符串，没有类型; 用户在表格中 … 阅读全文