`
yo8237233
  • 浏览: 60768 次
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
以前在Hadoop 1.0中JobTracker主要完成两项功能:资源的管理和作业控制。在集群规模过大的场景下,JobTracker 存在以下不足: 1)JobTracker 单点故障。 2)JobTracker 承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算 ...
地址:http://www.cnblogs.com/qiaoyihang/
Flume概念 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 flume 特点: 1、可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,所有的数据以event为单位传输,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Store on failure(这也是scribe采用的策略,当数据接收方cr ...

遍历Map的四种方法

    博客分类:
  • J2EE
public static void main(String[] args) { Map<String, String> map = new HashMap<String, String>(); map.put("1", "value1"); map.put("2", "value2"); map.put("3", "value3"); //第一种:普遍使用,二次取值 System.out.prin ...
配置完成zookeeper集群,发现有一个节点,进程正常但是状态异常 查看日志一开始进入歧途了,查看的是这个目录 其实应该查看这个目录的日志 失败日志: 很明显,没有权限,更改权限,启动成功
HDFS: 基础架构 1、NameNode(Master) 1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。 使用Active NameNode,Standby NameNode 两个节点可以解决单点问题,两个节点通过JounalNode共享状态,通过ZKFC 选举Active ,监控状态,自动备份。 1、Active NameNode 接受client的RPC请求并处理,同时写自己的Editlog和共享存储上的Editlog,接收DataNode的Block report, block loc ...
CDH 数据库 磁盘坏了  所有集群配置 都没了    而且 还没备份  ....    元数据 还在  cdh  软件配置 和  安装软件 不能用了 下载 apache hadoop   重新配置  namenode datenode   journode  加载以前的数据  读出来了  .. 强制了  namenode 主   把数据迁移到 其他节点   因为 重新 安装数据可  CDH 自动把之前的目录  配置文件 和 软件 全部清空了 还是手动安装靠谱
MapReduce中数据流动    (1)最简单的过程:  map - reduce    (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce    (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce map函数的处理结果放在内存中,这个内存也称为环形缓冲区,缓冲区达到80%的时候会形成溢写,一边向磁盘写入,一般接受map输出,具体流程是一个管道机制 map  数据  先写入缓冲区在内部排序,当达到一定的大小再写入磁盘。如果 ...

MapReduce二次排序

     默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理         我们把二次排序主要分为以下几个阶段。 Map 起始阶段         在Map阶段,使用 job.setInputFormatClass() 定义的 InputFormat ,将输入的数据集分割成小数据块 split,同时 InputFormat 提供一个 RecordReader的实现。本课程中使用的是 TextInputFormat,它提供的 RecordRead ...
matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.W ...

编译hadoop2.6.0

具体情况比较曲折:hadoop2.6.0编译不过 错误如下: 这个kms模块始终编译不过,最后得出结论国内的aliyun maven仓库有问题, 在编译hadoop2.2.0 可以通过,因为这个版本的hadoop没有kms这个模块, 要想编译2.6.0的hadoop  必须使用国外的maven地址。 2.2.0基本步骤和网上大概相同 可编译成功,同时安装snappy 成功: 同时记录下这篇文章: http://blog.sina.com.cn/s/blog_6baac06c0101gvxr.html
换了个环境,出现此异常 016-10-18 23:54:01,334 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2016-10-18 23:54:01,668 INFO [org.apache.hadoop.conf.Configuration.deprecation] - session.id is deprecated. Instead ...

Java集合分组

    博客分类:
  • J2EE
public class Data { private Long id ; private Long courseId ; private String content ; public Long getId() { return id; } public Data setId(Long id) { this.id = id; return this ; } public Long getCourseId() { return courseId; } public Data setCourseId(Long ...
有这样一个需求,在Mysql数据库字符串字段(权限)中,有范围在 1 到 N 之间代表不同权限的值,分别被‘,’分开,现在要取出具有某权限的所有成员列表。 创建表: 1 CREATE TABLE users(id int(6) NOT NULL AUTO_INCREMENT,PRIMARY KEY (id),name VARCHAR(20) NOT NULL,limits VARCHAR(50) NOT NULL); 添加数据: 1 INSERT INTO users(name, limits) VALUES('小张','1,2,12'); 2 INSERT INTO u ...
昨晚突然之间mr跑步起来了 jps查看 进程都在的,但是在reduce任务跑了85%的时候会抛异常 异常情况如下: 2016-09-21 21:32:28,538 INFO [org.apache.hadoop.mapreduce.Job] - map 100% reduce 84% 2016-09-21 21:32:30,623 INFO [org.apache.hadoop.mapred.LocalJobRunner] - reduce > reduce 2016-09-21 21:32:33,626 INFO [org.apache.hadoop.mapred.Local ...
Global site tag (gtag.js) - Google Analytics