YARN中自己总结的几个关键点

博客分类：

hadoop

以前在Hadoop 1.0中JobTracker主要完成两项功能：资源的管理和作业控制。在集群规模过大的场景下，JobTracker 存在以下不足： 1）JobTracker 单点故障。 2）JobTracker 承受的访问压力大，影响系统的扩展性。 3）不支持MapReduce之外的计算� ...

2016-12-11 15:43
浏览 719
评论(0)
分类:开源软件

将博客搬至cnblogs

博客分类：

思想，总结

地址：http://www.cnblogs.com/qiaoyihang/

2016-12-11 15:36
浏览 417
评论(0)
分类:非技术

Flume概念 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 flume 特点： 1、可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，所有的数据以event为单位传输，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），Store on failure（这也是scribe采用的策略，当数据接收方cr ...

2016-12-10 18:53
浏览 1352
评论(0)
分类:开源软件

遍历Map的四种方法

博客分类：

J2EE

public static void main(String[] args) { Map<String, String> map = new HashMap<String, String>(); map.put("1", "value1"); map.put("2", "value2"); map.put("3", "value3"); //第一种：普遍使用，二次取值 System.out.prin ...

2016-12-09 15:38
浏览 624
评论(0)
分类:编程语言

zookeeper集群某个follower启动失败

博客分类：

hadoop

zookeeper Hadoop

配置完成zookeeper集群，发现有一个节点，进程正常但是状态异常查看日志一开始进入歧途了，查看的是这个目录其实应该查看这个目录的日志失败日志：很明显，没有权限，更改权限，启动成功

2016-12-07 20:28
浏览 770
评论(0)
分类:开源软件

HDFS 和YARN HA 简介

博客分类：

hadoop

Hadoop

HDFS：基础架构 1、NameNode（Master） 1)命名空间管理：命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。使用Active NameNode，Standby NameNode 两个节点可以解决单点问题，两个节点通过JounalNode共享状态，通过ZKFC 选举Active ，监控状态，自动备份。 1、Active NameNode 接受client的RPC请求并处理，同时写自己的Editlog和共享存储上的Editlog，接收DataNode的Block report, block loc ...

2016-12-07 13:34
浏览 567
评论(0)
分类:开源软件

cdh集群数据恢复

博客分类：

hadoop

hadoop

CDH 数据库磁盘坏了所有集群配置都没了而且还没备份 .... 元数据还在 cdh 软件配置和安装软件不能用了下载 apache hadoop 重新配置 namenode datenode journode 加载以前的数据读出来了 .. 强制了 namenode 主把数据迁移到其他节点因为重新安装数据可 CDH 自动把之前的目录配置文件和软件全部清空了还是手动安装靠谱

2016-12-01 22:03
浏览 939
评论(0)
分类:开源软件

mapreduce流程中的几个关键点

博客分类：

hadoop

mapreduce

MapReduce中数据流动（1）最简单的过程： map - reduce （2）定制了partitioner以将map的结果送往指定reducer的过程：　map - partition - reduce （3）增加了在本地先进性一次reduce（优化）过程：　map - combin(本地reduce) - partition -reduce map函数的处理结果放在内存中，这个内存也称为环形缓冲区，缓冲区达到80%的时候会形成溢写，一边向磁盘写入，一般接受map输出，具体流程是一个管道机制 map 数据先写入缓冲区在内部排序，当达到一定的大小再写入磁盘。如果 ...

2016-11-12 20:46
浏览 595
评论(0)
分类:开源软件

MapReduce二次排序

博客分类：

hadoop

默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInputFormatClass() 定义的 InputFormat ，将输入的数据集分割成小数据块 split，同时 InputFormat 提供一个 RecordReader的实现。本课程中使用的是 TextInputFormat，它提供的 RecordRead ...

2016-11-07 14:51
浏览 1117
评论(0)
分类:开源软件

Hadoop自定义分组Group

博客分类：

hadoop

hadoop

matadata： hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.W ...

2016-11-07 12:35
浏览 453
评论(0)
分类:开源软件

编译hadoop2.6.0

博客分类：

hadoop

hadoop

具体情况比较曲折：hadoop2.6.0编译不过错误如下：这个kms模块始终编译不过，最后得出结论国内的aliyun maven仓库有问题，在编译hadoop2.2.0 可以通过，因为这个版本的hadoop没有kms这个模块，要想编译2.6.0的hadoop 必须使用国外的maven地址。 2.2.0基本步骤和网上大概相同可编译成功，同时安装snappy 成功：同时记录下这篇文章： http://blog.sina.com.cn/s/blog_6baac06c0101gvxr.html

2016-10-29 23:24
浏览 471
评论(0)
分类:开源软件

ERROR [org.apache.hadoop.security.UserGroupInformation] - PriviledgedActionExcep

博客分类：

hadoop

hadoop

换了个环境，出现此异常 016-10-18 23:54:01,334 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2016-10-18 23:54:01,668 INFO [org.apache.hadoop.conf.Configuration.deprecation] - session.id is deprecated. Instead ...

2016-10-20 10:23
浏览 994
评论(0)
分类:编程语言

Java集合分组

博客分类：

J2EE

public class Data { private Long id ; private Long courseId ; private String content ; public Long getId() { return id; } public Data setId(Long id) { this.id = id; return this ; } public Long getCourseId() { return courseId; } public Data setCourseId(Long ...

2016-10-17 16:25
浏览 573
评论(0)
分类:编程语言

Mysql hql字符串字段中是否包含某个字符串，用 find_in_set

博客分类：

数据库

有这样一个需求，在Mysql数据库字符串字段（权限）中，有范围在 1 到 N 之间代表不同权限的值，分别被‘,’分开，现在要取出具有某权限的所有成员列表。创建表： 1 CREATE TABLE users(id int(6) NOT NULL AUTO_INCREMENT,PRIMARY KEY (id),name VARCHAR(20) NOT NULL,limits VARCHAR(50) NOT NULL); 添加数据： 1 INSERT INTO users(name, limits) VALUES('小张','1,2,12'); 2 INSERT INTO u ...

2016-09-27 17:25
浏览 1065
评论(0)
分类:数据库

org.apache.hadoop.ipc.RemoteException(java.io.IOException)

博客分类：

hadoop

Hadoop

昨晚突然之间mr跑步起来了 jps查看进程都在的，但是在reduce任务跑了85%的时候会抛异常异常情况如下： 2016-09-21 21:32:28,538 INFO [org.apache.hadoop.mapreduce.Job] - map 100% reduce 84% 2016-09-21 21:32:30,623 INFO [org.apache.hadoop.mapred.LocalJobRunner] - reduce > reduce 2016-09-21 21:32:33,626 INFO [org.apache.hadoop.mapred.Local ...

2016-09-22 15:38
浏览 1593
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

YARN中自己总结的几个关键点

将博客搬至cnblogs

Flume应用场景及架构原理

遍历Map的四种方法

zookeeper集群某个follower启动失败

HDFS 和YARN HA 简介

cdh集群数据恢复

mapreduce流程中的几个关键点

MapReduce二次排序

Hadoop自定义分组Group

编译hadoop2.6.0

ERROR [org.apache.hadoop.security.UserGroupInformation] - PriviledgedActionExcep

Java集合分组

Mysql hql字符串字段中是否包含某个字符串，用 find_in_set

org.apache.hadoop.ipc.RemoteException(java.io.IOException)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>