Yarn
[Hadoop] YARN Capacity scheduler 특징 및 Queue 옵션
YARN Scheduler란 YARN Scheduler란 할당시킬 리소스를 결정하는 알고리즘으로써 다양한 설정 값들을 통해 클러스터의 리소스를 효율적으로 사용할 수 있습니다. YARN은 기본적으로 Hadoop 플랫폼에서 작동하는 어플리케이션에 리소스를 할당시키고 관리하는 역할을 맡고 있습니다. 어플리케이션이 제출되어 AM( Application Master )가 생성되면 아래 그림과 같은 절차가 진행됩니다. 이 때 AM이 RM( ResourceManager )에게 리소스 요청을 하면 RM은 Scheduler를 통해 할당시킬 리소스의 양을 결정합니다. YARN Scheduler 종류 Scheduler의 종류로는 아래 3가지가 존재합니다. 이 중 Capacity scheduler가 기본 default 값으로..
[Hadoop] YARN - Yet Another Resource Negotiator
YARN이란? Cluster 환경에서 resource 관리와 application 실행을 담당하는 component. 이번 글에서 소개할 component는 Hadoop YARN 입니다. Cluster의 resource를 관리하는 역할을 하며 비슷한 역할을 담당하는 component 중에서는 가장 많이 쓰이고 있습니다. YARN이란? Hadoop이 처음 나왔을 때 1.0 버전에서는 여러 component들이 존재하지 않고 MapReduce만 존재했습니다. 그래서 cluster의 resource 관리 및 scheduling과 task 수행을 모두 MapReduce의 JobTracker가 담당했습니다. 하지만 MapReduce 이외의 다양한 component들이 생기고 수행해야하는 application의 수..
[Spark] Spark란? - Cluster Computing with Working Sets
Spark란? Cluster 환경에서 In-Memory를 사용해 빠른 데이터 작업을 하기 위한 프레임워크. MapReduce에 이어서 이번 글에서는 Spark 를 소개하겠습니다. 사실 MapReduce 다음 주제로 Yarn을 정하려고 했지만 공부를 하다 보니 Spark 를 하게 되었고 MapReduce와 비교하며 설명하는 것도 나쁘지 않을 것 같아 Spark 로 정하게 되었습니다. Spark란? Spark 라는 것은 MapReduce와 비슷하게 HDFS에 저장되어 있는 데이터를 작업하고 처리하기 위한 프레임워크입니다. Java 언어로 작성해야 했던 MapReduce와 달리 Spark 는 Scala, Python, Java 등 다양한 언어로 프로그래밍이 가능하고 In-Memory 기반의 빠른 연산을 이용하..