빅데이터

    [NiFi] Untrusted proxy 및 UninheritableFlowException 에러 해결 방법

    NiFi를 사용하면서 UninheritableFlowException 에러를 해결했던 방법을 공유하겠습니다. 참고로 제가 테스트 했던 NiFi는 File 기반의 유저 인증 방식을 사용했다는 점 참고 바랍니다.( FileUserGroupProvider ) 문제 상황 & 분석 과정 해당 에러는 NiFi 노드 증설 시 발생했던 에러입니다. 신규 노드에 대해서 서버 작업을 모두 완료한 뒤 NiFi 설치를 완료했습니다. 그리고 이후에 NiFi 관련 설정 파일을 수정했습니다. - File authorizers.xml - 수정한 내용 , 항목에 신규 노드 정보 추가 - 관련 참고 링크 https://nifi.apache.org/docs/nifi-docs/html/administration-guide.html#mult..

    [Hive] Metastore & MySQL 문제로 Hive Query 실행 안되는 이슈 해결 방법

    빅데이터 플랫폼을 운영하면서 겪었던 문제 중 Hive 관련 경험을 소개하도록 하겠습니다. 문제 상황 & 분석 과정 클러스터 운영 중에 Hive Query가 작동하지 않는다는 문의를 받았습니다. 문의 사항은 너무 일반적인 문제 상황이었기 때문에 현재 상황을 파악했고 아래와 같았습니다. - Hiveserver 정상 - Terminal CLI에서 Hive 접속 가능 - Hive Metastore 정상 Hive 상태를 체크했지만 겉으로 보기에는 전혀 문제가 있어보이지 않았습니다. 그래서 일단 Hive에 접속해 간단한 select문을 실행해봤습니다. [root@server1 ~]# hive .... hive > select * from example_db.example_table; 하지만 Query를 실행한지 한..

    [Hadoop] YARN Capacity scheduler 특징 및 Queue 옵션

    YARN Scheduler란 YARN Scheduler란 할당시킬 리소스를 결정하는 알고리즘으로써 다양한 설정 값들을 통해 클러스터의 리소스를 효율적으로 사용할 수 있습니다. YARN은 기본적으로 Hadoop 플랫폼에서 작동하는 어플리케이션에 리소스를 할당시키고 관리하는 역할을 맡고 있습니다. 어플리케이션이 제출되어 AM( Application Master )가 생성되면 아래 그림과 같은 절차가 진행됩니다. 이 때 AM이 RM( ResourceManager )에게 리소스 요청을 하면 RM은 Scheduler를 통해 할당시킬 리소스의 양을 결정합니다. YARN Scheduler 종류 Scheduler의 종류로는 아래 3가지가 존재합니다. 이 중 Capacity scheduler가 기본 default 값으로..

    Riot Data Pipeline 구축하기 #4 - API response 데이터 저장 타입 변경 및 Kafka 클러스터 생성

    이번 글에서는 이전 글에서 작성했던 필요한 API를 모두 구축하고 개발하면서 변경이 필요했었던 부분에 대해서 다루도록 하겠습니다. 그리고 docker compose를 이용한 Zookeeper를 포함한 Kafka 클러스터를 생성하도록 하겠습니다. Riot API 호출 구현과 문제 상황 분석하는데 필요하다고 생각한 Riot API에 대해서 모두 구현을 완료했습니다. Riot API 리스트는 아래와 같습니다. 소환사 이름으로 계정 조회 : /lol/summoner/v4/summoners/by-name/{summonerName}​ 소환사 puuid로 match id 조회 : /lol/match/v5/matches/by-puuid/{puuid}/ids match id로 해당 match 정보 조회 : /lol/ma..

    [NiFi] Docker & NiFi 클러스터 환경에서 HDFS 데이터 분산 수집하기

    Docker 내가 원하는 환경의 서버를 container라는 개념으로 쉽게 생성 및 삭제할 수 있는 플랫폼. NiFi 다양한 포맷의 데이터들을 ETL 처리할 수 있는 Flow-Based Programming(FBP) 툴 관련 글 [NiFi] NiFi의 핵심 개념 및 아키텍쳐 [NiFi] Docker & NiFi로 HDFS 데이터 수집하기 [NiFi] Docker로 NiFi 클러스터 구성하기 앞선 글에서 Docker를 이용해 NiFi 클러스터 환경을 구성했다면, 이번에는 클러스터 환경에서 HDFS 데이터를 분산 수집하는 과정을 진행해보겠습니다. HDFS 데이터 만들기 테스트할 데이터를 만들기 위해 아래의 파일을 똑같이 복사하여 30개를 만들어주고 namenode container에 옮겨줍니다. /* Loc..

    [NiFi] Docker로 NiFi 클러스터 구성하기

    Docker 내가 원하는 환경의 서버를 container라는 개념으로 쉽게 생성 및 삭제할 수 있는 플랫폼. NiFi 다양한 포맷의 데이터들을 ETL 처리할 수 있는 Flow-Based Programming(FBP) 툴 관련 글 [NiFi] NiFi의 핵심 개념 및 아키텍쳐 [NiFi] Docker & NiFi로 HDFS 데이터 수집하기​ [NiFi] Docker & NiFi 클러스터 환경에서 HDFS 데이터 분산 수집하기​ 이번에는 Docker를 이용해서 NiFi 클러스터를 구성해볼 예정입니다. 이전 글에서는 하나의 노드만 docker container로 실행시켜 NiFi를 작동시켰지만, 이번에는 3개의 container를 실행해 Primary node, Cluster coordinator를 확인해보겠..

    [NiFi] Docker & NiFi로 HDFS 데이터 수집하기

    Docker 내가 원하는 환경의 서버를 container라는 개념으로 쉽게 생성 및 삭제할 수 있는 플랫폼. NiFi 다양한 포맷의 데이터들을 ETL 처리할 수 있는 Flow-Based Programming(FBP) 툴 관련 글 [NiFi] NiFi의 핵심 개념 및 아키텍쳐 [NiFi] Docker로 NiFi 클러스터 구성하기 [NiFi] Docker로 NiFi 클러스터 환경에서 HDFS 데이터 분산 수집하기 이번에는 Docker를 이용해서 NiFi와 HDFS 서비스를 실행시키고 간단한 예제를 실습하겠습니다. 예제는 NiFi에서 Processor를 직접 만들고 HDFS 데이터를 수집할 예정입니다. NiFi & HDFS 서비스 실행하기 docker-compose를 통해 서비스들을 실행하는 방법은 이전 글들..

    [NiFi] NiFi의 핵심 개념 및 아키텍쳐

    NiFi란? 다양한 포맷의 데이터들을 ETL 처리할 수 있는 Flow-Based Programming(FBP) 툴 관련 글 [NiFi] Docker & NiFi로 HDFS 데이터 수집하기 [NiFi] Docker로 NiFi 클러스터 구성하기 [NiFi] Docker & NiFi 클러스터 환경에서 HDFS 데이터 분산 수집하기 빅데이터와 관련된 주제로써 이번에는 NiFi를 소개하겠습니다. NiFi는 미국 국가안보국(NSA)에서 Apache에 기증한 dataflow 엔진입니다. 기본적으로 데이터를 Extract, Transformation, Load (ETL)할 수 있는 툴로써 UI를 통해 다양한 기능들을 통해 데이터들을 flow화 시킬 수 있습니다. 그리고 가장 큰 특징으로는 클러스터를 구성해서 데이터를 ..