데이터 엔지니어링
[Review] 분단된 데이터를 2000 노드 이상의 단일 데이터 플랫폼에 통합(LINE)
본 게시물은 기업 컨퍼런스 발표 자료 및 영상을 요약 및 리뷰하는 글입니다. 저작권에 문제가 있다면 연락 부탁드립니다. Conference LINE DEVELOPER DAY 2021 LINE DEVELOPER DAY 2021 LINE DEVELOPER DAY 2021은 11월 10일부터 11일까지 이틀간 열리는 온라인 기술 컨퍼런스입니다. 다양한 엔지니어가 참여해 여러 분야에 걸쳐 첨단 기술과 도전 경험, 직면하고 있는 과제에 대해 공유합 linedevday.linecorp.com Slide Slide 링크 Video Youtube 링크 발표에 대한 내용을 요약하며 제 개인적인 생각은 초록색으로 작성하겠습니다. 라인에서는 모든 데이터를 축적하고 사용할 수 있는 데이터 플랫폼을 IU라고 부르고 있습니다. ..
Riot Data Pipeline 구축하기 #4 - API response 데이터 저장 타입 변경 및 Kafka 클러스터 생성
이번 글에서는 이전 글에서 작성했던 필요한 API를 모두 구축하고 개발하면서 변경이 필요했었던 부분에 대해서 다루도록 하겠습니다. 그리고 docker compose를 이용한 Zookeeper를 포함한 Kafka 클러스터를 생성하도록 하겠습니다. Riot API 호출 구현과 문제 상황 분석하는데 필요하다고 생각한 Riot API에 대해서 모두 구현을 완료했습니다. Riot API 리스트는 아래와 같습니다. 소환사 이름으로 계정 조회 : /lol/summoner/v4/summoners/by-name/{summonerName} 소환사 puuid로 match id 조회 : /lol/match/v5/matches/by-puuid/{puuid}/ids match id로 해당 match 정보 조회 : /lol/ma..
[NiFi] Docker & NiFi 클러스터 환경에서 HDFS 데이터 분산 수집하기
Docker 내가 원하는 환경의 서버를 container라는 개념으로 쉽게 생성 및 삭제할 수 있는 플랫폼. NiFi 다양한 포맷의 데이터들을 ETL 처리할 수 있는 Flow-Based Programming(FBP) 툴 관련 글 [NiFi] NiFi의 핵심 개념 및 아키텍쳐 [NiFi] Docker & NiFi로 HDFS 데이터 수집하기 [NiFi] Docker로 NiFi 클러스터 구성하기 앞선 글에서 Docker를 이용해 NiFi 클러스터 환경을 구성했다면, 이번에는 클러스터 환경에서 HDFS 데이터를 분산 수집하는 과정을 진행해보겠습니다. HDFS 데이터 만들기 테스트할 데이터를 만들기 위해 아래의 파일을 똑같이 복사하여 30개를 만들어주고 namenode container에 옮겨줍니다. /* Loc..