목록IT & Cloud/Kafka (2)
권찡's 공학이야기

앞선 정리에서 간단히 카프카에 대한 소개를 했습니다. 분산형 스트리밍 플랫폼이며 데이터 파이프 라인을 만들 때 주로 사용되는 오픈소스 솔루션입니다. 특히나 대용량 로그 처리에 특화되어 있는 솔루션입니다. 과거 카프카가 개발되기 전 링크드인의 데이터 처리 시스템은 아래 보시는 것과 같았습니다. 위와 같이 데이터를 이리보냈다가 저리보냈다가 하는 것으로 매우 복잡한 구조를 가집니다. 위 구조의 문제는 각 파이프라인 별로 데이터 포맷과 처리하는 방법이 완전히 달라서 확장과 운영에 매우 어려움이 있습니다. 위와 같은 구조에 카프카를 적용한 이후의 데이터 처리 시스템을 보면 구조가 매우 일목요연하게 보입니다. 이는 발생하는 모든 이벤트/데이터의 흐름을 중앙에서 관리하는 카프카를 적용한 것입니다. 이런 카프카를 도입..

개인적으로 공부하면서 Kafka에 대해서 알게 되었습니다. 그래서 공부를 하면서 저 나름대로 정리를 해보고 남들도 알아보기 쉽게 설명하다보면 저 역시 더 공부하게 되서 오랜만에 블로그 연재를 해보겠습니다. 앞으로 시간 나면 그동안 정리하지 못했던 파트도 다시 써보겠습니다. 제가 참고하고 있는 책은 이겁니다. 첫장이니 가볍게 소개 및 정리만 해보겠습니다. 대규모, 대용량 메시지 데이터를 빠르게 처리하도록 개발된 메시징 플랫폼이라고 보면 될것 같습니다. 원래 링크드인에서 출발해 20011년 초 Apache 공식 오픈소스로 공개되었습니다. 특히나 요즘 많은 기업이 자사의 빅데이터를 기반해 사용자의 성향을 분석해 앞으로의 고객 행위를 예측하는 추천 기술에 많은 관심을 가지고 있는데, 이 카프카는 빅데이터를 분석..