Database/Kafka
[kafka-1] Kafka 용어 설명
데이25
2023. 9. 23. 16:33
카프카 브로커
실행된 카프카 애플리케이션 중 서버 1대를 의미한다.
주키퍼
- 주키퍼 : 메타데이터( 브로커 id , 컨트롤러 id ) 저장
- n개 브로커중 1대는 컨트롤러 수행
- 컨트롤러 : 브로커가 정상적으로 수행하는지 확인
Record
- 보내는 데이터 의미
++ topic : 테이블 같은것
(topic , key , message ) 형식으로 보낸다.
- 프로듀서는 레코드를 생성하여 브로커에게 전송
- 전송된 레코드들은 파티션에 신규 오프셋과 함께 기록된다.
- 컨슈머는 브로커로 부터 레코드를 요청하여 가져간다. ( polling ) 형식
-> 브로커가 컨슈머에게 데이터를 보내는 것이 아니다!!
- 파일시스템 단위로 저장된다.
- 메시지가 저장될때는 세그먼트파일이 열린다.
- 세그먼트가 닫히고 일정시간(or 용량) 에 따라 삭제 또는 압축된다. 언젠간 사라진다.
컨슈머 - 파티션 수
- 가능한 경우 : 파티션 개수 >= 컨슈머 개수
- 불가능 : 파티션 개수 < 컨슈머 개수
- 남은 컨슈머는 파티션을 할당받지 못하고 대기한다.
- 컨슈머 중 하나가 장애난 경우 대비가 가능
- 리밸런스발생 : 파티션 컨슈머 할당 재조정 한다.
- 할당과정에서 중단이 일어난다.
- 나머지 컨슈머가 파티션으로 부터 polling을 수행한다.
- 목적에 따라 컨슈머 그룹을 분리할 수 있다.
- 장애에 대응하기 위해 재입수(재처리) 목적으로 임시 신규 컨슈머 그룹을 생성하여 사용하기도 한다.
토픽
- 프로듀서와 컨슈머가 이벤트 종류를 구별하는 문자열
- 개별파티션으로 분산되도록 하여 동시처리 제공
- offset 마지막 순서에 따라 포인터
- 컨슈머 메세지 처리순서 : 여러개 > 키설정을 통해 동일한 partition 에 가도록한다.
- 테이블 / 파일시스템 폴더와 유사
- 토픽 내부에 파티션 여러개로 구성
- 레코드 : 데이터
- 컨슈머가 토픽내부 파티션에서 데이터 가져가도 데이터 삭제 안됨
- consumer 그룹다름
- auto.offset.reset = earliest 로 셋팅 되어있어야 됨
- alter 명령어 통해서 토픽 갯수 증가 가능
파티션
- 파티션 늘리기는 가능 / 파티션 줄이기는 불가
-> 파티션을 늘려 컨슈머를 늘리기가 가능하다. - follower partition : leader partition 싱크를 통함
메세지 발행
- acks: 프로듀서 -> 브로커 메세지 보낼 때 , 브로커의 수신 응답 메세지를 어떻게 처리할지
- 0 : 매우빠름 / 메세지 유실가능성 큼
- 1 : 대부분이거씀
- all : 메세지 유실가능성 없음
- retries : 몇번 재전송할지 쓰는 옵션
- verifiable : string 발행테스트 필요할때 사용
consumer
- from-beginning : current offset 이 없을 때 토픽이 갖고 있는 첫 레코드부터 읽어온다는 의미
- group 에 따라서 메세지 읽음
Producer
- 데이터를 카프카에 보내는 역할
- 엄청난 양의 데이터 실시간으로 카프카에 적재할때 사용한다.
- 토픽에 해당하는 메세지를 생성한다.
- 특정 토픽으로 데이터를 publish 한다.
- 카프카 브로커로 데이터 전송시 전송 성공여부를 알 수 있다.
- 키 : 메세지 보내면 토픽의 파티션이 지정될 때 쓰인다.