하둡 하시는 분들께 맵리듀스 프로그래밍 질문 있습니다.
예를 들어 다음과 같은 데이터가 있습니다.
지역 연령대 인구수
송파구 10 45
송파구 40 32
용산구 30 20
용산구 10 50
용산구 40 30
강남구 30 20
강남구 50 34
강남구 10 21
... ... ..
데이터는 지역, 연령대, 인구수입니다.
만약 지역구별 연령대별 인구 비율을 구한다고 한다면 먼저 합계를 알아야 하잖아요?
합계 구하는거는 충분히 하겠습니다. 그러나 구별 연령대별 인구비율을 구하려면 먼저 합계를 구한 후 구마다 ((N대의 인구수) / (지역구 총인구수))를 구해야 하는데요. 총 합계를 구한 시점은 해당 구의 마지막 줄 송파구의 경우(40대, 32) 용산구의 경우 (40대, 30)이기 때문에 이미 지나간 데이터인 이전 줄에 합계로 나눠줘야하는데 어떻게 해야하는 건가요? map에서 합계를 구한다 쳐도 그 합계를 reduce에서 어떻게 활용해야하는지도 모르겠고... 그냥 한줄한줄 버퍼에 저장하다가 마지막 줄에서 합계 구해지면 일괄적으로 계산한 다음에 출력을 내야하는지(이럴 경우 데이터가 방대해질 경우에 heap size Exception이 날 것 같기 때문에...)
예를 들면 송파구 총 인구의 수는 45+32 = 77이고 10대의 비율은 45/77 * 100 = 58.4%
말로설명하기 쉬운데 글로쓰니 횡설수설하게 되었는데 이해가 가시려는지 모르겠습니다.
참고로 원하는 결과는 다음과 같습니다.
지역 연령대 인구수 비율
송파구 10 45 58.4
송파구 40 32 41.6
용산구 30 20 20
용산구 10 50 50
용산구 40 30 30
강남구 30 20 26.7
강남구 50 34 45.3
강남구 10 21 28
... ... ..
댓글 달기