하둡 하시는 분들께 맵리듀스 프로그래밍 질문 있습니다.

hmd7932의 이미지

예를 들어 다음과 같은 데이터가 있습니다.

지역 연령대 인구수
송파구 10 45
송파구 40 32
용산구 30 20
용산구 10 50
용산구 40 30
강남구 30 20
강남구 50 34
강남구 10 21

... ... ..

데이터는 지역, 연령대, 인구수입니다.
만약 지역구별 연령대별 인구 비율을 구한다고 한다면 먼저 합계를 알아야 하잖아요?
합계 구하는거는 충분히 하겠습니다. 그러나 구별 연령대별 인구비율을 구하려면 먼저 합계를 구한 후 구마다 ((N대의 인구수) / (지역구 총인구수))를 구해야 하는데요. 총 합계를 구한 시점은 해당 구의 마지막 줄 송파구의 경우(40대, 32) 용산구의 경우 (40대, 30)이기 때문에 이미 지나간 데이터인 이전 줄에 합계로 나눠줘야하는데 어떻게 해야하는 건가요?

예를 들면 송파구 총 인구의 수는 45+32 = 77이고 10대의 비율은 45/77 * 100 = 58.4%

말로설명하기 쉬운데 글로쓰니 횡설수설하게 되었는데 이해가 가시려는지 모르겠습니다.

참고로 원하는 결과는 다음과 같습니다.
지역 연령대 인구수 비율
송파구 10 45 58.4
송파구 40 32 41.6
용산구 30 20 20
용산구 10 50 50
용산구 40 30 30
강남구 30 20 26.7
강남구 50 34 45.3
강남구 10 21 28

... ... ..

binilpaper의 이미지

저도 잘 알지는 못하는데 아래와 같이 하면 될듯합니다.

매퍼에서 출력키를 지역으로 하고, 출력값을 연령대와 인구수를 쌍으로 출력합니다. 출력값은 새로운 Writable을 만드셔도 되고 JSON같은 형식을 사용해서 출력해도 되구요..

리듀서에 들어오는 값은 지역이 같은 값만 들어오게되니 해당 값을 맵으로 재 지정해서 계산하면 될것같습니다.

송파구를 예로 들면

매퍼에서 출력되는 값은
키: 송파구, 값 : (10, 45)
키: 송파구, 값 : (40, 32)

리듀서에 입력되는 값은

키 : 송파구, 값 : [ (10, 45), (40, 32) ]

이런식으로 되니까 총인구수와 연령별 인구수를 구할수있을거같습니다.

대충 작성해서 첨부해봤습니다... (실제 작동은 안해봐서 참고만 하시면 될거같습니다.)

댓글 첨부 파일: 
첨부파일 크기
Plain text icon example.txt2.69 KB

-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.