[완료]혹시 hadoop 하시는 분 도움 부탁드립니다.

mayaabba의 이미지

hadoop 에서 map 과 reduce의 task 수를 바꾸기 위해

googling 해보니 map의 갯수는 dfs.block.size로 바꿀수 있다고 하더군요.

128MB 로 바꾸고 다시 테스트 해봤지만

여전히 최대갯수 10개가 전부더군요.

뭔가 다른것도 같이 셋팅해 줘야 하는건가요?

hadoop jar $HADOOP_INSTALL/hadoop-0.20.2-test.jar TestDFSIO -write -nrFiles 10 -fileSize 10000

위 명령으로 테스트 중입니다.

더불어 혹시 하둡 카페 좋은 곳 있으면 소개 좀 부탁드릴게요.

binilpaper의 이미지

TestDFSIO 의 인자중 -nrFiles 10으로 두었을경우 맵이 10개 생기는거 입니다.

-nrFiles 의 값을 20으로 두면 맵 작업이 20개로 늘어나구요...

맵의 갯수는 blocksize와 관계가 없는걸로 알고 있습니다. (아닌가요?)

(정확한건 다음 분에게.. ^^;;;)

-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

mayaabba의 이미지

확인해본 결과 그렇네요.

근데 궁금한 것은 nrFile 은 파일의 갯수 아닌가요?

이게 왜 맵의 작업수와 연관이 되는건지 참...이상하네요..

환경 설정 때문에 아주 죽겠네요...

도움 정말 감사합니다.

binilpaper의 이미지

아... 정확하게 기억이 나질 않지만... 그 소스를 보시면 정확하게 아실텐데요...

nrFiles의 개수만큼의 맵작업을 만들고

해당 맵작업에서 나온 결과물을 Reduce로 넘겨서 하나의 빅파일을 만드는게 TestDFSIO(맞나요...??;;)일껍니다.

하둡 자체가 병렬처리를 맵작업에서 하고 그에 대한 결과를 리듀서가 종합하는 단계로 이루어지기 때문이죠

즉 -nrFiles 10 -fileSize 10000 이렇게 하면... 아마도 하나의 맵 작업에서 10000의 사이즈의 맵작업을 하고 리듀서를 해당 맵 작업들의 결과를 하나로 합치는 작업을 하기 때문에 fileSize * nrFiles 의 용량의 결과나 나오는 걸로 기억이 됩니다.

그 한빛소프트에서 나온 하둡 클러스터(제목은 자세히 기억이 나질 않지만 표지가 코끼리 였던것을 확실히 기억됩니다...;;)라는 책을 보시면 맵/리듀스 라는 개념은 금방 잡히실꺼 같네요...^^;;

맵 작업은 다수의 클러스터에서 연산을 수행하고 리듀서는 그 맵 작업에 대한 결과를 하나의 결과로 취합하는 거라 생각하시면 우선 개념은 금방 잡히실듯 합니다. ^^;;

(두서 없는 설명 죄송합니다. 자세한건 KLDP의 고수분들이 답변 해주실꺼에요... ㅜㅜ;;)

-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

mayaabba의 이미지

근데 왜 굳이 파일을 10개로 만들떄만 맵을 확장할수 있게 한건가요?

그냥 100메가의 파일을 만들때 맵을 10개 생성하건 20개 생성하건 할 수는 없는건가요?

즉 100메가 10개를 처리하는게 아니라 100메가 한개를 여럿이 처리해야 진짜 분산 처리 아닌가요?

아니면 그냥 이 테스트파일만 그렇게 작성이 된건가요??

폭풍 질문 죄송합니다.

좀 많은 노드로 테스트를 이거저거 시켜보고 싶은데 여건이 안되네요.

binilpaper의 이미지

TestDFSIO는 IO에 관련된 테스트를 하기 위해서 만들어 졌지 때문에 그런식으로 작동을 하는거구요..

하나의 빅파일을 다수의 맵에서 처리를 합니다. 위 테스트는 Write 및 Read에 관련된 테스트를 하는것이기 때문에 이런식으로 작동을 하는거죠..ㅎㅎ;;

Write테스트에서 나온 하나의 결과물로 Read테스트를 진행하시면 하나의 파일을 다수개의 맵으로 작업하는걸 보실수있으실껍니다..

-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

mayaabba의 이미지

^^

binilpaper의 이미지

도움이 되었다면 다행이에요 ㅎㅎ;;
-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

-----------------------------------------------------
세상은 인간이 해결해야할 문제들로 가득차 있다.

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.