대용량 데이터 패턴분석에 대해서...

rgbi3307의 이미지

어떻게 생각하시나요? (토론,토의 글로 올려봅니다)
인터넷과 소셜네트워크 서비스들이 전세계로 퍼져나가면서
전세계에 존재하는 수많은 종류의 데이터들에 누구나 쉽게 접근할 수 있는 시대가 다가오고 있습니다.
또한, 휴대용 IT 기기들이 급속도로 퍼져나가면서 데이터를 실시간으로 분석할 수 있게 되었습니다.
한두개의 데이터는 의미가 없지만,
이러한 데이터들이 수천만,수천억,수천경 이상 모여있을때 이것의 패턴을 분석하면 유용한 정보가 될 수 있습니다.
이렇게 분석해 볼 수 있는 데이터들은 어떤것들이 있을까요?
또한 이러한 대용량 데이터 패턴을 분석하기 위해서 어떤 기술들을 사용해야 할까요?
생각나는대로 무자비하게 많은 의견들 주세요~

pogusm의 이미지

시사기획 창.120131.빅데이터 세상을 바꾸다.HDTV.H264.720p-Mania.mp4

rgbi3307의 이미지

네, 몇일전 KBS 시가기획 창 프로그램에서 봤습니다.
소개된것들중에서 IBM 왓슨연구소에서 진행하고 있는 프로젝트가 제 가슴을 탕~ 치더군요...
뭐냐면, 왓슨연구소 컴퓨터(아마, 슈퍼컴퓨터급인듯)에
언어검색 및 지식정보 패턴처리 프로그램이 되어 있는것 같은데,
이것과 인간과 지식정보 퀴즈대결을 하는 TV프로그램이 있더군요.
진행자가 퀴즈을 내고 이것을 빨리 푸는 쪽에 상금을 올려주는 것이었는데,
결과는 컴퓨터가 이기더군요.
문제로 제시한 퀴즈의 지식정보를 컴퓨터가 순식간에 답해 버리더군요.
이것을 방청하던 방청객들이 모두 일어서서 컴퓨터에게 기립박수를 보내고...

From:
*알지비 (메일: rgbi3307(at)nate.com)
*커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))

나그네나그네의 이미지

상식적으로 아시다시피
보험에서 어떤 가족 관계나 어떤 취미/직업을 가진 사람이 likely한 것이라던지,
의료에서 식생활이나 생체 정보로부터 얻을 수 있는 병 추론,
마켓에서 사람들이 함께 사는 물품들의 정보 등이 있지 않나요? 대표적으로, 기저귀를 구입하는 사람이 맥주를 구입할 확률이 아주 높다고 합니다.
이번에 ubuntu에서 새로 개발한 '검색식 메뉴'도(제가 나름 이름 붙인 겁니다 -_-;) 사용자의 특성을 수치화한 데이터를 이용한 것이 아닐까요.

수치화 되어 있는 데이터에서 패턴을 뽑아내는 건 이미 알고리즘의 수준을 넘어서 tool로 개발이 되어 있는 것으로 알고 있습니다.

cleansugar의 이미지

기계로 연관 찾는 기술은 데이터마이닝이라고 합니다.

재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.

아이디의 아이디어 무한도전
http://blog.aaidee.com

귀태닷컴
http://www.gwitae.com

sblade의 이미지

이미 미국 high-tech 기업들에서는 주류입니다. 이런 직업군을 통칭 data scientist 라고들 합니다.

인더스트리에서 이러한 흐름을 주도하기 시작한 기업은 Google 이라고 봐야 할 것 같구요, MS, IBM, Facebook, Linkedin 등에도 이런걸 연구하는게 "직업"인 사람들이 많이 있습니다. 심지어 별 관련 없을 것 같은 Qualcomm 에서도 연구합니다. 컴퓨터 회사 이외에도 의료 산업 쪽에서도 (논란의 여지가 있지만) 활발하게 이용되고 있고, 최소한 미국 쪽에서는 산업 전반에 침투하기 시작한 것 같습니다. 한편, 대상은 다르지만 하는 일의 성격이나 툴은 비슷한 직종이 high-frequency-trade firm 이나 hedge fund 같은 곳의 일명 "quant" 나 "algorithmic trader"들입니다. 그리고 미국의 경우 군수 목적에 이용하는 회사들도 있습니다.

연관된 직업군으로, 이러한 데이터 분석을 위한 "툴"을 만들어 파는 회사들도 많이 있습니다. 주로 판매대상은 금융쪽이긴 한데, 일단 Palantir 등이 유명합니다. 그리고 이러한 데이터 분석에 특화된 DB 를 파는 회사도 꽤 있습니다.

다뤄 볼 수 있는 데이터는 수치화, 텍스트화 되어 있는 모든 데이터입니다. 최소한 학계에서는, 지난 10~20 여년간 온갖 종류의 데이터에 여러 가지 방법론을 실험해오고 있었습니다. 주로 인기있는 대상은 자연어 처리를 위한 텍스트 데이터, 상품이나 서비스 등 추천을 위한 랭킹 데이터 (아마존 평점 같은..), 모바일 서비스를 위한 모바일 센서 데이터, 의료 서비스를 위한 의료 기록 등 입니다.

연구 방법론 자체는 상당히 정형화되어 있는데 (사용할 수 있는 툴들의 종류는 매우매우 많습니다), 각각의 툴을 이해하는 정도 및 직관 등에 따라 어떠한 패턴을 관찰하고 뽑아낼 수 있느냐가 상당히 달라서 어떤 면에서는 약간 기술자적 숙련이 요구되는 측면이 있습니다. 즉 같은 데이터 같은 툴로도 경험 및 직관에 따라 분석이 천차만별이니까요.

어떤 스킬이 필요한지는 아래 링크를 참고하세요.

http://www.quora.com/Career-Advice/How-do-I-become-a-data-scientist?q=data+scientist

rgbi3307의 이미지

와~ 진짜 좋은글입니다. 잘 읽었습니다.
링크해 주신 웹사이트에도 들어가 봤는데, 일단, 아래내용이 눈에 확 들어오네요.
1) Learn about matrix factorizations
2) Learn about distributed computing
3) Learn about statistical analysis
4) Learn about optimization
5) Learn about machine learning
6) Learn about information retrieval
7) Learn about signal detection and estimation
8) Master algorithms and data structures
9) Practice
10) Study Engineering
여러가지 연구 분야들이 많은듯합니다.
저는 개인적으로 5번에 관심이 가는군요.
이것과 더불어 음성인식, 기계번역등과 같은 자연어처리 분야에도 많은 관심이 있습니다만,
지금 제가 하고 있는 일들이 이런것들과 좀 먼 것들이라서... 요즘 나름대로 스트레스 엄청 받고 있슴다.
또다시 학창시절로 되돌아 가고 싶군요~
KLDP에 대학생분들도 많은듯 한데, 학창시절이 좋습니다. 연구하고 싶은것 마음껏 하시고 하나 빵~ 터트리세요~
저같이 직장 다니면 하고 싶은게 있어도 못합니다(^^)

From:
*알지비 (메일: rgbi3307(at)nate.com)
*커널연구회(http://www.kernel.bz/) 내용물들을 만들고 있음.
*((공부해서 남을 주려면 남보다 더많이 연구해야함.))