인간게놈프로젝트에 데이터 마이닝 결정적 기여

lightwind_의 이미지

--------------------------------------------------
출처 : IT wareHouse
출처사이트 : http://www.itiscom.co.kr
------------------------------------------------

인간게놈프로젝트에 데이터 마이닝 결정적 기여

전세계가 인간 게놈을 밝혀냈다고 떠들썩한 가운데 대용량 데이터 속에
서 숨겨진 패턴을 밝혀내는 데이터 마이닝이 게놈 코드를 해석하는 데 결
정적인 기여를 한 것으로 알려졌다.

인간 게놈은 인체 세포에 존재하는 23쌍의 염색체, 이들 염색체를 이루
는 DNA(Deoxyribo Nucleic Acid), 다시 이들 DNA를 구성하는 30억개
염기쌍들의 나선형 조합으로 구성되어 있다. 대부분의 과학자들은 30억개
에 이르는 인간의 염기 서열을 모두 밝히는 것은 불가능하며 그럴 필요도
없다며 3%만이 인간에게 유용한 정보이며, 나머지 97%는 쓰레기라고 주장
한다. 그러나 문제는 30억개 중 어느 부분이 바로 3%에 해당하는 것이
며, 그 속에 담겨있는 유전자 코드 정보를 찾아 어떤 변이가 어떠한 질병
을 발생시키는지 알아내는 것이 중요하다.

여기에서 HGP(Human Genome Project) 과학자들은 대용량의 데이터에
서 숨겨진 패턴을 찾아주는 데이터 마이닝을 이용할 수 있을 것이라고 생
각했다. 게놈 코드 해석은 1000명을 대상으로 이루어졌으며 각 개인당 백
만 비트 이상의 데이터가 사용되어 대용량 데이터에서 숨겨진 패턴을 찾아
내는 방법이 필요했다. 이 중 어떤 사람은 질병을 갖고 있으며 어떤 사람
은 가지고 있지 않았으며 과학자들은 이들의 패턴을 데이터 마이닝을 통
해 비교 지속적으로 비교 분석하는 과정을 되풀이했다.

HGP에 참여하고 있는 한 과학자는 "현재 우리는 HGP를 하면서 많은 마이
닝 이슈들에 착수하고 있으며, 일부를 이미 수행하고 있다. 그러나 게놈
코드와 질병과의 연관 관계를 밝혀내기 위해서는 막대한 양의 데이터를 핸
들링 해야 한다. 이 부분은 데이터 웨어하우스를 기반으로 한
Enterprise Miner에 의해 수행되고 있다"고 말한다.
...중략...

http://www.itiscom.co.kr/ps/ps/it_wcover_story.pcoverstory?
p_prev_screen_code=11100000000000000000&p_number=200007071