생물정보학) 단백질 서열을 이용한 n-gram 특징을 통한 svm 분류방법 질문이요 ㅠ 고수님들 답변좀 부탁드려요

windyguy81의 이미지

생물정보학을 배우고 있는 학생입니다
요즘 interaction database를 통한 단백질 서열을 이용한 n-gram 특징을 사용하여 svm 분류를 하려합니다.
혹시 n-gram feature 분석을 통하여 사용하는 프로그램이나 방법 그리고 svm 분류에 사용되는 프로그램과 간단한 사용방법 알려주실분 있나해서 이렇게 글 올려봅니다 ㅠ
혹시 아시는분 계시면 뎃글좀 부탁드려요 ㅠ

ydhoney의 이미지

요즘은 se가 이런것도 알아야 되는건가요? ㄷㄷㄷ

ensky0의 이미지

보통 feature 뽑는건 여러가지로 바꿔서 실험해야 하니까 간단하게 프로그램을 짜고
svm은 libsvm 이나 lightsvm 씁니다.
feature 뽑는 것도 툴이 필요 하시면 n-gram tool로 검색하니까 나오는 것도 있고
자연어 처리하는 툴 안에 n-gram feature 뽑는거 많이 들어 있습니다.

windyguy81의 이미지

n-gram feature 뽑은후 svm 을 돌릴때 보통 어떤 방식으로 하나요?
일단 기존의 database를 n-gram으로 변환후 변환된 database에 원하는 query를 n-gram으로 바꾼후에
이를 svm classifier 하는건가요 ? 혼자하려니 어렵네요 ㅠ
혹시 linux 말고 windows에서 쉽게 사용가능한 n-gram이나 svm tool 프로그램 추천해주실수 있나요 ;;

superkkt의 이미지

혹시 Weka도 사용해보셨나요?

http://www.cs.waikato.ac.nz/ml/weka/

======================
BLOG : http://superkkt.com

ensky0의 이미지

제 전공이 생물정보학 관련된 것이 아니라 말씀하시는 내용을 정확히는 모르겠습니다.
우선 supervised learning인지 unsupervised learning인지 semi-supervised인지가 궁금하구요
supervised learning 이라면 학습 데이터가 있어야 하고, 학습 데이터에서 추출한 feature를 이용해서 모델을 만들겁니다.(학습)
그리고 새로운 테스트 데이터가 입력되면, 테스트 데이터에서 feature를 추출해서
학습 단계에서 만들어진 모델을 이용하여 어떤 클래스에 속하는지 분류할꺼구요.(분류)
학습 과정에서 얻은 모델을 이용해서 새로운 데이터가 입력되었을 때 분류를 해 주는 프로그램을
svm classifier라고 얘기할 수 있을 것 같습니다.(물론 svm 알고리즘을 이용하겠지요)

윈도우에서 쉽게(?) 사용할 수 있는 툴로는 RapidMiner, KNIME, 윗 분이 말씀해 주신 Weka 등이 있습니다.
기계 학습에 관한 내용을 좀 더 알아보시면 도움이 될 것 같습니다.