뒤죽박죽된 문자열에서의 원하는 단어 추출
글쓴이: Sailor_moon / 작성시간: 화, 2013/08/06 - 10:36오전
안녕하세요 ~ 이리저리 생각해보고 굴려보고 있는데 잘 답이 안나와서 한번 다른 분들의 의견도 들어볼 수 있을까
하여 글 남겨봅니다.
문자열에서 단어를 추출하는게 문제입니다.
예를들어 i love you 라는 문장이 있으면 (스페이스나 공백 , 특수기호는 다 처리하여서 무시합니다)
loyouvie 이런 형태로 뒤죽박죽된 input이 들어올 수 있는데, 최종적인 목표는 i love you 를 복원하는 겁니다. 일종의 암호학 같은거죠.
단 , 다른 단어로 치환되거나 한 것은 없고, 글자의 순서들만 바뀌는 permutation 만 있었는데,
문제는 랭귀지 모델같은 이미 트레이닝 된 데이터 셋을 가지고 있지 않은 상태에서 과연 loyouvie 같은 뒤죽박죽 에서 단어들을 추출해 내는 것이 가능한 가 입니다.
실질적으로 문장의 길이에 따른 알파벳 글자의 수는 상당히 많아지게 되고, 쓰인 알파벳들만 카운팅 해서
그것들의 조합이 가능한 단어들을 사전검색하여 보려고 했으나, .. 아시다시피 순열은 조금만 사이즈가 커져도 숫자가 어마어마해져서, 시간이 너무 많이 걸리더군요.
혹시 이런 쪽에 있어서 좋은 의견 가지신분 있나요 ?
Forums:
an
http://packages.debian.org/testing/games/an
얘는 기존의 dictionary 파일을 가지고 작업하네요.
wordsmith.org
온라인에서 해주는 녀석도 있습니다.
http://www.wordsmith.org/anagram/anagram.cgi?anagram=ailomsnoro
ailomsnoro로 검색했을 때 Sailor Moon도 찾아주고 A Minor Solo도 찾아주네요. (가단조 솔로라니 멋지군요.)
구글 검색 오타 교정기요
구글 검색 오타 교정기요
재벌 2세가 재벌이 될 확률과
금메달리스트 2세가 금메달을 딸 확률이 비슷해지도록
자유오픈소스 대안화폐를 씁시다.
아이디의 아이디어 무한도전
http://blog.aaidee.com
귀태닷컴
http://www.gwitae.com
댓글 달기