[질문] 개발할 때 필요한 샘플 데이터셋은 어떻게 구하세요?
글쓴이: 오호라 / 작성시간: 토, 2008/09/06 - 2:25오전
개발하다보면 가끔 특정 데이터셋이 필요할때가 있습니다.
가령 예제를 들면...
1. 세계의 모든나라 리스트
2. 국내의 모든 주소, 우편번호
3. 대한민국 거주하는 모든 사람의 주민번호
4. 조합가능한 한국어 이름 또는 등록되 이름
5. 국내에 저작권 등록된 모든 음원 또는 영화 리스트
...
아주아주 가끔~
이런 데이터셋들이 필요합니다. 단순하게 테스트를 위함일수도 있고, 실제로 써야 하는 경우도 있습니다.
영어사전, 국어사전... 등과 같은 경우는 업체를 통해서 라이센스를 맺을수 있겠지만 1번같은 경우나, 4번같은경우에는 힘들것 같습니다.
1번은 어느 기관에서 가지고 있을지 모르겠고, 4번같은 경우도 힘들것 같습니다.
여러분은 어떻게 하세요? 이런 경우 어떻게 대처들 하시나요?
혹시 좋은 사이트가 있을까요? 아니면 역시 직접 구하거나, 편법을 사용하거나, 허상 데이터를 만들어서 써야 할까요?
Forums:
1의 경우는 ISO 3166
1의 경우는 ISO 3166 country codes로 구할 수 있을 것 같군요.
--
C FAQ: http://www.eskimo.com/~scs/C-faq/top.html
Korean Ver: http://www.cinsk.org/cfaqs/
C FAQ: http://www.eskimo.com/~scs/C-faq/top.html
Korean Ver: http://cinsk.github.io/cfaqs/
가라로 만듭니다.
그냥 생성 프로그램 만들어서 데이터셋을 만들어 버리는 경우도 있습니다.
데이터의 특성상 문제가 발생할 수 있는 규칙을 일부로 적용시키기도 하지만...
중요한건 테스트 할 수 있는 "데이터의 양" 확보가 최우선인 경우도 있기에...
그냥 대충 만들어 씁니다.
문제는 배포용 데이터인데...
배포용 데이터는 지원부서나 영업부서에 압력넣어 넘겨버립니다.
표준이 있는 경우
표준이 있는 경우 표준을 사용합니다. 책, 영화 제목 같은 것은 요즘 OpenAPI 쓰면 쉽게 구할 수 있구요. (한국이라면 알라딘, 해외라면 아마존 등)
댓글 달기