가 synopsis 인 것은 알겠습니다. 그런데 구체적으로 어떻게 쓰는 건지 궁금하네요. 예를 들어 cd,ln, rm, exit의 built in command가 아니라면 ls, echo, etc 등과 같은 것은 char* filename이 가리키는 새로운 프로그램이 되겠지요.
예를 들어 >b.c /bin/ls 라는 command line이 들어왔다고 가정을 할 때
여기서 char*filename에는 "/bin/ls"를 넘겨주고 > 다음의 b.c는 출력 파일이 되기 때문에 argv에 속하지 못하는 것 같습니다. 그러면
UNIX SYSTEM PROGRAMMING
HAVILAND,GRAY,SALAMA
Second Edition이란 책이 있습니다.
21페이지에 보면
파일버퍼의 사이즈에 따라 달라지는 reading 시간이 나옵니다.
BUFSIZE Real time
1________0:24:49
64_______0:0.46
512______0:0.12
4096_____0:0.07
8192_____0:0.07
이런식으로 나옵니다.
테스트를 직접 해보고 싶어서
17메가 짜리 text파일을 만든후
[code:1]
#include<iostream>
#include<fstream>
#include<time.h>
using namespace std;
Clustering은 기준 그룹이 없는 상태에서 문서들간 유사도를 측정해 분류하는 것이고 Classification은 기준 그룹이 있을 때 거기에 맞춰서 문서를 분류하는 것이라고 알고 있습니다.
한글 문서들을 클러스터링하거나 클래써피케이션을 하려고 하는데요,
소스포지같은 데를 찾아보니까 영어나 일본어 클러스터링 엔진은 있는 것 같습니다. 스팸메일 분류 엔진도 많이 있고요. 국산 상용엔진은 몇가지 있긴 합니다.
그렇다면 한글 문서를 클러스터링하려면 위의 엔진을 그대로 이용할 수 있는 것인가요? 아니면 한글용으로 개조해야 되는 것인가요?