Binary 큰 데이터 중복 제거 방법.
글쓴이: antz / 작성시간: 목, 2003/11/06 - 2:23오후
Structure 데이터를 Binary로 저장 하는데요.
하루하루 업데이트를 하고
건수가 많다 보니 중복이 생깁니다.
단순히 생각해서 정렬을 해서 없애면 될것 같지만,
몇백M 되는것들을 정렬하려니 머리가 아프네요.
도움이 될까해서 문의를 해봅니다.
감사합니다.
Quote:
$ ls -alh data??
-rw-r--r-- 1 root root 834M Nov 6 14:17 data01
-rw-r--r-- 1 root root 82M Nov 6 13:29 data02
-rw-r--r-- 1 root root 174M Nov 6 13:47 data03
-rw-r--r-- 1 root root 84M Nov 6 13:29 data04
-rw-r--r-- 1 root root 266M Nov 6 13:47 data05
-rw-r--r-- 1 root root 181M Nov 6 14:21 data06
-rw-r--r-- 1 root root 64M Nov 6 13:30 data07
-rw-r--r-- 1 root root 98M Nov 6 13:49 data08
-rw-r--r-- 1 root root 694M Nov 6 14:18 data09
-rw-r--r-- 1 root root 206M Nov 6 13:32 data10
Forums:
얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort
얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort 유틸리티를 사용하여 정렬을 하였습니다.
대략 8시간 걸리더군요.
몇 G 단위는 대충 정렬해도 괜찮을것 같습니다.
너무 잘 만들려고 하다보면, 만드는 시간이 더 걸릴듯 싶네요. :wink:
[quote]$ rpm -qf `which sort`textutils
sort는 textutils에 포함된 프로그램이군요.
참고하겠습니다.
감사합니다. :)
Lum7671's Weblog
댓글 달기