Binary 큰 데이터 중복 제거 방법.

글쓴이: antz / 작성시간: 목, 2003/11/06 - 2:23오후

Structure 데이터를 Binary로 저장 하는데요.
하루하루 업데이트를 하고
건수가 많다 보니 중복이 생깁니다.

단순히 생각해서 정렬을 해서 없애면 될것 같지만,
몇백M 되는것들을 정렬하려니 머리가 아프네요.

도움이 될까해서 문의를 해봅니다.

감사합니다.

Quote:

$ ls -alh data??
-rw-r--r-- 1 root root 834M Nov 6 14:17 data01
-rw-r--r-- 1 root root 82M Nov 6 13:29 data02
-rw-r--r-- 1 root root 174M Nov 6 13:47 data03
-rw-r--r-- 1 root root 84M Nov 6 13:29 data04
-rw-r--r-- 1 root root 266M Nov 6 13:47 data05
-rw-r--r-- 1 root root 181M Nov 6 14:21 data06
-rw-r--r-- 1 root root 64M Nov 6 13:30 data07
-rw-r--r-- 1 root root 98M Nov 6 13:49 data08
-rw-r--r-- 1 root root 694M Nov 6 14:18 data09
-rw-r--r-- 1 root root 206M Nov 6 13:32 data10

Forums:

프로그래밍 QnA

댓글 달기

얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort

글쓴이: lunarainbow / 작성시간: 목, 2003/11/06 - 2:54오후

얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort 유틸리티를 사용하여 정렬을 하였습니다.

대략 8시간 걸리더군요.

몇 G 단위는 대충 정렬해도 괜찮을것 같습니다.

너무 잘 만들려고 하다보면, 만드는 시간이 더 걸릴듯 싶네요. :wink:

답글

[quote]$ rpm -qf `which sort`textutils

글쓴이: antz / 작성시간: 목, 2003/11/06 - 4:33오후

Quote:

$ rpm -qf `which sort`
textutils-2.0.14-2

sort는 textutils에 포함된 프로그램이군요.

참고하겠습니다.

감사합니다. :)

Lum7671's Weblog

답글

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

Binary 큰 데이터 중복 제거 방법.

얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort

[quote]$ rpm -qf `which sort`textutils

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

Binary 큰 데이터 중복 제거 방법.

얼마전에 대략 4억7천만 라인의 텍스트 데이터를 (대략 20G) sort

[quote]$ rpm -qf `which sort`textutils

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :