특정 컬럼만을 추출하는 방법

parkon의 이미지

각 라인이 80칸으로 구성된 큰 용량의 아스키 파일이 있습니다.

이 중에서 칼럼 기준 예를 들어 22~24칸만 뽑아내고 싶습니다.

예를 들어, 원 파일이

123456789012345678901abc1234....
123456789012345678901def1234....

이렇게 되어 있다면

abc
def

이렇게 뽑아내고 싶습니다.
물론 위에서 숫자나 abc등은 예시이고 실제론 공백이나 아스키 문자들입니다.
어떻게 할 수 있을런지요 ?

HDNua의 이미지

바이트 배열을 마스크로 쓰는 방법이 떠올라서 구현해봤습니다.
file_mask: 해당 값을 읽을지 말지를 결정하는 마스크 배열. 0이면 넘어가고 그 외의 경우 읽는다.
아래 프로그램은 지정한 행의 값을 차례대로 읽어 file_data 배열에 저장한 후, 저장된 값을 모두 출력하는 프로그램입니다.

- 소스 코드 -

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <memory.h>
#pragma warning(disable:4996)
#define MAX_LINE_COUNT  256
#define MAX_LINE_LENGTH 80
 
// 파일은 최대 MAX_LINE_COUNT-1의 줄 수이며
// 각 줄의 최대 길이가 MAX_LINE_LENGTH을 넘지 않는다고 가정한다
char file_mask[MAX_LINE_LENGTH + 1] = "";
char file_data[MAX_LINE_COUNT][MAX_LINE_LENGTH + 1] = { 0 };
int data_line = 0;
char buf[MAX_LINE_LENGTH] = "";
int read_file(FILE *fp); // 넘겨받은 파일 포인터로부터 파일의 끝까지 값을 읽는다. 실패 시 0이 아닌 값 반환
 
int main(int argc, const char *argv[]) {
    int i;
    FILE *fp = NULL;
    const char *file_name = argv[1];
 
    if (argc > 3) {
        const char *mode = argv[2];
        const char *MODE_READ = "read";
        const char *MODE_SKIP = "skip";
        if (strcmp(mode, MODE_READ) == 0) {
            memset(file_mask, 0, sizeof(file_mask));
            for (i = 3; i < argc; ++i) {
                const char *arg = argv[i];
                int index = atoi(arg);
                file_mask[ index ] = -1;
            }
        }
        else if (strcmp(mode, MODE_SKIP) == 0) {
            memset(file_mask, -1, sizeof(file_mask));
            for (i = 3; i < argc; ++i) {
                const char *arg = argv[i];
                int index = atoi(arg);
                file_mask[ index ] = 0;
            }
        }
        else {
            fprintf(stderr, "invalid file read mode\n");
            return -1;
        }
    }
 
    fp = fopen(file_name, "rt");
    if (read_file(fp) != 0) {
        fprintf(stderr, "failed to read file data\n");
        return -1;
    }
    fclose(fp);
 
    argc -= 3;
    for (i = 0; i < data_line; ++i) {
        int j;
        for (j = 0; j < argc; ++j) {
            printf("%c", file_data[i][j]);
        }
        printf("\n");
    }
 
    return 0;
}
 
int read_file(FILE *fp) { // 넘겨받은 파일 포인터로부터 파일의 끝까지 값을 읽는다. 실패 시 0이 아닌 값 반환
    int line = 0;
    while (fgets(buf, MAX_LINE_LENGTH, fp) != NULL) {
        char *dst = file_data[line++];
        const char *src = buf;
        const char *mask = file_mask;
        char ch;
        while ((ch = *src++) != '\0') {
            if (*mask++) {
                *dst++ = ch;
            }
        }
        *dst = '\0';
    }
    data_line = line;
    return 0;
}

- input.txt -

123456789012345678901abc1234....
123456789012345678901def1234....

- 입력 -

Program input.txt read 21 22 23

- 출력 -

abc
def

저는 이렇게 생각했습니다.

익명 사용자의 이미지

와우, 코드를 짜 주셨군요.
감사합니다... ^^

qiiiiiiiip의 이미지

cut -b 22-24 in.txt
parkon의 이미지

아주 간단하고 멋진 방법이군요, 감사합니다.

한가지 더 질문드리면,

그럼 혹시 22-24칸을 출력하고 그더음 2-3칸을 출력하려면 어떻게 해야 될까요 ?
위의 예의 경우
abc 23
def 23
이런 식으로 출력이 되는 식으로요.

qiiiiiiiip의 이미지

cut -b22-24,26-27 in.txt

입니다만, 중간에 공백을 두는 것은 좀 까다롭겠네요.
awk를 쓰는게 더 나을 듯요.
awk '{print substr($0,22,3) " " substr($0,26,2)}' in.txt

parkon의 이미지

아, 정말 감사드립니다... !!

bushi의 이미지

cut -b22-24,26-27 --output-delimiter=' ' in.txt

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.