[질문] 2파일을 비교해서 중복된 라인 제거하기

psycoder의 이미지

a.txt와 b.txt 두 파일을 비교해서 중복된 라인을 제거하고자 합니다.

int main(void)
{
   int flag=1;
   FILE *fp1, *fp2, *fp3;
   char file1[1024]={0}, file2[1024]={0};

   fp1=fopen("./a.txt", "r");
   fp2=fopen("./b.txt", "r");

   while(fgets(file1, sizeof(file1), fp1) !=NULL) {
      while(fgets(file2, sizeof(file2), fp2) !=NULL) {
          if(!strcmp(file1, file2)) {
            flag=0;
            break;
          }
          else {
             flag=1;
             continue;
          }
      }
      if(flag==1) {
          fp3=fopen("./c.txt", "a");
          fprintf(fp3, "%s", file1);
          fclose(fp3);
      }
      continue;
  }
fclose(fp2);
fclose(fp1);
return 0;
}

이렇게 만들어봤는데요..
여기서 잘못된게 있나요?
실행해보면 바깥쪽 while() 루프가 한번밖에 실행되지 않습니다.
즉, a.txt 1라인만 b.txt 전체 라인과 비교한후 그냥 끝나버립니다.
답변에 미리 감사드립니다.
cedar의 이미지

(파일)스트림을 읽거나 쓸때는 앞에서 뒤로만 단 한번만 이동합니다.
위에서처럼 루프를 돌기 위해 스트림의 처음(bos: begin of stream)으로 이동하려면, 파일을 닫고 다시 열거나, 파일 포인터를 bos로 수동으로 이동시켜줄 필요가 있습니다.
매번 루프를 돌때 마다 이런 작업을 한다면, 파일 I/O 속도가 느리기 때문에 프로그램이 상당히 느려집니다. 아예 파일을 전부 메모리에 올려놓고 루프를 돌리는것이 코딩하기도 편하고 속도도 빨라집니다.

제가 C++로 작성한 다음 코드를 참고하세요.

//---------------------------------------------------------------------------
#include <iostream>
#include <fstream>
#include <string>
#pragma hdrstop
#include <vector>
#include <iterator>
#include <algorithm>
//---------------------------------------------------------------------------

template <typename T>
struct line 
{
    T str_;
    line() {} 
    line(const std::string& s) : str_(s) {} 
    operator T() const { return str_; }
};

template <typename T>
std::istream& operator>>(std::istream& is, line<T>& sl)
{
    return std::getline(is, sl.str_);
}

template <typename T, typename ForwardIterator>
class find_pred
{
public:
    find_pred(ForwardIterator first, ForwardIterator last)
        : first_(first), last_(last) {}
    bool operator()(const T& value)
    {
        ForwardIterator first(first_), last(last_);
        return std::find(first, last, value) != last;
    }
private:
    ForwardIterator first_, last_;
};


int main(int argc, char* argv[])
{
    using namespace std;

    if (argc >= 3) {
      ifstream fin1(argv[1]), fin2(argv[2]);
      ofstream fout3(argv[3]);
      istream_iterator<line<string> > eos, is_iter1(fin1), is_iter2(fin2);
      ostream_iterator<string> os_iter3(fout3, "\n");

      vector<string> file2(is_iter2, eos);

      remove_copy_if(is_iter1, eos, os_iter3,
        find_pred<string, vector<string>::iterator>(file2.begin(), file2.end()));
    }

    return 0;
}
//---------------------------------------------------------------------------

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.