파이썬에서 codecs.open 한후 read 시 읽은 글자수는??

글쓴이: marunguy / 작성시간: 수, 2009/10/07 - 12:12오후

파이썬 마을에 올렸는데 답변이 없어서.. TT_TT..
http://python.kr/viewtopic.php?p=68739#68739

아무래도 BOM 이 있는 utf-16 파일을 codecs.open 으로 열고 read시 버그가 있는듯 합니다.

아래와 같은 내용을 가진 BOM 이 없는 utf-16le 문자셋의 t.txt 파일을 생성합니다.
ABCDEFGHIJKLMNOPQRSTUVWXYZ

먼저, 아래와 같은 코드를 실행합니다.

for i in range(1,20):
    f = codecs.open("t.txt", encoding="utf-16le")
    t = f.read(i)
    print i, len(t), t
    f.close()

그러면, 아래와 같이 원하는 글자수만큼 읽습니다.

1 1 A
2 2 AB
3 3 ABC
4 4 ABCD
5 5 ABCDE
6 6 ABCDEF
7 7 ABCDEFG
8 8 ABCDEFGH
9 9 ABCDEFGHI
10 10 ABCDEFGHIJ
11 11 ABCDEFGHIJK
12 12 ABCDEFGHIJKL
13 13 ABCDEFGHIJKLM
14 14 ABCDEFGHIJKLMN
15 15 ABCDEFGHIJKLMNO
16 16 ABCDEFGHIJKLMNOP
17 17 ABCDEFGHIJKLMNOPQ
18 18 ABCDEFGHIJKLMNOPQR
19 19 ABCDEFGHIJKLMNOPQRS

이번엔, t.txt 에 UTF-16LE BOM 을 추가하고 아래와 같은 코드를 실행합니다.

for i in range(1,20):
    f = codecs.open("t.txt", encoding="utf-16")
    t = f.read(i)
    print i, len(t), t
    f.close()

그러면, 아래와 같이 중간중간 원하는 글자수보다 더 많이 읽습니다.

1 1 A
2 2 AB
3 3 ABC
4 5 ABCDE
5 6 ABCDEF
6 8 ABCDEFGH
7 9 ABCDEFGHI
8 11 ABCDEFGHIJK
9 12 ABCDEFGHIJKL
10 14 ABCDEFGHIJKLMN
11 15 ABCDEFGHIJKLMNO
12 17 ABCDEFGHIJKLMNOPQ
13 18 ABCDEFGHIJKLMNOPQR
14 20 ABCDEFGHIJKLMNOPQRST
15 21 ABCDEFGHIJKLMNOPQRSTU
16 23 ABCDEFGHIJKLMNOPQRSTUVW
17 24 ABCDEFGHIJKLMNOPQRSTUVWX
18 26 ABCDEFGHIJKLMNOPQRSTUVWXYZ
19 27 ABCDEFGHIJKLMNOPQRSTUVWXYZ

파일전체를 한번에 읽어서 처리하면 별문제가 없지만 파일크기가 커서 그렇게 할 수 없는 상황입니다.

XP SP3 , python 2.5.4 / 2.6.2 와 데비안, python 2.5.4 에서 동일증상입니다.

이 문제를 회피할 수 있는 방법이 있을까요?

Forums:

프로그래밍 QnA

댓글 달기

이름

제목

댓글 *

텍스트 포맷에 대한 자세한 정보

텍스트 양식

Filtered HTML

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
You can use Textile markup to format text.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
Quick Tips:
- Two or more spaces at a line's end = Line break
- Double returns = Paragraph
- *Single asterisks* or _single underscores_ = Emphasis
- **Double** or __double__ = Strong
- This is [a link](http://the.link.example.com "The optional title text")
For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

HTML 태그를 사용할 수 없습니다.
web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
줄과 단락은 자동으로 분리됩니다.

CAPTCHA

이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.

부 메뉴

파이썬에서 codecs.open 한후 read 시 읽은 글자수는??

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

둘러보기

부 메뉴

현재 위치

파이썬에서 codecs.open 한후 read 시 읽은 글자수는??

댓글 달기

Filtered HTML

BBCode

Textile

Markdown

Plain text

주 메뉴

검색 폼

둘러보기

사용자 로그인

Oauth2 Login :