함수 호출 시 지역변수 선언과 latency 에 대해서

macros의 이미지

단순히

서브 함수내 지역변수를 아주 많이 선언(배열 포함)하는 것만으로도

latency 가 늘어날까요?

제 생각엔 사이즈가 커진다면 아무래도 스택 할당 시간이 늘어져서

function call letency도 같이 늘어날 것 같은데..

bushi의 이미지

run-time 에 allocation 되지 않으므로 allocation latency 는 존재하지 않습니다.

OTL

ihavnoth의 이미지

컴파일러에 옵티마이징옵션주면...

지역변수 몇개까지는 스택에 저장하지 않고

레지스터를 이용한다고 합니다.

그래서 지역변수 갯수를 줄이라는 말을 들은적 있습니다.

없음

bushi의 이미지

그런 최적화 기능이 컴파일러에 구현될 의무가 있는 지는 모르겠지만,
설령 구현된다치더라도 architecture 에 따라 불가능할 경우가 많을 것 같고요.
어디에 있느냐에 따라 access latency 가 생길 수는 있습니다.

최적화 얘기가 나와서 말인데,

[bushi@rose local]$ cat l1.c
int test(int a)
{
        int b = 2, c = 3, d = 4;
        return (a + b) * c + d;
}
 
int main()
{
        return test(1);
}
[bushi@rose local]$
[bushi@rose local]$ cat l2.c
int test(int a)
{
        int b = 2, c = 3, d = 4;
        int e, f, g;
        e = (a + b);
        f = e * c;
        g = f + d;
        return g;
}
 
int main()
{
        return test(1);
}
[bushi@rose local]$

[bushi@rose local]$ gcc -O2 -S l1.c
[bushi@rose local]$ gcc -O2 -S l2.c
[bushi@rose local]$ diff -u l1.s l2.s
--- l1.s        2008-10-09 03:34:36.000000000 +0900
+++ l2.s        2008-10-09 03:34:38.000000000 +0900
@@ -1,4 +1,4 @@
-       .file   "l1.c"
+       .file   "l2.c"
        .text
        .p2align 4,,15
 .globl test
[bushi@rose local]$ 

의미 있는 중간 결과를 담을 그릇은 명시적으로 코딩해 주는 편이 더 인간적이라고 배웠습니다.

마지막으로,
gcc 의 경우는 매우 자주 반복적으로 접근할 것으로 예상되는 놈을 위해
특별히 register 라는 지시자(?)를 준비해두고 있습니다.
코더가 컴파일러에게 요청하는 겁니다.
"어지간하면 이놈 좀 신경 써 줬으면 좋겠는데"

[bushi@rose local]$ cat i1.c
int main()
{
        int i;
        for (i=0;i<1000000;i++)
                i++;
        return i;
}
[bushi@rose local]$ 
[bushi@rose local]$ cat i2.c
int main()
{
        register int i;
        for (i=0;i<1000000;i++)
                i++;
        return i;
}
[bushi@rose local]$

최적화 옵션이 없더라도, 최선을 다해 신경 써 줍니다.
x86 은 보기 힘드니 arm 으로 해보죠.

[bushi@rose local]$ /opt/host/arm-2007q1/bin/arm-none-linux-gnueabi-gcc -S i1.c -o i1.s
[bushi@rose local]$ /opt/host/arm-2007q1/bin/arm-none-linux-gnueabi-gcc -S i2.c -o i2.s
[bushi@rose local]$ 
[bushi@rose local]$ /opt/host/arm-2007q1/bin/arm-none-linux-gnueabi-gcc -O2 -S i1.c -o i1_O.s
[bushi@rose local]$ /opt/host/arm-2007q1/bin/arm-none-linux-gnueabi-gcc -O2 -S i2.c -o i2_O.s
[bushi@rose local]$ 
[bushi@rose local]$ diff -u i1.s i2.s
--- i1.s        2008-10-09 04:02:36.000000000 +0900
+++ i2.s        2008-10-09 04:02:38.000000000 +0900
@@ -8,7 +8,7 @@
        .eabi_attribute 26, 2
        .eabi_attribute 30, 6
        .eabi_attribute 18, 4
-       .file   "i1.c"
+       .file   "i2.c"
        .text
        .align  2
        .global main
@@ -21,19 +21,19 @@
        add     fp, sp, #0
        sub     sp, sp, #12
        @ lr needed for prologue
-       mov     r3, #0
-       str     r3, [fp, #-8]
+       mov     r2, #0
+       str     r2, [fp, #-8]
        b       .L2
 .L3:
        ldr     r3, [fp, #-8]
        add     r3, r3, #1
        str     r3, [fp, #-8]
-       ldr     r3, [fp, #-8]
-       add     r3, r3, #1
-       str     r3, [fp, #-8]
-.L2:
        ldr     r2, [fp, #-8]
+       add     r2, r2, #1
+       str     r2, [fp, #-8]
+.L2:
        ldr     r3, .L6
+       ldr     r2, [fp, #-8]
        cmp     r2, r3
        ble     .L3
        ldr     r3, [fp, #-8]
[bushi@rose local]$ 
[bushi@rose local]$ diff -u i1_O.s i2_O.s
--- i1_O.s      2008-10-09 04:03:10.000000000 +0900
+++ i2_O.s      2008-10-09 04:03:16.000000000 +0900
@@ -8,7 +8,7 @@
        .eabi_attribute 26, 2
        .eabi_attribute 30, 2
        .eabi_attribute 18, 4
-       .file   "i1.c"
+       .file   "i2.c"
        .text
        .align  2
        .global main
[bushi@rose local]$

OTL

ihavnoth의 이미지

당장 가서 다른 소스로 해봐야겠네요...

없음

paeksj98의 이미지

저두한번 테스트 해봐야 겠습니다.

jick의 이미지

스택 프레임을 새로 잡는 것은 스택의 크기와 무관하게 그냥 stack pointer를 프레임 크기만큼 빼주는 (혹은 bottom-up 방식의 stack이라면 더해주는) 걸로 끝입니다. 즉 스택의 크기와 무관하게 기계어 명령어 두세 개로 끝납니다.

그렇다면 그렇다고 스택 크기와 성능은 완전히 무관하냐? 하면 그런 것은 아니고...

1. 스택이 크면 클수록 메모리 상에서 자주 사용되는 지역변수의 위치가 서로 멀리 떨어지게 됩니다. (즉 f가 g를 부르고 g가 h를 부르면 f의 지역변수와 h의 지역변수 사이 거리가 늘어나겠죠.) 따라서 data cache locality가 나빠집니다. 즉 예전에는 자주 사용되는 지역변수를 담기 위해 cache line이 다섯 개로 충분했다면 이제 50개로 늘어날 수가 있습니다.

2. 스택이 진짜 크다면 (일반적인 PC 기준으로 수백 K 정도?) 시스템의 메모리 요구량이 늘어납니다. 그러면 당연히 메모리를 제공하기 위해 가상메모리 일부를 디스크로 swap-out해야 하고... 어쩌구 저쩌구... 성능이 느려지겠죠. 즉 쉽게 말해 "컴퓨터가 버벅거린다"라는 현상이 일어납니다. 물론 요즘 PC에서 프로세스 하나로 눈에 확 보이는 차이를 내려면 스택을 수백 M는 잡아야 하겠지만, 시간을 재서 비교한다면 훨씬 작은 스택 크기에서도 유의미한 성능 차이가 나올 수 있겠죠.

이상은 스택에 잡는 자동변수를 초기화하지 않을 때 얘기고, 물론 얘들을 잡을 때마다 초기화한다면 초기화 비용은 초기화하는 변수의 사이즈에 비례해서 늘어납니다. (덩치 큰 자동배열을 잡고 0으로 초기화한다든지 하는 건 성능 면에서 완전 삽질. 그 함수가 자주 불린다면 다른 방법을 강구해 보세요.)

* 그리고 저 위에 bushi님이 "runtime에 allocation이 되지 않는다"라고 하신 말은 무슨 뜻인지 잘 이해가 안가네요... -.-

bushi의 이미지

원 질문자가 예로 든,

int a;

int a, b;

두번째 코드의 b 때문에 실행 때 할당 건수가 늘어나서 시간지연이 생기지 않느냐에 대한 답입니다.
제 댓글이 아니라 질문을 이해 못하신 것 같은데요.

OTL

댓글 달기

Filtered HTML

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

BBCode

  • 텍스트에 BBCode 태그를 사용할 수 있습니다. URL은 자동으로 링크 됩니다.
  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param>
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.

Textile

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • You can use Textile markup to format text.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Markdown

  • 다음 태그를 이용하여 소스 코드 구문 강조를 할 수 있습니다: <code>, <blockcode>, <apache>, <applescript>, <autoconf>, <awk>, <bash>, <c>, <cpp>, <css>, <diff>, <drupal5>, <drupal6>, <gdb>, <html>, <html5>, <java>, <javascript>, <ldif>, <lua>, <make>, <mysql>, <perl>, <perl6>, <php>, <pgsql>, <proftpd>, <python>, <reg>, <spec>, <ruby>. 지원하는 태그 형식: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 사용할 수 있는 HTML 태그: <p><div><span><br><a><em><strong><del><ins><b><i><u><s><pre><code><cite><blockquote><ul><ol><li><dl><dt><dd><table><tr><td><th><thead><tbody><h1><h2><h3><h4><h5><h6><img><embed><object><param><hr>

Plain text

  • HTML 태그를 사용할 수 없습니다.
  • web 주소와/이메일 주소를 클릭할 수 있는 링크로 자동으로 바꿉니다.
  • 줄과 단락은 자동으로 분리됩니다.
댓글 첨부 파일
이 댓글에 이미지나 파일을 업로드 합니다.
파일 크기는 8 MB보다 작아야 합니다.
허용할 파일 형식: txt pdf doc xls gif jpg jpeg mp3 png rar zip.
CAPTCHA
이것은 자동으로 스팸을 올리는 것을 막기 위해서 제공됩니다.