우분투에서 nvidia 그래픽 드라이버 설치할때 커널 모듈 로드 에러 혹시 아시는분 계신가요?
서버에 Tesla K40m을 두개 장착한후 nvidia 그래픽 드라이버를 설치하는데 에러가 발생하네요. 1주일 정도 찾아보고 고민하다가 질문 드립니다.
환경은
OS : 우분투 14.04.1 LTS
서버 : HP DL380p
그래픽카드 : Tesla K40m 두개
설치과정은
1. lightdm 을 stop
2. chmod로 쓰기 권한을 부여
3. .run파일을 실행
다음과 같이 하였습니다.
그런데
Unable to load the kernel module 'nvidia.ko'. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.
Please see the log entries 'Kernel module load error' and 'Kernel messages' at the end of the file '/var/log/nvidia-installer.log' for more information.
이런 에러 메시지가 떠서 로그를 확인해보니
Kernel module load error: No such device
Kernel messages:
[ 2846.343666] [] nvidia_init_module+0x2c4/0x78a [nvidia]
[ 2846.343695] [] ? nv_drm_init+0x15/0x15 [nvidia]
[ 2846.343723] [] nvidia_frontend_init_module+0x86/0x861 [nvidia]
[ 2846.343727] [] do_one_initcall+0xfa/0x1b0
[ 2846.343731] [] ? set_memory_nx+0x43/0x50
[ 2846.343736] [] load_module+0x12dd/0x1b40
[ 2846.343739] [] ? store_uevent+0x40/0x40
[ 2846.343742] [] SyS_finit_module+0x86/0xb0
[ 2846.343746] [] system_call_fastpath+0x1a/0x1f
[ 2846.343747] ---[ end trace 8d51a9b3ed0ff385 ]---
[ 2846.343788] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:
[ 2846.343788] NVRM: BAR1 is 0M @ 0x0 (PCI:0000:04:00.0)
[ 2846.343790] NVRM: The system BIOS may have misconfigured your GPU.
[ 2846.343794] nvidia: probe of 0000:04:00.0 failed with error -1
[ 2846.343846] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:
[ 2846.343846] NVRM: BAR1 is 0M @ 0x0 (PCI:0000:24:00.0)
[ 2846.343853] NVRM: The system BIOS may have misconfigured your GPU.
[ 2846.343867] nvidia: probe of 0000:24:00.0 failed with error -1
[ 2846.343889] Error: Driver 'nvlink' is already registered, aborting...
[ 2846.344317] NVRM: The NVIDIA probe routine failed for 2 device(s).
[ 2846.344319] NVRM: None of the NVIDIA graphics adapters were initialized!
[ 2846.344320] [drm] Module unloaded
[ 2846.344395] NVRM: NVIDIA init module failed!
[ 2846.344902] systemd-udevd[7863]: Failed to apply ACL on /dev/dri/card0: No such file or directory
[ 2846.346540] systemd-udevd[7862]: Failed to apply ACL on /dev/dri/card0: No such file or directory
디바이스를 찾을 수 없다는 에러 메시지를 보고 글을 찾던중 nvidia-current를 설치하면 자동으로 드라이버를 잡아준다는글을 보고 설치를하고
다시 설치를 하였는데
드라이버 설치까지는 진행하는데 마지막에 ERROR: Unable to load the kernel module.이런 메시지가 뜹니다.
nouveau와 커널 모듈이 충돌한다는 글을 보고 블랙리스트에 추가도 해보았는데 마찬가지 증상이 계속 지속됩니다.
혹시 해결방법을 알고 계시는 분은 답변을 주신다면 정말 감사하겠습니다.
댓글 달기