CentOS7에서 EDAC(Error Detection And Correction) 로그 확인하는 방법
EDAC (Error Detection And Correction)은 하드웨어 메모리 오류를 감지하고 수정하는 기술입니다. EDAC는 주로 메모리와 관련된 오류를 식별하고 시스템의 안정성을 유지하기 위해 사용됩니다. EDAC 로그는 시스템의 메모리 에러 및 오류 정보를 기록하는 시스템 로그입니다.(EDAC = 오류 감지 및 수정)
EDAC 로그는 다양한 리눅스 시스템에서 사용될 수 있으며, 로그 파일의 위치와 이름은 시스템에 따라 다를 수 있습니다. 보통 /var/log/messages, /var/log/syslog 또는 /var/log/edac.log와 같은 파일에 기록됩니다.
테스트 환경
- 하드웨어 환경
dmidecode -t system
$ dmidecode -t system
# dmidecode 3.2
Getting SMBIOS data from sysfs.
SMBIOS 2.7 present.
Handle 0x0100, DMI type 1, 27 bytes
System Information
Manufacturer: HP
Product Name: ProLiant DL380 G7
Version: Not Specified
Serial Number: SXXXXXXXXA
UUID: 39444835-7926-4753-1346-64344631364E
Wake-up Type: Power Switch
SKU Number: XXXXXX-B21
Family: ProLiant
Handle 0x2000, DMI type 32, 11 bytes
System Boot Information
Status: No errors detected
- 운영체제 환경
$ cat /etc/redhat-release
CentOS Linux release 7.7.1908 (Core)
$ getconf LONG_BIT
64
$ uname -r
3.10.0-1062.18.1.el7.x86_64
1. 시스템 로그 확인(/var/log/messages)
cat /var/log/messages | grep -i edac
kernel: mce: [Hardware Error]: Machine check events logged
kernel: EDAC MC0: 1 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
2. dmesg 명령을 사용하여 로그 확인
sudo dmesg | grep -i edac
kernel: EDAC MC0: 1 CE error on CPU#0Channel#0_DIMM#0
- 오류 감지 및 수정(error detection and correction, EDAC)
- 메모리 컨트롤러(memory controller, MC)
- 수정 가능한 오류(correctable errors, CE)
- 듀얼 인라인 메모리 모듈(dual in-line memory module, DIMM)
3. journalctl 명령어 사용
sudo journalctl | grep -i edac
장애 확인 및 장애 메모리 슬롯 위치
grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:4
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
메모리 슬롯 위치 확인(dmidecode 명령)
dmidecode -t memory | grep -v "Size: No Module Installed" | grep -C 3 -i Size
$ dmidecode -t memory | grep -v "Size: No Module Installed" | grep -C 3 -i Size
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: 3
Locator: PROC 1 DIMM 3A
--
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: 12
Locator: PROC 2 DIMM 3A
EDAC 유틸리티(edac-utils) 설치
yum install -y libsysfs edac-utils
edac-utils 명령 실행
EDAC 메모리 정보 확인
sudo edac-util --status
edac-util 유틸리티를 사용하여 시스템의 EDAC 메모리 정보를 확인할 수 있습니다. 이 명령은 시스템의 메모리 에러 상태, 오류 감지 횟수, 에러 유형 등을 제공합니다.
edac-util -v
$ edac-util -v
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
mc0: csrow0: 0 Uncorrected Errors
mc0: csrow0: CPU#0Channel#0_DIMM#0: 4 Corrected Errors
mc1: 0 Uncorrected Errors with no DIMM info
mc1: 0 Corrected Errors with no DIMM info
mc1: csrow0: 0 Uncorrected Errors
mc1: csrow0: CPU#1Channel#0_DIMM#0: 0 Corrected Errors
참고URL
- https://www.kernel.org/doc/html/v5.0/admin-guide/ras.html
'리눅스' 카테고리의 다른 글
웹 서버에서 CORS 설정하는 방법 (0) | 2023.04.12 |
---|---|
[리눅스] How to install JMeter on Linux (0) | 2023.04.11 |
우분투에서 PHP-FPM 최신(php-fpm 8.2) 버전 설치하기 (0) | 2023.04.10 |
우분투에서 NGINX의 최신 버전을 설치하는 방법 (0) | 2023.04.10 |
우분투에서 부팅 모드를 변경하는 방법 (0) | 2023.04.07 |