今週の月曜日朝、我が家のサーバーを監視している先からNG連絡が入りました。
サーバーにログインしようとしても入れません。しかたなくパソコンを強制切断し立上げました。
ログを見てもそれらしき原因は見当たりません。
その日の夜る、メモリチェックソフト “memtest86+”を使いサーバーのメモリーテスト行いましたがエラーはありません。
次の日の火曜日朝もダウンしました。
ハードに問題が無いか”lm_sensors”をインストールして”sensor”コマンドでCPUやマザーボードの温度を測定しましたがいずれも30数℃、負荷をかけても大きな温度上昇はなく問題はなさそうです。
# sensors
acpitz-virtual-0
Adapter: Virtual device
temp1: +40.0°C (crit = +75.0°C)
k8temp-pci-00c3
Adapter: PCI adapter
Core0 Temp: +29.0°C
Core1 Temp: +35.0°C
atk0110-acpi-0
Adapter: ACPI interface
Vcore Voltage: +1.10 V (min = +0.85 V, max = +1.60 V)
+3.3 Voltage: +3.38 V (min = +3.00 V, max = +3.60 V)
+5.0 Voltage: +4.87 V (min = +4.50 V, max = +5.50 V)
+12.0 Voltage: +12.16 V (min = +11.20 V, max = +13.20 V)
CPU FAN Speed: 3229 RPM (min = 0 RPM)
CHASSIS FAN Speed: 919 RPM (min = 0 RPM)
POWER FAN Speed: 0 RPM (min = 0 RPM)
CPU Temperature: +30.0°C (high = +90.0°C, crit = +125.0°C)
MB Temperature: +33.0°C (high = +45.0°C, crit = +90.0°C)
ダウンする時間が朝4時から6時の間です。その時間に稼働するcronに問題があるのでは?
水曜日、なぜか今日はダウン無し。なおったのかな?
しかし木曜日朝、ダウンはしなかったもののサーバーからメールが届きました。
[abrt] full crash report
:BUG: Bad page state in process clamscan
その夜アンチウィルスソフトClam AntiVirusclamに問題があるのではと思いソフトウェアをアンインストールし入れなおしました。
金曜日、ダウン無し。回復したかな?