サーバーメモリのトラブルシューティング
30秒で分かるポイント
メモリトラブルの多くは装着不良・世代不一致・BIOS設定の3つが原因です。まず最小構成テスト → 1枚ずつ検証 → イベントログ確認の順で切り分けることで、大半の問題を特定できます。
自分で確認できる手順(まず試すこと)
メモリトラブルに遭遇した場合、以下の順序で基本的な切り分けを行ってください。多くのケースはこの手順だけで原因を特定できます。
- 全スロットの装着確認 — サーバーの電源を落とし、各DIMMを一度抜いて挿し直す。ラッチが「カチッ」と鳴るまで押し込む。端子部分に汚れ・異物がないかも目視で確認する。
- 最小構成テスト — CPU + メモリ1枚のみで起動確認。この段階で起動しなければメモリ以外(CPU・マザーボード・電源)の故障も疑う。
- 1枚ずつ追加して切り分け — 最小構成で起動できたら、DIMMを1枚ずつ追加して起動確認を繰り返す。特定の1枚を追加した時点で問題が再現すれば、そのDIMMが故障品である可能性が高い。スロットの故障を切り分けるため、同じDIMMを別のスロットに挿して再テストすることも有効。
症状1: メモリが認識しない
BIOSやOS上でメモリ容量が正しく表示されない、一部のDIMMが認識されないケースです。
主な原因と対処
- スロットへの装着不良 — 最も頻度が高い原因。DIMMがスロットに完全に挿さっていない場合、まったく認識されない。必ずラッチが「カチッ」と閉まるまで押し込む。斜め挿しにも注意。
- DIMMの世代・種類の不一致 — DDR4スロットにDDR5モジュールを挿しても物理的にハマらない(キー溝の位置が異なる)。また、UDIMMスロットにRDIMMを挿すと認識しない場合がある。マザーボードやサーバーの仕様書で対応するDIMM種類を必ず確認する。
- BIOSバージョンが古い — 特に大容量DIMM(64GB、128GBなど)や新しいメモリチップを搭載したDIMMは、古いBIOSでは認識しないことがある。メーカーサイトでBIOSリリースノートを確認し、「メモリ対応改善」に該当するアップデートがあれば適用する。
- 最大スロット数・最大容量の超過 — サーバーにはCPUあたりのチャネル数・スロット数・合計最大容量の上限がある。例えば「CPU1あたりDIMMスロット8基、最大容量512GB」の制限を超えた構成では、超過分が認識されない。
症状2: サーバーが起動しない
メモリ増設・交換後にサーバーがPOST(Power-On Self-Test)を通過しない、画面が表示されないケースです。
主な原因と対処
- 最小構成テスト — CPU + メモリ1枚の最小構成で起動するか確認する。この構成で起動すればメモリ関連の問題、起動しなければマザーボード・CPU・電源の故障も疑う。
- DIMM 1枚ずつの検証 — 最小構成で起動できたら、DIMMを1枚ずつ追加する。特定のDIMMを挿した時に起動しなくなれば、そのDIMMの故障が疑われる。さらにそのDIMMを別スロットに挿して再テストし、スロット故障との切り分けも行う。
- CMOSクリア — BIOS設定が不整合になっている場合、CMOSクリアで工場出荷時に戻すことで起動する場合がある。マザーボード上のCMOSクリアジャンパまたはボタン電池の取り外しで実行(手順はサーバーのメンテナンスマニュアルを参照)。
- 電源容量不足 — 大量のDIMMを増設すると消費電力が増加する。特にLRDIMM 128GB以上を多数搭載する場合、電源ユニットの容量が不足して起動できないことがある。電源ユニットの定格出力とサーバー構成の消費電力を照合する。
症状3: ECCエラーが頻発する
サーバーの管理ログにメモリエラーが記録される、ECCエラーの通知が頻繁に来るケースです。
主な原因と対処
- イベントログで確認 — HP iLO、Dell iDRAC、Lenovo XClarity、またはOS上のイベントログでエラー内容を確認する。どのスロットのDIMMでエラーが出ているか、エラーの種類(CE/UE)を特定する。
- Correctable Error(CE)の場合 — ECCが自動修正した1ビットエラー。単発のCEは正常動作の範囲だが、同一DIMMで短時間にCEが多発する場合はメモリの劣化が進んでいる兆候。メーカーの推奨しきい値(例: 24時間以内にCE 10回以上など [要確認])を超えた場合は予防交換を検討する。
- Uncorrectable Error(UE)の場合 — 2ビット以上のエラーでECCが修正できないケース。システムクラッシュやデータ破損のリスクがあるため、即座にDIMMを交換する。UEが発生したDIMMのスロット番号をログから特定し、代替品と交換する。
- 1枚ずつ交換テスト — エラーがスロット起因かDIMM起因かを切り分けるため、エラーが出ているDIMMを別の正常なスロットに移して再テストする。別スロットでもエラーが出ればDIMM故障、元スロットでのみ出ればスロット(マザーボード)の問題。
症状4: メモリ速度が期待値より低い
DDR4-3200のメモリを搭載したのにBIOS上で2933MT/sや2666MT/sと表示されるケースです。
主な原因と対処
- BIOS設定の確認 — メモリ動作速度がBIOSで手動設定されていないか確認する。「Auto」になっていればSPD情報に基づく速度で動作するが、手動で低い速度に固定されている場合がある。
- 異なる速度のDIMM混在 — DDR4-3200とDDR4-2666を混在させると、全DIMMが低い方の速度(2666MT/s)に合わせて動作する。メモリ速度を最大化するには、全DIMMを同一速度のもので統一する。
- Rank混在の影響 — 1チャネルあたりのRank数が増えると、CPUのメモリコントローラの負荷が上がり、動作速度が下がることがある。例えば1チャネルに2R DIMM x 2枚(合計4 Rank)の場合、1枚構成より速度が低下する場合がある [要確認]。
- インターリーブ設定 — BIOSのメモリインターリーブ設定が非対称になっていると性能が低下する。特にNUMA構成のサーバーでは、各CPUに均等にDIMMを配置し、対称構成にすることが推奨される。
症状5: OS不安定(ブルースクリーン / カーネルパニック)
メモリ増設後にWindowsのブルースクリーン(BSOD)やLinuxのカーネルパニックが発生するケースです。
主な原因と対処
- memtest86+ での検証 — USBメモリからmemtest86+を起動し、全メモリ領域をテストする。最低4パス(8時間以上)の実行を推奨。1パスではメモリの全アドレスパターンを網羅できないため、短時間のテストでは潜在的な不良を見逃すことがある。エラーが検出された場合、DIMMをスロットを変えて再テストし、DIMM故障かスロット故障かを切り分ける。
- 温度確認 — iLO、IPMI、iDRACなどの管理コンソールでメモリの温度を確認する。DIMMの動作温度上限は一般的に85℃前後 [要確認] だが、高温環境やエアフローが不足している場合は熱による不安定動作が起きる。サーバーラック内のエアフロー確保、ブランクパネルの設置を見直す。
- 電源容量確認 — メモリ大量増設により電源容量が逼迫している場合、負荷が高まった時にシステムが不安定になることがある。サーバーメーカーが提供する電力計算ツール(HP Power Advisor、Dell Energy Calculatorなど)で現構成の消費電力を確認する。
よくある事故ポイント
静電気対策なしでの作業
DIMMは静電気に弱い精密部品です。作業前に必ず静電気防止用リストバンドを装着するか、サーバーラックの金属部分に触れて体の静電気を逃がしてください。冬場の乾燥した環境では特に注意が必要です。
複数枚同時交換による原因特定の困難化
複数のDIMMを一度に交換すると、問題が発生した場合にどのDIMMが原因か特定できなくなります。交換・増設は1枚ずつ行い、その都度動作確認を行うのが原則です。
BIOSアップデートなしで新世代メモリを装着
特に大容量DIMMや新しいチップ世代のメモリは、古いBIOSでは正しく認識されない場合があります。増設前にメーカーサイトで最新BIOSのリリースノートを確認し、必要であればアップデートを先に行ってください。
問い合わせテンプレート
自社で解決できない場合、以下の情報を整理して問い合わせると、より迅速な対応を受けられます。
症状が複合的な場合や、上記で解決しない場合はハードウェア診断が必要です [要確認]。サーバーメーカーのサポート窓口、または専門業者への相談を検討してください。
※ 本記事の内容は一般的なサーバーメモリのトラブルシューティング手順です。サーバーメーカー・モデルにより対処手順が異なる場合があります。作業前に必ずメーカーのメンテナンスマニュアルを参照してください。