はい、というわけでメインPCに繋いでいた外付けHDDが死にました。

TL;DR

ハードディスクがぶっ壊れ対応を誤り全部飛ばした。
教訓:寿命に気をつけろ,SMART見ろ,壊れかけのHDDを再起動するな

経緯

今日(4/22)は諸事情で休みだったので8時頃起床,すぐにPCへ向かうも何故かフリーズしている
とりあえず再起動を試みるも、Ctrl+Alt+Deleteすらエラーを吐く異常事態のためWindowsの指示通り電源ボタンでシャットダウンを試みる(強制電源断ではない)
ところがシャットダウンのプロセスもかなり難航し、10分ほどたった後で強制電源断からの再起動。
すると一応は快調に動き出す。一安心してエクスプローラーやいつも使っているソフトを開くも調子が悪い。どうやらドライブX(仮)がおかしいようだ。
ちなみに、Xには古くなってシステムSSDに置いておくには邪魔なファイルや,GoogleDriveに同期させたいファイルだとか,テレビの録画ファイルだとかが置いてあった。 GoogleDriveでの同期も一部フォルダにアクセスできないことを警告していた。
ここで強制電源断によるファイルシステムの不整合を引き起こしたと思い込み次のような対処をする。

  1. ディスクにアクセスするソフトウェアをすべて停止

  2. chkdsk /f X:

    1. ファイル レコード セグメント XXXXX を読み取れません。というエラーが大量発生
  3. そのままCrystalDiskInfo(以下CDI)を確認

    1. 代替処理保留中のセクタ数(C5)の生の値が増加

      1. 強制電源断によってここが増加するという話を聞いていたので(あと寝ぼけていたので)そのままchkdskを続行
  4. 1時間程度経って物理障害の可能性や時間の問題を考え中断。

  5. Veracryptのマウント機能で読み込み専用にして再マウント(物理ディスクはアンマウントしていない)

  6. ここらへんで本格的に物理障害であることに気づく

    1. イベントビューアーの情報からHDDの障害が明らかに強制電源断の前から発生していることに気づいた
  7. とりあえずバックアップを取ろうと思うも空き容量が不足しているため断念

  8. どちらにしろ使い物にはならないので新しいHDDを手配

  9. マウントしていることでPCの動作が不安定になるのでVeracrypt側でアンマウント(物理ディスクはそのまま)

  10. それでも怪しいのでアクセスしていないことを確認の上USBを切断

  11. ファームウェアすら読めなくなり完全に死亡

とまあこんな感じであり、落ち着いて考えると明らかに悪手を連発している

考察

PCが常日頃から不安定だったからHDDが壊れたことに気づかず、十分な調査をしないまま論理障害と決めつけ回復操作を行い、最終的に電源を切断したことによってとどめを刺してしまった。

さらに後の調査(笑)で、CDIのログファイルを検証した所4/20朝にはすでにC5>1となっていて健康状態が注意となっていたことが分かった。すなわちCDIを定期的に確認していれば素早い対応によってデータの救出が可能であったかもしれないということだ❓
これがC5のグラフである。4/20の6時には2となっており注意が必要な状態であったのが22日6を境に急増している。

より詳細なグラフを示す。chkdskの後半、エラーが出てから中断するまでの増加よりそれ以降の増加のほうが大きいのは注目すべき点であるが原因は不明である。
仮説:chkdsk前半は全ハンドラが強制終了したので障害箇所へのアクセス減→後半でアクセスが発生しダメージ,終了後全体的にアクセスがかかり被害が拡大という関係❓
どちらにしろ何をやっても数分後にはボロボロになっていた可能性が高い(ので俺は悪くない)

そもそもなぜHDDが故障したかという問いに対して明確な答えを出すことは不可能だが、原因として考えられる要因はいくつかある。

  • 3.5inHDDとしてはかなり昔から使っていること(実働一年半,14832時間506パワーオン)

  • バックアップ用でもありプログラム用でもあったためほぼ常時アクセスがあったこと

  • 熱がこもりやすい状況だったこと

※実際に温度グラフを見ても過剰な温度変化や超高温にさらされることは少なかったと推定されるので単に常時アクセスしていたことで寿命が早まったというのが妥当だと思われる。

対策と対処法について

対策

  • 常時アクセスを避ける

    • バックアップの間隔を広げ、アクセスレートに制限をかける

    • プログラム用ディスクを別に用意する

  • 常時起動をやめる

    • 特に夏場や冬の温度変化が多い時期にはシャットダウンしておいたほうが安全?

    • つけっぱなしのほうが寿命延びるという噂もある

  • RAID

    • 金が足りません

もしHDDが故障した際の対処法フローチャート

これは声を大にして言いたいのですが、HDDに障害がある状態で再起動することは確実に悪手です。論理障害では何の解決にもならず,物理障害ではとどめを刺す可能性が非常に高いです❗

以上。