TL;DR

貴様らの言う”音質”は音質ではない。

前提知識

デジタルオーディオに対するある程度の知識。
PCMやサンプリングレート,ビット深度という言葉の意味が理解できる程度。

オーディオにおける音質とはそもそもなんだ❓

様々な定義があるが、一般的に受け入れられている国際的な基準、例えばPEAQ(Perceptual Evaluation of Audio Quality)やヤマハUSAのホワイトペーパーを見ると

音質とは原音再現性である

という定義が最も単純で比較的普遍なものだとわかる。以後この定義をもとに話を進めていく。

注)原音再現性が相対的なものであるから、当然音質も相対的である。

勘違い1)LantisのCDは音質が悪い❓

こんな話を聞いたことはないだろうか

LantisのCDは音質が悪い
(Lantis制作の音楽は)音が歪んでいる

確かに、聞いてみるとうるさいような印象を受ける。

しかし先程述べた音質の定義と照らし合わせると、このような表現は非常に主観的で怪しいものなのである。

Lantisが制作・リリースした音源なのだから、CDが原音であるのでそこに音質も何もない(ライブがあったら話は別だが…)。うるさい印象や歪み,楽器の音がなんとなく混ざっているといった感想はすべて音楽表現の問題であって音質という尺度で表現すべき問題ではないのである。

私が以前音質の話をした時、原音再現性にばかりこだわって音楽自体の価値を忘れてると騒ぐオーディオオタクがいたが、音質とは原音再現性であるから、音楽自体に感じるものとは切り離してできるだけ客観的に検証するべきなのである。

勘違い2)ハイレゾ=高音質

定義:ハイレゾ(ハイレゾリューションオーディオ)=CD以上の客観的音質を持つ(主にデジタル)音源,および再生機器

主にデジタルオーディオが普及しきってから広まり始めたハイレゾという概念、データ量的にはCDを圧倒する性能を持っているものが大半であり、音のダイナミックレンジや音域が非常に広く取れるため当然原音再現性(=音質)もよくなるが、データ量的に圧倒的でも人間の耳には限界があり、ある一定以上の音質向上には意味が薄い。

実際どのように無意味なのか

参考:Xiph財団のクリス・モンゴメリー の記事

サンプリングレート

サンプリングレートが大きければ大きいほど高い音まで収録されるが、当然人間には超音波とされる音域は聴き取ることができない。
これは人間の耳の構造から明らかであり、実験的にもそのような結果が得られている。
例えて言うなら赤外線や紫外線まで出すモニターを購入するかということだ。

「聴こえないけどその音が心理的に違いをもたらす」というのも、心理的効果よりもスピーカーから出る倍音によって可聴域にノイズが入ることを考慮するとそのまま受け入れることはできない。

メーカーの嘘

画像1

画像2

こんな画像を見たことはないだろうか

これは完全に欺瞞である

ナイキストの定理によると、サンプリングレートの半分までの周波数は(量子化誤差を除いて)完璧に記録される。
CDのサンプリングレートも、これを根拠に人間の可聴域にやや余裕をもたせ44.1kHzとしているのである。

メタアナリシス

さて、ここまで高いサンプリングレートに全く意味がないことを説明してきたが、実はメタアナリシス(複数の研究を組み合わせた分析)では差が感じ取れるのではないかという結果が出ている。

A Meta-Analysis of High Resolution Audio Perceptual Evaluation

男女比が偏っていることを除くと経験によって大きな差が出るようだ。
これはとても有意義な結果であるが、何れにせよ極めて高いサンプリングレート(192kHzとか)に意味がないことはほぼ間違いないと考えられる

音楽制作業界では

40年前、基本的にデジタルテープ→DAC→アナログフィルタで編集→ADCというフローを取っていて、DA(AD)Cの品質にある程度余裕を持たせないと音質が劣化するためマスターは96kHzといった比較的高いサンプリングレートで作業することが当然だったらしい。
現在ではデジタルデータを精度良く直接扱い、適切なアンチエイリアシングがかかることによって必要性は薄れてきているが、慣習的に高いサンプリングレートで制作することが多いらしい。(もちろん、ハイレゾで販売するにはハイレゾで制作しないと意味がない(後述))

ビット深度

またの名を量子化ビット数。

音量のきめ細かさ(=ダイナミックレンジ)を決定する量。nbitなら2^n段階になる。

もう一度人間の耳について考えると、ダイナミックレンジはおよそ120dB~140dBとされている。ちなみに130dB(SPL)を超えると数分で聴力を失う。
一般的にデジタルオーディオのダイナミックレンジ(理論値)は6*bit数 [dB]に等しい。
つまり16bitオーディオでは96dB分のダイナミックレンジしか得られない。そのため、144dB分のダイナミックレンジを持つ24bitオーディオが必要であるとされる。

ところが、これは人間の聴覚特性を完全に無視した議論であり、人間の聴覚特性に合わせた適切なディザリングを行うことで16bitでも120dB程度のダイナミックレンジが得られることが知られている。
また、人間の最小可聴値(=0dB)に対して極めて静かな部屋でもおよそ20dB程度の外部からのノイズが生じていて、さらに人間の循環器系や神経系のノイズを考慮すると実質的なダイナミックレンジは100dB前後に制限されると考えられる。
従って、人間が一般的な環境で音楽を聴く場合で、マスタリングがよく行われているなら16bitでも十分である。

(参考)
一般的なテープのダイナミックレンジは60dB前後。レコードは65dB,オープンリールテープは70dBとされる。

ちなみに32bit integer/floatの理論ダイナミックレンジも同様に192dBと求められるが、32bit floatは整数部分に最大23bitしか割り当てないことに注意が必要である。

以下ちょっと前に書いた別記事の一部

はじめに

追記:未完成のため完全には網羅されていません❗私の考えを単にまとめただけなのでこれを根拠に主張したりすることは避けてください❗明らかに事実と反する記述を見つけたらAuthor’s HomeからGitHubリポジトリに飛んでIssueを開いてください(日本語でかまいません)

オーディオ、特にピュアオーディオみたいな界隈はほぼカルト化している現状がある。のでとりあえず自分の見解をまとめておく

情報理論や人間の限界を仮定した上でのアプローチを取る。 なお、誹謗中傷や業務妨害の意図はない。

単語の意味は以下の通りである

  • 品質,音質

    • 知覚品質のこと。客観品質。
  • ナイキスト周波数

    • サンプリングレートの半分

      • サンプリングにおいてこの周波数までは完全に再現できることが示されている
  • サンプリングレート,ビット深度,ビットレート

    • 検索しろ

“パイプ”

音質を語る際に避けて通れないのがパイプの話だ。文章でステートメントを述べれば

音質は、再生環境を構成する部品のうち最も品質が悪いものを超えることはない。

ということである。

デジタルデータからヘッドホンなりスピーカーまでを一つのパイプとして、音質を水流に例えればわかりやすいだろうか。

この主張から直ちに従うわかりやすい例は

クソ音源をいくら良い環境で聴いても音質は向上しない

ということだ。

すなわち、音響において品質向上を目指すのであれば環境をバランス良く伸ばしていくことであり、一つの機材に過剰に資金を投入してはいけないということでもある。

影響度と費用対効果

さて唐突だが、人間の感覚は対数的だと言われる
入力の増加に比例して感覚が増加するのではなく、入力の増加をその時の入力で割った値に比例して感覚が増加すると言われている。数式で表すと
\(\frac{\triangle{I}}{I} = O(\triangle{S})\)となる。

またこんな経験則もある。

費用に対して性能の向上は対数的である
説明は同上

これらを組み合わせるとこんなことが言える
品質Sはそれに費やした費用Cに対して\(S=\log{\log{C}}\)となる

これから直ちに従うのは、ある一定以上の投資は品質に対して大きなフィードバックを産まないという経験則である。

そして、これも経験的に明らかなことであるが、再生環境を構成する部品の中でもそれぞれ費用対効果が異なる。次でそれについて詳しく説明する

賢い投資

以下に一般的なPCにおける音声ファイルの再生の音質に関与する要素について説明する

  • 音声ファイル

    • 電源
  • 再生ソフト

  • WASAPI

  • USB

  • DAC

  • 音声ケーブル

  • スピーカー