「情報システム」は、福井県立大学・経済学部で田中求之が担当している、経済学部専門科目です。この授業は、私たちの身の回りにあふれている様々なデジタル情報機器(デジタル家電)について、原理・技術および業界の動向や商習慣(制度)などを取り上げて解説しています。この授業を通じて、情報のデジタル化の意味や意義、あるいは私たちの生活との関わり、さらには人間自体の情報処理(知覚・感覚)との繋がりなどを理解してもらいたいと考えています。

このページに記されているのは、講義のうち、原理・技術についての解説のために田中が作成した講義ノートです。授業では業界の現状、あるいはその時々のニュースの解説なども行っていますが、それらは載せていません(時間が経つと意味をなさないため)。

さらに、工学部向けの授業ではないため、正確さよりも分かりやすさを優先したものになっています。田中の理解が誤っていたりタイプミスをしている箇所も残っていると思います。授業の受講者以外の方がこのページをご覧になる際は、こうしたことを留意の上、お読みください。

音楽データ編

音の基礎知識

音とは何か?

音とは空気の振動(音波)=空気圧の変化を聴覚が感知したものである。

音は空気を伝わる波であるということになるが、この波は、我々が水面の波でイメージしているものとは異る。音の場合は、空気密度の薄いところと濃いところ(気圧の高いところと低いところ)、空気の疎と密の具合が伝わっていく(疎密波)。地震でいう縦波である。

空気の疎密波による気圧の変化を、人間の耳の鼓膜が振動として感知し、それを脳が処理したものが、音として感じられるのである。ただし、後に述べるように、すべての振動が音として聞こえるのではない。一定の周波数(一秒当りの振動の数)の範囲のものを「音」として「聴いて」いる。

音が空気を伝わる速度(音速)は気温によって変わる(空気の密度が変わる→気温が高いと密度は下がる反比例の関係)。以下の式によって計算できる。

音速= 331.50 + 0.61*気温  →  気温20度の時には 343.70m/s になる。

これは空気の分子が振動する速度である。水中では 1500m/s になる。

音の4要素

音高、音量、音色、音長を音の4要素という。

●音高(ピッチ)

いわゆる音の高さである。音高と似たような言葉として音程があるが、音程は二つの音の高さの違いのことである。

音の高さは音波の振動数=周波数によって決まる。1秒当りの振動数を周波数と呼び、Hz(ヘルツ)という単位で表す。20KHz というのは、1秒間に 20K つまり2万回の振動のことである。

人間が音として聴くことができるのは、20Hz〜20KHz の周波数の音波である(個体差や年齢差がある)。この範囲のことを可聴周波数帯域(可聴域)という。

なお、音楽の時間などで聞いたことがあるだろうオクターブというのは、二つの音の高さの差を表すもので、周波数の関係が1:2のとき1オクターブである。つまり、周波数が2倍になると1オクータブ上の音になるわけである。人間の聴覚は、二つの音の周波数が1:2の比になる時、二つの音を「高さの違う同じ音」として聞くという特性がある。1オクターブの間に一定の隔たりで音を高さの順に並べたものが音階になる。

楽器のチューニングに使われる標準の「ラ」の音は 440Hz である(ドの音は 261.33Hz になる)。1939年の国際標準音会議で決定されたものだが、実際にはこれとは異なった周波数が使われることも少なくない。

また、88鍵のピアノの場合、一番低い音(ラ)は 27.5Hz 、一番高い音(ド)は 4186Hz である。

ついでに言っておくと、日本では音階をドレミファソラシドで呼ぶが、これはイタリア語で、イタリア、フランスで用いられているものである。英米やドイツでは ABCDEFG (ラの音が A になる)を用いる。


●音量

音の大きさ(ボリューム)のことであるが、2種類ある。一つは物理的な音の大きさ(これを音圧 sound pressure という)と、人間が耳で感じる大きさ(ラウドネス loudness という)とがある。音圧が大きいほどラウドネスも大きくなるが、後述のように、同じ音圧でも周波数によってラウドネスは異るという特性が人間の耳にはある。


●音色

人間の耳が音楽的な音(雑音ではない音)と感じるのは、同じ波形が繰り返される音であるといわれている。

高さと大きさが同じ2つの音が違って聞こえるとき、その違いを音色という。この音色は、音の波形の変化のカーブ(エンベロープという)によって決まる。波形の違いを生み出すのは、倍音(基本となる周波数の音以外に含まれるn倍の高周波)の混ざり具合。

自然界には純音(単一周波数の音)は存在しない。モノが振動する時には、倍音(整数倍でないものも発生)が発生する。

また、人間の耳は、楽器の音のように倍音が多く含まれる音の場合、基本周波数の音を取り除いても、元の音と同じ高さの音が聴こえるようになっている(110Hz のラの音の場合、220Hz, 330Hz, 440Hz.. の倍音が含まれるが、ここから 110Hz の音を消しても、110Hz のラに聴こえる)。Missing Fundamental と呼ばれる。このように、人間がある音を聞いている場合、倍音成分も含めて一つの「音」として聞いている。

楽器などの場合は、共鳴によって特定の高さの音が強調される(大きくなる)。人間の声の場合でも、声帯の振動は男で120Hz付近、女で240Hz付近だが、喉から口を通っていくうちに、500Hz, 1500Hz, 2500Hz の付近の音が共鳴で強調され、声の質を作り出す。

このように、音色は倍音や共鳴などによって波形が複雑になることで生み出される。

なお、波形については、「すべての複合波(複雑な形の波)は、振幅、周波数、位相の異る正弦波(サインカーブ)の足し合わせで構成されている」というーリエの定理がある。この定理を利用して、シンセサイザーが様々な音を人工的に作り出せるようになっている。ただし、実際の楽器の音は、音が鳴り始める前にかすかな雑音が含まれており、人間はこの雑音によってその楽器らしさを感じている。このためシンセサイザーで楽器そっくりの音を作るのは難しい。それでサンプリング(楽器の音を記録したもの)が使われる。

人間の聴覚の特性

可聴周波数帯域

人間が耳で音として聴くことがのは、20Hz~20KHz の周波数の音波である(若干の個体差はある)。この範囲を可聴周波数帯域(可聴範囲)という(直接に頭蓋骨が振動すると50kHz~100kHzも感覚的に解るらしい)。20KHz を超える周波数で人間の耳には聞こえない音波を超音波という。また可聴範囲以下の周波数の音を低周波という。

クジラなどは水中で低周波によってコミュニケーションを行っていると言われている。また、よく知られているように、コウモリは超音波を自ら発してその反射を聴くことで暗闇でも地形や獲物を感知している。このように、動物によって可聴範囲は異なる。

なお、人間の場合も、可聴範囲以外の音波は、音として聞こえなくても、体は感じ取っている。工場や大型車が通行する道路沿線で強い低周波が発生して、それが付近の人たちの体調異常を引き起こすことがある(低周波公害と呼ばれる)。

ダイナミックレンジ

どれだけの範囲の音の強さを聞き分けることができるか(音量差)を示すのがダイナミックレンジである(演奏や再生などの場合には最大音量と最小音量の幅)。聞き取りうる最小音量から、聞き取れる最大音量までの幅であり、最小音量と最大音量の比を、dB (デシベル)という単位で表す。

人間の耳(感覚)は大きさ(大きな刺激)に鈍感で、物理的な刺激が2倍、4倍、8倍…というように倍増すると、はじめて等間隔で音の感覚が大きくなったように感じるという、感覚が物理量の対数に比例する性質を持っている(ウェーバー・フェヒナーの法則/Weber-Fechnerの法則)(簡単にいうと、音圧=物理的な強さが10倍になると、音量=耳で感じる強さが2倍になる)。そこで、比の対数をとった数値であるデシベル(dB)という単位で表すのである。

音量(dB)=10×log(対象の音圧/基準音圧)

*log は常用対数で、数値が10の何乗かを示す。log100 = 2, log1000 = 3 である。

10dB ごとに人間にとって2倍になったように感じられる。

dB は比を表すものであるが、騒音の大きさのような音圧の大きさを表すのに用いられることがある。この場合は、パスカルという単位で測定した騒音の音圧の大きさを、人間が聴き取れる最小の音圧の大きさ(20 マイクロパスカル、0.000020 Pa)と比べた数値を db で表すのが普通。

人間の聴覚のダイナミックレンジは 120 dB であるといわれる(最小の音の 10の12乗倍の音圧の音までが識別できる)。

周波数特性

人間の聴覚は、すべての周波数の音波に対して等しい感度を持っているのではない。つまり、ある周波数の音波は弱くても聴き取れるが、別の周波数だと同じ強さでも聴き取れないということがある。

人間の聴覚の周波数特性は、等ラウドネス曲線(等感曲線、等ラウドネスレベル曲線ともいう)によって表される。音圧(音の物理的な強さ)を一定にして周波数を変化させていくと、人間の耳に聞こえる強さ(これをラウドネス)は変化していく。3KHz すぎの周波数を底にしたボウルのような形のグラフになる(年齢によっても変化する→高齢になると高音部の感度が下がるので)。

代表的なものに、1930年代にアメリカのベル研究所にいたフッレチャーとマンソンによって測定されたもの(Fletcher-Munson の曲線)、1950年代に英国の国立物理学研究所のロビンソンとダッドソンが測定し ISO226 という国際規格になったもの(Robinson-Dadson の曲線)がある。また、この ISO の改訂版が、日本の研究者が中心となって作成され、2003年に新しい規格として採用された。

eloudness.gif
*この等ラウドネス曲線は、「2次元等ラウドネス曲線の全聴野精密決定」鈴木他より引用したものである。

人間の聴覚の周波数特性を見るのは、下から2番目の点線を見てもらうのが分かりやすい。この点線は、10dB の音圧(物理的な音量)の1KHz の周波数の音を感知した時の感覚の強さを基準(10phons という単位で示される強さ)として、他の高さの音が同じ強さに感じる時の音圧をプロットしてある。

これを見ればわかるように、人間の聴覚は、感度が良くてよく聴き取れる高さの音もあれば、感度が鈍くてあまり聴き取れない高さの音もある、ということである。人間の耳は、3KHz 付近が最も敏感で、低い音には鈍感なのである。色々な電子アラームなどは2KHz から 5KHz の間の周波数を使っている(→小さな音でも気がつきやすいから)。また、同じ強さの音でも高い音ほどうるさく感じられるのである。

3kHz 付近の高さの音に敏感なのは、人間の外耳(耳の穴)の長さが、ちょうどこの周波数に共鳴することで、振動を強めているからだと言われている。


最小可聴値

人間の耳は、一定の強さ(音の物理的な強さ=音圧)以下の音は聞こえないようになっている。どの程度の強さ以下は聴き取れなくなるのかは、上で述べた等ラウドネス曲線にそった特性を描くので、音圧が小さくても聴き取れる高さの音もあれば、同じ音圧でも聞こえない高さの音もある。

先ほどの等ラウドネス曲線のグラフで、一番下の破線が、最小可聴値(Hearing threshold)をプロットしたものである。

人間の耳に聞こえなくなる音圧のレベルのことを最小可聴値 ATH (Absolute Threshold Level)という。つまり、ATH 以下の音は物理的には存在していても人間には音としては聞こえないのである。

マスキング効果

大きな音が鳴っているとき、その音に周波数(高さ)が近い小さな音が聞こえなくなるという特性がある。大きな音が小さな音をかき消してしまうことをマスキング効果という。大きな音がマスキング効果を及ぼす範囲のことをクリティカルバンドとよぶ。また、マスキング効果は、同時になっている音に影響を及ぼすだけでなく、その音の直後の音にも影響を及ぼす(同時マスキングと継時マスキング)(スペクトルマスキングとテンポラルマスキング)。

聴覚特性と音楽

人間は空気の振動を音として聴いているわけだが、すべての振動を、物理的な強さのままに感じているのではなく、一定の周波数のものを、偏りをもった形で受け止めて、音として感じている。極端に言えば、音波をそのままの形で音として聴いているのではない。

そのことを積極的に利用しているのが、後で述べる音楽データの圧縮である。最小可聴値以下の音波や、マスキング効果で聴こえない音波のデータを削除することで、人間の耳には劣化したと感じられないように(感じにくいように)、データを小さくして行くことができるのである。

音楽のデジタル化

アナログからデジタルへ

空気中の音は、まずマイクロフォンなどの機器によって、アナログの電気信号に変換される。電気的な波の形でとらえられるわけである。このアナログの電気信号を磁力の強弱として記録するのがテープレコーダーである。また、溝の揺れとして記録したものがアナログレコードである。

アナログのデータをデジタル化するには、サンプリングと量子化という処理が行われる。

サンプリング(標本化、sampling)

時間によって変化していく音の信号の瞬間値を特定の間隔でデータ化していくことをサンプリングという(標本化ともいう)。音の信号を、一定の間隔で輪切りにしていって、切り口の音の強さをデジタル信号にしていくことで、音をデジタル化するのである。

デジタルデータを取得する間隔(上で言う輪切りの間隔)のことをサンプリング周波数、またはサンプリングレートと呼ぶ。

たとえば、音楽 CD は、サンプリング周波数 44.1KHz でサンプリングされた音のデジタルデータが収めれている。これは、1秒間に 44.1K 回、つまり 44,100 回のデジタル化を行ったものだということ(4万4千百分の1秒毎にデジタル化を行った)である。

サンプリング定理(標本化定理)

サンプリングによってデジタル化を行う場合、サンプリング周波数の1/2未満の周波数の音しか正確に捉えることができないという制限がある。これをサンプリング定理(Shannon-染谷の定理)という。

サンプリングの際に捉えることのできる音の周波数の上限、つまりサンプリング周波数の半分の周波数は、ナイキスト周波数と呼ばれる。実際に音の信号をデジタルに変換する際には、ナイキスト周波数以上の周波数(高さ)の音をカットして取り除いてから、アナログ→デジタルの変換(つまりサンプリング)を行う。そうしないと、ナイキスト周波数(限界周波数)を超えた高さの音の信号が、本来の周波数とは異る信号として捉えられてしまう現象が(エリアジング(aliasing)という)起きやすいからだ。

音楽 CD だと、44.1KHz の半分、つまり 22.05KHz 未満の周波数の音しかデータ化できないという限界があるわけだ。この数値は、先ほどの人間の可聴周波数帯域の高音の限界とほぼ同じである。つまり、音楽 CD は、人間の耳に音として聞こえる範囲の音波しかデジタル化していないわけである。どんなに高級なオーディオ機器を用いても、それ以上の高さの音は出てこない。

人間が音を「聴く」だけであれば、それで問題がないようにも思われるが、先程述べたように、音として聴いてなくても「感じている」わけであり、それが音楽の質感に関係するといわれている。このため、CD より後で生まれたデジタルの規格では、サンプリング周波数を CD よりもっと高く設定した規格になっている。

量子化(quantizing)

音のデジタル化の際には、サンプリング周波数ごとの音の強さ(アナログ信号では電圧になっている)をデジタルの信号に置き換える。音の強さを一定のビット数のデータに置き換えることを量子化という。簡単に言えば強さを測定して数値にすることだと思ってもらってよい。数値化とは、連続しているものに切れ目をいれて、段階的(飛び飛びになっていること、これを離散的ともいう)なものに分けてしまうことである。

デジタル信号は、オン/オフのビットの組み合わせでデータを表現するわけだが、何ビット分で強さを信号化するのかを示すのが量子化ビット数である。また、量子化の際の段階の分割幅のことを量子化ステップという。

数値化(デジタル化、離散化)する場合、一番近い値(目盛り)値をそのデータの値とするため、元の音のレベルを正確に写し取れるわけではない。実際の値と量子化された値との間に誤差が生じる。この誤差を量子化誤差という。量子化のビット数を多くすれば誤差を小さくすることはできるが、完全に無くすことはできない。

たとえば音楽 CD は 16bit で量子化を行う(量子化ビット数は 16bit)。つまり2の16乗の、つまり 65536 段階の目盛りで強さを記録することになるわけだ。

何ビットの量子ビット数によって量子化を行うかによって、そのデジタル信号がどれだけの強さの幅の音を捉えることができるかが決まってくる。つまり、デジタル化された信号の最大音量の音と最小音量の音の比、つまり音のダイナミックレンジが、量子化ビット数できまるのである。

量子化ビット数を N とすると、その量子化によるデジタル信号の表現できるダイナミックレンジは 20Nlog2 dBになる。10log2 を 3 とすると、6N dB になる(1bitにつき6dB)。それゆえ、音楽 CD では 6×16=96 dB のダイナミックレンジを表現できることになる。

量子化によってデジタル信号化する以上は、量子化ビット数によるダイナミックレンジの最大値はかならず決まってしまう。オーケストラの生の演奏のダイナミックレンジは 120dB ぐらいだと言われるが、それをそのまま CD の収めることは絶対にできないようになっているわけだ。

デジタル化の制約

音をデジタル化する際には、サンプリング定理により、必ず、データ化できない高さの音が生じる。また、デジタル化される際の量子化のビット数による制約(量子化誤差とダイナミックレンジの制約)も受けているのである。

つまり、デジタル化された音楽データは、原理的に、元の音とまったく同じ音を再現することはできないようになっているのだ。ただ、我々の耳は、聴覚の特性で述べたように、音のすべてのデータを聴き取れ識別できるわけでもない。それゆえに、コストと技術のバランスをとりながら、人間の耳で聴いてそれらしく聞こえるようにするようになっているわけだ。

音楽 CD

規格

音楽 CD は、正式には Comapct Disc Digital Audio (CD-DA)と呼ばれる。ソニーとフィリップスが策定した Red Book で規格が決められている(1981年)。Disk ではなく Disc になっている。

規格は1981年に定められたが、実際に商品として発売されたのは1982年10月。ソニー、日立製作所、日本コロムビアから世界初のCDプレーヤーが発売され、同時にソニーグループや日本コロムビアから世界初のCDソフトが発売された。

CD は 1.2 ミリほどの厚さのポリカーボネート樹脂の円盤に、スタンパーと呼ばれる金型で小さな穴(記録ピット)を刻み、それに反射膜と保護膜、それにレーベル(タイトルなどが書かれたやつね)を塗って作られている。音楽のデータは、樹脂の穴の形で記録されており、再生の際には、レーザー光線(780nm赤外線レーザー)を当てて、その反射の違い(穴の部分と穴ではない部分ではレーザーの反射されてくる強さが違う)によって信号を読み出すようになっている。CD の中心からスタートして渦巻き状に外に向かって読み取っていく(全長は 5Km にもなる)。

先ほども述べたように、記録されている音楽のデータは、サンプリングレートは 44.1KHz、量子化ビット数は左右それぞれ 16bit である。つまり、20.05KHz までの高さの音が、96dB までのダイナミックレンジで収めることができるようになっている。

ここでどれくらいのサイズのデータになっているのかを確認しておく。16bitで量子化されるわけだから、一回のサンプリングによって得られるデジタル信号は 16bit つまり 2 バイトで、これが左右あわせてで 4 バイトになる。これが1秒間に 44,100 回行われるわけだから、1秒間の音楽データは 4×44100 で 176,400 バイト、約 172K バイトということになる。1分間が約10Mバイトになる。

実際の CD 上には 74 分または79分までの音楽が収められ、容量は 650MB または 700MB になっている。

CD-DA と著作権保護機能

CD-DA の規格が決まった当時(1981年)には、音楽 CD のデジタルデータを誰もが簡単にパソコンにコピーできるようになるとは想像もできなかった(当時のパソコンはハードディスクなどなく、メモリーも 128K とかそういうレベルだったのだ。つまり1秒分の音楽データすらメモリーに入らない)。そのため、著作権保護機能などは規格には盛り込まれていない。このため、今となって、音楽 CD から簡単にデータがコピーできるようになり、違法コピーの問題が起きているのである。また、その対策は、現在の音楽 CD の規格では無理なのである。

最近、コピー対策をほどこしたコピーコントロール CD (CCCD)と呼ばれるものが出たことがあったが、これは音楽 CD の規格に反したものになっており、正確には音楽 CD ではない(短期間にマーケットからは消えた)。

ちなみに、1982年に発売された NEC PC9801 (90年代半ばまで日本のパソコンの王者であった98シリーズの第1号)は、RAM が 128K で、ハードディスク(別売のオプション)は 10MB であった。こういう時代に、パソコンに CD からデータを読み込んで編集なんてことをいうのは非現実的なのがわかると思う。

CD-ROM

CD-ROM (コンピュータ用データを収める CD)と音楽 CD とは、物理的には同じメディア(円盤)を使うのだが、CD-ROM の信号には読み取りなどの際にエラーが紛れ込んでも修正できるように(つまり最終的にはデータが誤ることを防ぐために)エラー訂正用の信号が、追加されて収められるようになっている。

音楽 CD においても、エラーを修正する仕組みはあるのだが、CD-ROM の場合はより厳密になっているわけだ。このため、音楽 CD は1秒間に 172K バイトの音楽データを読みだすが、同じ速度で CD-ROM からデータを取りだすと1秒間に 150K になる(22K 分がエラー訂正などの余分な信号として付いているため)。

この1秒間に 150K のデータを取りだすというのが、CD-ROM の読み取り速度の比較の際の基準値になる。最近のパソコンは32倍速の CD-ROM を搭載していたりするが、これは円盤が単純に32倍の速度で回転しているということではなく(CD は線速度一定でデータを読み取るので、普通の速度で動かしているときも、中心を読み取っているときと外側を読み取っているときとでは回転速度は違っている)、通常の32倍のデータを一度に読みだせる、つまり1秒間に 150K×32=4800K バイトのデータを読みだせるようになっているということである。

CD-R と CD-RW

CD-R は一度だけデータを書き込めるもの(ライトワンス)。CD-RW は何度もデータを書き換えることができるものである。両者はデータの記録方法が異なる。

CD-R = Compact Disc Recordable
CD-RW = Compact Disc ReWritable

CD-R は、有機色素の性質を使って書き込む。レーザーによって有機色素は不可逆の化学変化を起こし、レーザー光の反射率を変える。大雑把なイメージとしては、記録媒体上に焼け焦げを作っていくことでデータを記録しているようなものである。いったん焦げ付いた紙をもとには戻せないように、この方式では一度の書き込みしかできない。

CD-RW は、金属の結晶の状態(結晶になっているか、アモルファス状態になっているか)による反射率の違いを使っている(相変化型と呼ばれる)。金属は、固体の場合、通常は結晶になっている。ところが、合金の中には、液体から固体に急激に冷やすと、結晶にならずに、原子がぐちゃぐちゃに並んだまま固まるものがある(原子が結晶にならずにぐちゃぐちゃに並んだ状態のことをアモルファスという)。この性質を利用して、レーザーで合金を熱して冷やすときの温度管理によって、結晶部分とアモルファス部分の違いを作り出し、この違いによってレーザーの反射率がかわることでデータの記録を行うのが CD-RW なのである。いったんアモルファスになった部分も、再度熱してゆっくり冷やすと結晶にもどる。つまり、この変化は可逆的なので、何度も書き直しができるわけである。

CD-RW の場合は、レーザーの反射率が通常の CD や DVD よりは低いので、対応しているプレーヤーやドライブでないと利用できない(再生できない)ことがある。

次世代規格

現在の音楽 CD に替わる音楽再生用メディアとして発売が開始されているものとして、SACD と DVD-Audio がある。

●SACD

SACD (Super Audio CD)は、ソニーとフィリップスの提唱している規格である。

音をデジタル化する方法(音声符号化方式)が、音楽 CD や DVD の PCM とは異った、DSD (Direct Stream Digital) と呼ばれる方式になっている。サンプリング周波数は 2822.4KHz で量子化ビット数は 1bit ということになるのだが、PCM ではないので、CD などとの単純な比較はできなくなっている。音域は 100KHz を超え、120dB のダイナミックレンジを確保しているという。

12センチの光ディスクを使用し、レーザーで信号を読み取るという点では CD や DVD と同じだが、互換性はない。専用のプレイヤーが必要である。

しかし、同じディスクに、従来の音楽 CD の規格のデータと、SACD のデータの両方を、2層構造にして収めたハイブリッドタイプのものが規格で定められた中にあり、最近、このハイブリッド型になった CD での発売が増えてきている。ハイブリッド型は、従来の CD プレイヤーで再生すると CD のデータが再生され、SACD のプレイヤーで再生すると SACD のデータが再生される (信号を読み取るレーザーの波長と開口率を変えることで別々に読み取れるようになっている)。

従来の CD のような2チャンネルのステレオ方式のデータ以外に、マルチチャンネルのデータも収録できるようになっており、2チャンネルで109分、マルチチャンネルで約80分の音楽を収めることができる。

著作権保護機能があり、パソコンでデータを読み取ったりすることができないようになっている。かならず専用のプレイヤーを使う必要がある。また、仮に SACD に記録されているデータを抜きだせたとしても、暗号化がなされているので、そのままでは利用できない。スクランブル化はディスク毎に異るようになっている。このように、コンテンツ保護の機能がしっかりと規格化されている。

● DVD-Audio

DVD-Audio は DVD フォーラムが提唱している規格である(松下、東芝、日立)。DVD を音楽専用のメディアとして使用するもの(ただし、動画や静止画を同時に収めておくこともできるようになっている)。

普及せず、実質的に消滅状態にある。

高音質 CD

2007年に登場した CD-DA の改良バージョン。SACD の様な別の規格でもなく、CCCD のような規格外のものでもなく、従来の CD-DA の規格のままで、さらに再生時の音質を高めたものである。

CD の原料であるポリカーボネート樹脂の品質を高める(液晶に使われるものを用いる)ことで透明度を増すことで、読み取り時のエラーを低減すること、さらには記録ピット(データが記録される小さな穴)の形をより整えたものにすることでブレを防ぐなどの、主に CD の物質的な改良によって、CD プレイヤーで再生した場合に、より質の高い音が聴こえるようにしたものである。

CD-DA の規格に沿ったものなので、従来の CD プレイヤーで再生可能である。

簡単に言うならば、円盤の品質の改良によって、余分なノイズやエラーが混じらないようにして、再生する時に CD の規格の音をなるべく目一杯聴けるようにしたものである。

データそのものの質は変わらないので、パソコンでリッピング(デジタルデータを抜き出すこと)した場合などは、原理上は従来のものと違いはない(実際は、読み取りエラーが少なくなるので、この場合でも音質が良くなるかもしれないが)。

現在のところ、SHM-CD, HQCD, Blu-spec CD の3つの規格の製品が販売されている。

音楽 CD 業界

再販価格維持制度

日本の音楽CD(レコードや音楽テープも)は、再販価格維持制度(再販制度と省略して呼ばれる)のもとで販売されている。これは商品の供給元が販売店に対して販売価格を指定して、それを守らせるという制度である(再販というのは、消費者が買った商品を転売することではなく、小売店が仕入れた商品を販売することを指す)。このため、どこの店でも定価で販売されている。

出版社やレコード会社は自社の商品に定価を明記して、それを値引きして売ってはいけないとする契約(再販売価格維持契約)を販売会社と結ぶことができる。この契約が、出版社と販売会社、販売会社と書店の個々の間に結ばれる。再販契約によって定められる価格を再販価格という。なお、大学生協のように再販契約を結ばないところでは、書籍でも定価より安く販売することができる。

通常の商品は、このような販売方法は独占禁止法で禁じられているが、独占禁止法23条1項、4項で、「著作物」についての再販売価格維持については、独占禁止法の適用から除外されることになっているのである(文化性の高い商品であるためとされる)。

*ここでいう「著作物」とは、書籍、雑誌、新聞、レコード盤、音楽用テープ、音楽用CDのことであり、これ以外のものは適用の除外にはならない。このため、映画(ビデオ、DVD)などは再販制度にはなっていない。

再販制度のもとで販売されることで、全国、どこの小売店で購入しても同じ定価での購入になり、地域差が生じないわけである。

  • *書籍の販売は、委託販売制度とセットになって運用されている。小売店は、仕入れた書籍が売れなかった場合には、発売元に返品し、仕入れた際に支払った代金を発売元から返してもらえるようになっている(すべての商品を返品できるわけではないが)。このため、小売店は、売れ残りの心配をせずに色々な商品を仕入れて品揃えを多くすることができるわけである。このように、再販制度+委託販売(返品)制度によって、書籍は、地域差が小さい状態で販売が可能になっているが、現在は返品率が 40% ほどの水準にあり、制度的に限界に来ているとの指摘もある。

しかしながら、再販制度によって価格が高いまま維持されているとの批判(競争を阻害している)もある。たとえば、洋楽の場合、輸入盤との価格差が大きいことから、日本のCDはもっと安くなるはずではないかというわけである(国内メーカーは、日本語版のみのボーナス・トラックを付けるといった手段で輸入盤に対抗している)。また、邦楽でもアジア地区で販売されているものが輸入盤として入ってきて安く売られるということがあったため、これを防ぐために「音楽レコードの還流防止措置」が平成17年1月より施行されている。

このため、再販制度の見直しが幾度となく議論されてきたが、現在はまだ再販制が維持されている。ただし、音楽CDについては、時限再販制度が導入されており、半年程で再販の縛りが切れる(定価で販売しなくともよくなる)ようにはなってきている。また再販制度を適用しない CD も一部だが販売されている。

近年、DVD と CD がセットのものが増えてきているが、DVD が再販制の適用外の商品であるため、セットにしたものも再販制の適用外となる。

なお、CDよりも高音質でコピー防止策も組み込まれた次世代の音楽再生用メディアとして SACD と DVD-Audio という2つの規格(互換性はない)が定められ、実際に販売も開始されているが、CDとの互換性がないこと(これまでのCDプレイヤーでは聴けない)から消費者になかなか受入れられないこと以外に、再販制度が適用されないことからメーカー側も積極的に販売しようとしていないとの指摘がある。

売り上げの変化

音楽CDは、1998年をピークに減少傾向にある。

以下のファイルは一般社団法人日本レコード協会の資料により作成した生産額の推移である。

LinkIconCD生産額の推移 1984年〜2010年(PDF)

色々な要因が言われている。違法コピーが出回っていること、若者がケータイにお金を使うようになって CD を買わなくなったこと、あるいは着うたのような音楽配信で購入するようになったこと、さらには音楽の質自体が低下しているとか趣味が分散したことなども要因として上げられたりするが、実際のところは不明である。

なお、2008年の音楽配信の売り上げは総額で 905億円、うちモバイル(ケータイ)が 799億円となっており、着メロ以外は年々増加しているが、CD の減少分をカバーするほどではない

圧縮ファイル

可逆圧縮と非可逆圧縮

音楽 CD に納められたデータは、先ほど述べたように、1秒間分で 172K バイト、1分間分で約 10M バイトという容量になる。このままではパソコンや携帯プレイヤーに納めるには大きすぎると言うことで、データを圧縮したファイル形式が使われるようになった。

一般に、デジタル形式のデータは、もとの品質を保ったまま圧縮することが可能であるが、せいぜいが半分までしか圧縮できない(ロスレス形式と言われるものがそれ)。このように、元の質を保ったまま圧縮すること(=元のままのデータに戻せるもの)を可逆圧縮という。

それにたいして、データの質を劣化させる代わりに圧縮率を高めたものが広く普及した。MP3 や AAC と呼ばれる形式のファイルである。これらの圧縮方法は、人間の耳には違いが分かりにくいようにデータを劣化させるかわりに、圧縮率を高めてある。圧縮の際にデータを劣化させるので、元の質のデータに戻すことはできない。このような圧縮方法を不可逆圧縮あるいは非可逆圧縮という。画像の JPEG も画像データの不可逆圧縮の形式(フォーマット)である。

MP3

MP3 とは、正式には ISO(国際標準化機構、Organization for International Standardization)により策定された”MPEG1/2 Audio Layer III”の略であるが、パソコンで音楽データを扱う形式として使われているのは MPEG1 Audio Layer III である。

MPEG とは Moving Picture Experts Group の略で、ISO/IEC(国際電気標準会議)の動画圧縮に関する研究グループの通称であり、一般に MPEGの仕様は動画圧縮に関する仕様のことを指している。たとえば DVD-Video (映画なんかが入った、いわゆる DVD )は、動画を MPEG2 という形式で圧縮しておさめてある。で、1992年に ISO で MPEG の音声の圧縮方式として国際標準として認められたのが MP3 ということなのである。MPEG の音声圧縮方式には他のものもある(たとえば MPEG2/MPEG4 の ACC)。

もともとは、ドイツの Fraunhofer IIS 社において、放送用の音声圧縮技術として開発が始められたもので、1989年にドイツで特許が取られている。ISO の MPEG 規格として採用された頃には、実用にするには仕組みが複雑過ぎると受けとめられていたが、98年にはパソコンで MP3 形式に変換できるソフト(Winamp)が登場したのをきっかけに普及することになった。

1990年代後半、パソコンの高機能化によって普通のパソコンでも MP3 への変換(エンコードという)が簡単に行えるようになったこと、MP3 にするとデータのサイズが10分の1程度に小さくなるのでハードディスクなどの記憶容量も少なくて済むこと、さらにはデータサイズが小さいのでインターネットを通じた配付や交換にも使いやすかったこと、などの要因で、パソコン用のオーディオ圧縮&保存の形式として爆発的に広まった。

MP3 は不可逆的圧縮を行うものなので、MP3 に変換したデータから元のデータに戻すことはできない。つまり、データの劣化が起きるのである。しかし、MP3 では心理音響モデルを用いて人間の耳には聞こえない音/聞こえにくい音のデータを省いたり質を落とすなどの処理によって、人間が耳で聴く限りでは違いが気にならない程度の音質を保ったまま圧縮が行われるようになっている。サイズは10分の1だが音質はあまり変わらないという点が MP3 が広く指示された理由でもある。

著作権の侵害などで問題になっているファイル交換ソフト(インターネットを通じて不特定多数の人との間でファイル交換を行えるソフト)の最初ともいうべき Napster は MP3 の音楽ファイルを交換するソフトであった。

ビットレート

MP3は、不可逆的圧縮(元には戻せない=質を劣化させる)によってデータを小さくする方式である。このような不可逆的圧縮を行う場合には、圧縮後の1秒当りのデータ量をどの程度に設定するかによって質が変わる。単位時間(1秒)あたりにどれだけの容量のデータを割り当てるか、というのをビットレートという。1秒当りに使用するビット数ということで、bps (=bit par second)という単位で表す。

当然のことながら、1秒当りに使用するデータ量(=ビットレート)が大きいほど、質が高くなる。そのかわりデータサイズ(圧縮率)は低くなる。

音楽データを MP3 に変換するソフトでは、たいてい、変換の際のビットレートを設定できるようになっている。100K bps ぐらいにすると、耳で聞いてほぼ CD なみに聞こえ、200K bps を越えると CD とそれほど違わない音質が確保できると言われている。

ちなみに、CD の場合は、44.1KHz のサンプリング周波数で、16bit のステレオなので、ビットレートは 1411200 bps つまり 1411.2K bps ということになるので、高音質の MP3 でも10分の1程度には圧縮できることがわかる。

その他の形式

● AAC (Advanced Audio Coding)

MPEG-2 Audio AAC を指す。映像圧縮の規格である MPEG-2 または MPEG-4 で使われる音声圧縮方式である。MP3よりも1.4倍ほど圧縮効率が高く、音質はほぼ同じである。BSデジタル放送や地上波デジタル放送の音声部分に採用されている形式でもある。

● aacPlus (HE-AAC)

AACの拡張版。ビットレートが低い場合の圧縮効率を向上させている。簡単に言うと、AAC の圧縮では失われてしまう部分の情報を、拡張データ(SBRと呼ばれる)を追加することで補うものになっている。

着うたフルで用いられている圧縮方法で、着うたフルのデータはビットレートは 48Kbps で、CD 並の音質を保ったまま、1曲平均 1.5M まで圧縮されているという(これにより1曲を30-40秒でダウンロードできるようになっている)。また、著作権管理機能として、ダウンロードしたのと同じ番号の携帯電話しか聴くことができないようになっている。

最近ではストリーミング型の音楽配信でも用いられている。

● WMA (Windows Media Audio)

Windows におけるオーディオ圧縮形式(&ファイル形式)で Windows Media Player が標準搭載している。音楽CD並みの音質を保ったままで低速な通信回線を通じて音楽を配信することができるもので、96kbps以下の低速回線用データではMP3よりも高音質であると言われる。データを Windows Media Rights Manager と呼ばれるコンテンツ管理システムを利用して暗号化することができる(著作権保護機能)。

デジタル著作権管理 (DRM, Digital Rights Management)

デジタル化された音楽データはコンピュータやネットワークを使って簡単に複製し配付することができる。このため、ファイル交換ソフトによる違法コピーの交換が問題となっている。2009年6月の改正著作権法によって、2010年1月から違法なものと知りながらダウンロードする行為が禁止されることになったのも、こうした状況への対応である。また、現在では市場から消えてしまったが、一時期、CD-DA の規格外のコピー防止機能付き CD であるコピーコントロール CD (CCCD) というものが投入されたこともあった。

一方で、インターネットを利用して音楽データを有料で配信するというサービスが、携帯デジタル音楽プレイヤーの普及などと歩調を合わせて、活発に展開されるようになってきた。日本においては、ケータイの着うた、着うたフルが音楽配信の市場として大きくなっていることは先に見た通りである。

有料で音楽配信を行うとき、配信するデータの著作権をいかに守るかが鍵になる。もし MP3 のファイルなどで配付したら、いったんダウンロードされたデータがコピーされて配付されてしまうのを防ぐことはできない。これでは商売にならない。そこで、有料の音楽配信サービスにおいては、正規のライセンスを持った人だけ(=ちゃんと料金を支払った人だけ)が聴くことができ、その他の人はたとえデータのコピーを入手しても聴くことができないような仕組みが導入されている。

このような、コンテンツ(データ)の複製や利用を制限することによって著作権を保護する技術のことを DRM (Digital Rights Management) 、日本語ではデジタル著作権管理という。

具体的にどのような仕組みで制限をかけるのかは色々と分かれるのだが、基本的な仕組みは、データ(コンテンツ)を暗号化して配付し、正規のライセンスを購入した人だけにその暗号を解読する鍵を配付するというものである。暗号の解読は特定のソフトウェアやハードウェアでしか行えないようにしておく(たとえば音楽データであればデータ再生ソフト)ことで、データのコピーなどに制限をかけ、CD-R で音楽の複製が作れないようにするなどの管理が可能になる。

ケータイの場合は、各端末に割り当てられた端末識別番号(IMEI)を暗号解除の鍵にすることによって、ダウンロードしたケータイでしか再生できないようになっているらしい。

アップルの iTunes Store の場合、iTunes Store に登録した5台までのパソコンであれば、同じファイルを再生することが可能になっている(iPod への転送には制限がない)。

現在、音楽配信(ケータイ向けをのぞく、パソコン、携帯プレイヤー向け)で用いられている DRM としては、ソニーの OpenMG とマイクロソフトの WMT (Windows Media Technology) 、Apple の Fairplay という3つが大きなものとしてある。DRM の種類によって、その制限、あるいは正規ライセンスの購入の仕方(料金の支払い方法)などは異る。

なお、最近になって、アップルの iTunes Store が、DRM 無しの楽曲の販売を開始した。また、アマゾンなどで DRM なしの MP3 ファイルが販売されるようにもなった。今後もこの傾向は拡大するものと思われる。

音楽配信

インターネットを使った音楽配信サービスは2つのタイプに分かれる。一つは音楽データファイルをダウンロードするもので、iTunes や着うた、アマゾンの MP3 Music Store などがこのタイプのサービスである。パソコンなどにダウンロードしたファイルをプレイヤーなどで聴く。データを買うものである。

もう一つのタイプはストリーミング型で、聴きたい音楽のデータがネットで転送されてきて、それをアプリケーションやブラウザで聴くものである。インターネットを使ったラジオのようなものである。日本では、KDDI が au のスマートフォン向けに「LISMO unlimited powered by レコチョク」というサービスを始めており、月額 1480 円で主要なレーベルの音楽が聴き放題(ストリーミングで)というものがある。

またソニーは欧米で先行してサービスを開始していた Music Unlimited というストリーミング型の音楽配信サービスを2012年に日本でも開始した。

アメリカではネット配信の音楽の売り上げが CD の売り上げを上回っており、iTunes Store を運用するアップルが最大の音楽小売りメーカーになっている。日本では、まだそこまでは行かない(日本レコード協会の統計では2010年は 860億円)。

ヨーロッパではスポティファイ(Spotify)という定額制のストリーミングによる音楽配信サービスがユーザーを増やしており(160万人)、2011年7月にはアメリカにも進出した。

●クラウド型音楽配信サービス

最近は、業者のサーバにデータを置いておき、それを好きなときにネットを使って聴くというサービスが出てきている。ネットさえ繋がっていれば、データがどこにあるかを気にせずにいつでも使える、こうしたサービスのあり方をクラウドと呼ぶようになった。ネットワーク=雲のイメージで、必要なときに頭の上の雲から落ちてくるというわけである(「雲」の向こうのサーバとかそういう実体は気にしなくても使えるということも含まれる)。

最近になって Amazon, Google, Apple のいずれもがクラウド型の音楽配信に乗り出した(乗り出すことを明らかにした)ことから注目が集まっている。

Music Beta by Google や Amazon Cloud Drive は、自分の持っている音楽データを Google あるいは Amazon のサーバに転送しておく(自分専用のロッカーがあって、そこに入れておく)と、インターネットとブラウザが使えるところならば、どこでもその曲を聴くことができる(ストリーミングでデータが流れてくる)。アマゾンの場合、アマゾンで MP3 の音楽を購入すると自動的にそれが自分のロッカーに追加されるようになっている。

アップルの iTunes in the Cloud は、ダウンロード型のサービスで、自分のスペース(ロッカー)に収めたデータが、いつでもどこでもダウンロードできる(あるいは自分が使用している複数のパソコンや iPod, iPhone などに自動的に転送される)サービスである。ストリーミングではなく、あくまでもデータをファイルで扱う。これに有料の iTunes Match というサービスが設定される。これは、自分の iTunes の中に取り込んだ CD の音楽(iTunes Store で買ったものではなく、手持ちの CD を取り込んだもの)と同じものが iTunes Store で売られていた場合には、その曲のデータも利用できるようになる(アップロードする必要がない)ものである。

ハイレゾ音源

ダウンロード型の音楽配信では、MP3 や AAC の圧縮されたデータが用いられるのが普通であるが、最近になって、圧縮されていない CD と同質のデータや、CD よりもサンプリング周波数を上げて量子化ビットを増やしたデータ、さらには SACD と同じ DSD 形式のデータをネットで配信するサービスが増えてきている。

こうした MP3 や AAC よりも音質の良い音楽データをハイレゾ音源と呼ぶ。

ハイレゾ音源の再生には専用のソフトウェアや再生用の機器が必要になる(すべてではない)。ハイレゾ音源の再生のためのオーディオ機器や携帯プレイヤーも増えてきている。