MP3 為什麼能把檔案壓小十倍?心理聲學的遮蔽效應

核心思路:丟掉你本來就聽不到的

未壓縮的 CD 音質約每分鐘 10MB,MP3 能壓到十分之一而聽感接近,靠的不是更聰明的數學無損壓縮,而是心理聲學:人耳並非把所有聲音一視同仁,很多成分根本傳不進你的感知,編碼器就把這些「反正聽不到」的資訊直接捨棄。這套方法定義在國際標準 ISO/IEC 11172-3(MPEG-1 Audio,Layer III 即 MP3)。

遮蔽效應:大聲蓋過小聲

心理聲學研究(經典教科書如 Zwicker 與 Fastl 的《Psychoacoustics: Facts and Models》)整理出兩種關鍵現象:

MP3 編碼器內建心理聲學模型,即時計算「此刻哪些成分被遮蔽了」,把位元優先分配給聽得到的部分。

位元率的取捨

位元率決定每秒可用的資料量:128kbps 時模型必須丟棄較多邊緣資訊,複雜音樂(鈸、掌聲)可能出現可聞瑕疵;192kbps 以上對多數人與多數素材已難以分辨。詳細的位元率選擇可參考音訊壓縮原理

剪輯小提醒:MP3 是有損格式,每重新編碼一次就再丟一次資訊。用 MP3 切割工具 剪輯時一次到位,避免反覆「剪輯→匯出→再剪輯」的疊代損失。
立即試用 MP3 切割工具

參考資料

  1. ISO/IEC 11172-3:1993,《Coding of moving pictures and associated audio for digital storage media — Part 3: Audio》,國際標準化組織。
    https://www.iso.org/standard/22412.html
  2. E. Zwicker & H. Fastl, "Psychoacoustics: Facts and Models," Springer Series in Information Sciences.(遮蔽效應之系統性文獻)