為什麼 E 只有一個點?摩斯電碼長度與英文字母頻率的最佳化

印刷廠裡的鉛字盒

摩斯電碼最聰明的設計,是「越常用的字母、編碼越短」。這個原則的誕生有一段著名軼事:Samuel Morse 的合夥人 Alfred Vail 為了估計各字母的使用頻率,走訪紐澤西 Morristown 當地報社,清點印刷工人鉛字盒裡每個字母的鉛字數量——報社為常用字母備的鉛字多、罕用字母少,正是現成的頻率統計。美國國會圖書館的史料文章也記載了這段「用鉛字盒做語料分析」的故事。

結果就是我們今天看到的編碼:最常見的 E 只有一個點(.),第二常見的 T 是一個劃(-);而罕見的 Q(--.-)與 J(.---)則拉到四個訊號元素。

數據怎麼說:頻率與編碼長度

用現代語料驗證,Vail 的鉛字統計準得驚人。Google 研究總監 Peter Norvig 曾以 Google Books 數兆字元的語料統計英文字母頻率,對照各字母的摩斯長度(點 1 單位、劃 3 單位、元素間隔 1 單位):

字母語料頻率編碼單位長度
E12.49%.1
T9.28%-3
A8.04%.-5
O7.64%---11
Q0.12%--.-13
J0.16%.---13

頻率與長度大致呈反比——雖然不是完美對應(例如 O 比頻率更低的 N 還長),但以 1838 年的工具與知識,這已是非常出色的近似最佳解。

資訊理論的先聲

「常用符號用短碼」正是百年後資訊理論的核心思想。Claude Shannon 在 1951 年的論文《Prediction and Entropy of Printed English》中量化了英文的統計結構與冗餘度,證明文字可以被大幅壓縮;1952 年的 Huffman 編碼則給出「最佳變長編碼」的演算法——其原理與摩斯電碼如出一轍:頻率排序、短碼優先。可以說,Morse 與 Vail 在電報線上實作了一個世紀後才被嚴格證明的壓縮原理。

對學習者的實際意義

這個設計對學習者是個好消息:先學會 E、T、A、O、I、N 這些「短碼高頻」字母,你就能聽懂英文文本中近半的字元。打開摩斯電碼翻譯工具,輸入一段英文句子並播放,注意聽那些一閃即逝的短音——它們出現的頻率,正是 180 年前那個鉛字盒的回聲。

立即試用摩斯電碼翻譯工具

參考資料

  1. Peter Norvig,《English Letter Frequency Counts: Mayzner Revisited》——基於 Google Books 語料的字母頻率統計。
    https://www.norvig.com/mayzner.html
  2. C. E. Shannon,《Prediction and Entropy of Printed English》,Bell System Technical Journal, 1951(普林斯頓大學典藏 PDF)。
    https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf
  3. 美國國會圖書館(Library of Congress),《The Invention of the Telegraph》——含 Vail 與編碼設計的史料(經 Internet Archive 存取)。
    https://web.archive.org/web/20250109153743/https://www.loc.gov/collections/samuel-morse-papers/articles-and-essays/invention-of-the-telegraph/