摩斯電碼最聰明的設計,是「越常用的字母、編碼越短」。這個原則的誕生有一段著名軼事:Samuel Morse 的合夥人 Alfred Vail 為了估計各字母的使用頻率,走訪紐澤西 Morristown 當地報社,清點印刷工人鉛字盒裡每個字母的鉛字數量——報社為常用字母備的鉛字多、罕用字母少,正是現成的頻率統計。美國國會圖書館的史料文章也記載了這段「用鉛字盒做語料分析」的故事。
結果就是我們今天看到的編碼:最常見的 E 只有一個點(.),第二常見的 T 是一個劃(-);而罕見的 Q(--.-)與 J(.---)則拉到四個訊號元素。
用現代語料驗證,Vail 的鉛字統計準得驚人。Google 研究總監 Peter Norvig 曾以 Google Books 數兆字元的語料統計英文字母頻率,對照各字母的摩斯長度(點 1 單位、劃 3 單位、元素間隔 1 單位):
| 字母 | 語料頻率 | 編碼 | 單位長度 |
|---|---|---|---|
| E | 12.49% | . | 1 |
| T | 9.28% | - | 3 |
| A | 8.04% | .- | 5 |
| O | 7.64% | --- | 11 |
| Q | 0.12% | --.- | 13 |
| J | 0.16% | .--- | 13 |
頻率與長度大致呈反比——雖然不是完美對應(例如 O 比頻率更低的 N 還長),但以 1838 年的工具與知識,這已是非常出色的近似最佳解。
「常用符號用短碼」正是百年後資訊理論的核心思想。Claude Shannon 在 1951 年的論文《Prediction and Entropy of Printed English》中量化了英文的統計結構與冗餘度,證明文字可以被大幅壓縮;1952 年的 Huffman 編碼則給出「最佳變長編碼」的演算法——其原理與摩斯電碼如出一轍:頻率排序、短碼優先。可以說,Morse 與 Vail 在電報線上實作了一個世紀後才被嚴格證明的壓縮原理。
這個設計對學習者是個好消息:先學會 E、T、A、O、I、N 這些「短碼高頻」字母,你就能聽懂英文文本中近半的字元。打開摩斯電碼翻譯工具,輸入一段英文句子並播放,注意聽那些一閃即逝的短音——它們出現的頻率,正是 180 年前那個鉛字盒的回聲。
立即試用摩斯電碼翻譯工具