要計算漢字的排列組合,我們首先要定義「字符集的大小」以及「組成的長度」。這正是劉慈欣在《詩雲》中所討論的核心科學邏輯:窮舉法(Brute-force)。

 1. 基礎數據設定

在數學建模上,我們通常設定以下兩個變數:

  • $n$ (字符總數): 常用漢字約 3,500 個,若包含生僻字或《康熙字典》收錄,約有 50,000 個。

  • $k$ (詩的長度): 以五言律詩為例,共 40 個字。

2. 排列組合的計算

由於漢字在詩詞中可以重複使用,這屬於**「可重覆排列」**,其數學公式為:

$$Total = n^k$$

若以 50,000 個漢字 隨機排列出一首 40 字的五言律詩,其總數為:

$$50,000^{40}$$

這個數字大到超乎人類想像,約等於 $10^{187}$。作為對比:

  • 全宇宙的原子總數: 約為 $10^{80}$

  • 語序塔的絕望: 這就是為什麼在小說中,外星文明必須拆掉整個太陽系來製造存儲媒介,因為即便是將原子當作存儲位元,整個宇宙的物質可能都不夠裝下所有漢字的排列組合。


3. 不同規模的排列範例

為了方便理解,我們縮小範圍來看:

類型字數 (k)排列組合數 (以 5,000 常用字計)
兩個字的詞語2$25,000,000$ (2.5千萬)
五言絕句20$5,000^{20} \approx 9.5 \times 10^{73}$
七言律詩56$5,000^{56} \approx 1.3 \times 10^{207}$

4. 為什麼這不僅是數學問題?

雖然數學上可以窮舉,但在現實(或文學)中會遇到兩個瓶頸:

  1. 物理限制: 存儲這些數據需要的能量與質量超過了星系的負荷。

  2. 審美篩選:$10^{200}$ 次排列中,99.99...% 都會是毫無意義的亂碼。如何從這片「數據海洋」中找出那首真正超越李白的詩,才是《詩雲》中高等文明最終失敗的原因——技術可以窮舉語序,但無法識別美。

留言

這個網誌中的熱門文章

📜 柳辰的前半生:語序共和的奠基者

柳辰的創業經歷: