但 ChatGPT 顯然無法分辨「什麼是可被計算的,什麼是不可被計算的」,也就是說它分不清楚「什麼是可被理解地 makes sense,而什麼是不可被理解地 not makes sense」。
因此,在 AI 時代裡,語言學的「語意計算」可以更好地和生成式大型語言模型做搭配,將「無法被理解」的語句加以標出、排除或是拒絕處理,以便讓本質為接龍模型的 LLM 可以產出品質更好的結果。
而我們從語言學的角度出發,可以這麼做,是因為我們知道語言具有內部結構 (如系列文一所述),而且這個結構可以被描述為一個可被計算與繼承的程式函式。
在本文中,我們進一步延續這個概念,將結構內的每個詞彙,依其在句法結點上的位置,直接轉寫為一組函數關係。並據以解釋「什麼是具有 comprehensibility (可被理解性)」的句子,說明「makes sense vs. not makes sense」的差異。也說明在一個 makes sense 的語意前提下,什麼是「真實」什麼是「虛假」的計算。
在下一篇系列文中,我們將進一步展示,利用這樣的語意計算能力,我們可以做哪些應用。
[註 1]
John rented a house in Boston.
這個句子有兩種可能的意思。
a. John 做租房子這個動作的時候,人在 Boston,但房子不一定在 Boston.
b. John 租了一個在 Boston 的房子,但他做這個動作的時候不一定在 Boston.
本文的說明採用 a 做為說明之用。如果改採 b 的話,其函式關係如下:
除了這個 HeadFirst 的參數設定以外,我們還會注意到「所有能扮演 Function 的元素,都是有限的數量」。比如說英文介系詞就少少的那幾個,中文的更少 (e.g., 在、於、之、的…等)。換言之,人類幼童根本不需要有那麼多的訓練語料,他只需要掌握住「那些常常出現的高頻詞,各自是屬於要往前併成一個 XP 的類型,還是往後併成一個 XP 的類型」就可以了。
於是「那隻貓打破了這個花瓶」,就可以很快地被以下的步驟逐層解析並加上標記:(我用 -> 和 <- 來表示它是往哪個方向併成一個 XP 結構,並用 [ ] 標出已經併起來的單位)
a. 將語言 K 中的功能詞列出來。如此一來,我們將可以區分 K 語言中的詞彙邊界。[註五]
b. 將語言 K 中的功能詞的特徵是否為左分支設定好。如此一來,我們將可以轉譯 K 語言成為一組一組的 Func(arg, arg, …) 的結構。
c. 有了 a, b 兩個功能以後,我們便能更進一步自動位資料自動做出知識圖譜。
紅色的字標出的是原句裡 "John rented a room in Boston" 裡的動詞以後的部份。從這棵完整的句法樹裡還能看到,如果我們要把整個句子擴充成 "John rented a room that is in Boston" 能得到一樣的語意。因為在句法結構裡,"that" 和 "is" (及其相關的時間語意 <tense>) 都已經有節點可以計算了。
每一個 XP 都是一個 func(). 而能做為其 arguments (論元) 的詞性變化也是有限的 (大概都在二到三個變化之間)。在卓騰,我們就是利用這樣的特性把每個 XP 的函式寫出來 (大概有三十個),然後就能計算句法結構並轉為語意了。
最後是 Chomsky 的現代語言學,如同前兩篇系列文中的說明,其屬於一種理論科學,因而如前篇系列文裡說明的一樣,它並不像文法研究,反而更像數學一樣,是帶著利用 Formalized Symbol System (形式化的符號系統) 的各種函式來進行研究的科學,被喜歡以「主義與學派」分類的人歸類在 "Formalism" 裡。