Droidtown.co @droidtown - Tumblr Blog

CopyToaster：摻了語言學的搜尋引擎

不論 AI 的技術與應用如何演進，搜尋 (Search) 永遠是資訊應用不可或缺的一環。但許多不同的搜尋引擎運作原理都需要足量的大數據，才能顯現出良好的效果。我們為了讓各種 NLU/NLP 應用都能有良好的工具可以用，因此我們精心設計出 CopyToaster 這麼一個摻了語言學衍生語法的搜尋引擎，讓使用者可以針對自己的文件進行設定，這麼一來，即便你手上沒有「大數據」，也可以利用最先進的搜尋技術做為輔助各種 NLP/AI 的應用工具。最基本的搜尋功能是使用字串比對 (String matching)。也就是在文件中逐段比對你輸入的字串。只要有比對到，就算是相關的文件。比如說：文件中包含「高麗人蔘」，而你輸入「高麗菜」的時候，就會比對到。因為「高麗人蔘」中含有部份的「高麗」字串。但很明顯地，搜尋「高麗菜」的人，並不是要找「高麗人蔘」。於是，有了第二代的搜尋演算法。主要是透過將各種統計方式 (e.g., TF-IDF) 或是前後文的向量 (e.g., BERT) 將文件「特徵化」，在搜尋時不單單是比對字串，還加上比對特徵來搜出和輸入的 Query 相關的文件。

但這種計算方式遇到像中文這種一個符號可能代表多個意思的語言時，顯然特徵將會變得模糊而導致搜尋結果不如人意。

#nlu #linguistics #artificial intelligence

AI 時代的語言學 - 連載之三：實作

在本系列文的連載之一裡，我們說明了人類的語言系統具有其天生的內部結構，我們可以用這個內部結構來設計一個專門計算「語言結構」的程式，讓資訊系統仿照人類處理語言的過程來推算出語言的結構。

在系列文二裡，我們則進一步利用這個結構來說明「語意 (semantics)」也可以這麼計算，並且和 LLM 做了初步的比對。然而，在系列文二裡，我們沒有特別說明「語意」的計算程式，大概會長什麼模樣。

本篇就來說明，我們要利用系列文二裡的「形式語意學 (Formal Semantics)」的表示式來計算語意，程式大概會長什麼樣子…

#nlp #nlu #linguistics #llm

AI 時代的語言學 - 連載之二：語意

在本系列的 [連載之一] 裡，我們已經描述的現代語言學 (不是 1950 年以前那種『傳統』語言學哦！) 是怎麼看待語言的 (一連串性質略有不同，但結構全都一致的函式結構)，而且這個做法也可以解釋，甚至模仿人類的幼童是如何用極少數的資料，就能開始建立他對母語的結構理解。

理解了結構以後，接下來就能計算語意了。

#artificial intelligence #linguistics #nlu #nlp #LLM

AI 時代的語言學 - 連載之一：結構

前陣子收到一封演講邀請信，來信的是一位「計算機語言學」的專家，但在信中卻寫了一句「…傳統形式語言學[註1]…」這讓我覺得特別有趣。

若要比年代的話，其實計算機語言學起自1946年的機器翻譯，而喬姆斯基 (Chomsky) 的以數學形式描述的形式語言學研究方法，還要 10 年後，在 1957 年才發表「轉換生成語法 (Transformational Grammar)」[註2]。

這就像是 2016 年最流行的 LSTM (長短期記憶模型) 指著 12 年後的 2022年底才出現的 LLM (大型語言模型) 說「那個是傳統 AI」一樣令人感到時空錯亂。

但凡現象必有原因，為什麼一個「計算機語言學家」會認為「形式語言學」是傳統的？我想了幾天，終於想到一個原因『在 AI 時代裡，計算機語言學家認為形式語言學已經是 Old School 的老東西了！所以才會稱之為傳統！』

#linguistics #artificial intelligence #nlp

[讀書隨筆之五] 理論語言學的應用

前情提要…

書名：杭士基 (原著 John Lyons /翻譯張月珍)

這本書的書名就叫「杭士基 (Noam Chomsky)」，是我在大學的時候從校園裡的書店購入。書林出版社在民國 81 年出版的小書。

本系列文打算在用隨書筆記的方式把部份段落擷取出來，並加上自己的說明。但本篇是本系列文中獨立成篇，以前四篇做為基礎，針對卓騰語言科技如何利用理論語言學實作語言科技應用的說明。

書中的前一章已說明了語言學理論的目標，和所有的理論科學一樣是透過「科學方法和考證方式」將「對語言的研究」進一步從單純的現象描述，推展到科學 (science) 的程度。

所以現代語言學是一種「研究語言的科學」，而不再只是傳統語言學的表面現象描述、發音的記錄和語族、語言樹的分類而已。

有個和科學 (science) 常常一起提起的詞彙，是科技 (scientific technology)。既然現代語言學的研究是科學的，那麼這些科學研究成果，能不能做為科技應用的基礎呢？

本文針對這個問題，做出補充。

#nlp #nlu #linguistics #artificial intelligence

[讀書隨筆之四] 語言學理論的目標

前情提要…

書名：杭士基 (原著 John Lyons /翻譯張月珍)

這本書的書名就叫「杭士基 (Noam Chomsky)」，是我在大學的時候從校園裡的書店購入。書林出版社在民國 81 年出版的小書。

本文打算在用隨書筆記的方式把部份段落擷取出來，並加上自己的說明。

系列文至此，我們已經將主題收斂至「理論語言學」(或「生成語法學派」、「形式主義」、「理性主義語言學」) 的範疇。並且也說明了這個在科學史上相對新的學科 -- 現代語言學 -- 和一般人以為的文法研究或是傳統語言學 (就是 AI 專家們說沒有用的那個語言學) 的差別。

那麼，這個新的學科是否有一個研究目標存在呢？

#nlp #linguistics #nlu #artificial intelligence

[讀書隨筆之三] 學派

前情提要…

書名：杭士基 (原著 John Lyons /翻譯張月珍)

這本書的書名就叫「杭士基 (Noam Chomsky)」，是我在大學的時候從校園裡的書店購入。書林出版社在民國 81 年出版的小書。

本文打算在用隨書筆記的方式把部份段落擷取出來，並加上自己的說明。

前文提到「傳統語言學」和「現代語言學」兩種語言學，因為其「傳統」和「現代」兩個詞的語意，很容易讓人以為這是「以前到現在」的變化。事實上，「傳統/現代」的對比，並不是指「某年某月某日，太陽昇起時，全部的傳統語言學學者，全部改變心意，變成了現代語言學學者」。

另外一個更廣為使用的分類方式，叫做「主義」或「學派」。比如說傳統語言學又常被稱為「行為主義」或是「布倫菲爾德學派」。而又立基於這兩個詞彙，現代語言學也常被稱為「形式主義」或是「喬姆斯基學派」。

學派

#linguistics #nlu #nlp #artificial intelligence

[讀書隨筆之二] 現代語言學的獨特之處

前情提要…

書名：杭士基 (原著 John Lyons /翻譯張月珍)

這本書的書名就叫「杭士基 (Noam Chomsky)」，是我在大學的時候從校園裡的書店購入。書林出版社在民國 81 年出版的小書。

本文打算在用隨書筆記的方式把部份段落擷取出來，並加上自己的說明。

既然講到語言學，就會讓人想到文法研究。那麼現代語言學和文法研究到底有什麼不同？

#nlp #artificial intelligence #LLM #linguistics

[讀書隨筆之一] 現代語言學是什麼

書名：杭士基 (原著 John Lyons /翻譯張月珍)

這本書的書名就叫「杭士基 (Noam Chomsky)」，是我在大學的時候從校園裡的書店購入。書林出版社在民國 81 年出版的小書。

第一眼看到這本書的時候並沒有注意到原來「杭士基」就是 Chomsky。因為我一般而言把 Chomsky 譯為「喬姆斯基」。但翻到目錄內容時，正是當時努力著要進入「現代語言學」領域的背景說明。

套一句好朋友說的話「這本就是進入語言學概論以前要補的知識背景」。

本文打算在用隨書筆記的方式把部份段落擷取出來，並加上自己的說明。

#nlp #artificial intelligence #linguistics

HELL 2023：念念不忘，必有迴響

絕大多數的學術研討會、技術分享會議都是先有 Keynote Speaker 定調整場會議的主題，然後 Session Spaker 在各個議程裡分享各自的主題。然後，最精采的交流，往往都發生在一場演講結束，演講之後的 Q&A 也結束，講者步出會場外後，被幾名特別思考過這場議題的聽眾在場外攔下來時，站在走道上的的交流。

在 ChatGPT 上線六個月後，卓騰語言科技和暨南國際大學外文系舉辦的第一屆「語言與語言學人機工程年會」，簡稱 HELL conf. 的這個特別以「語言」為主題的跨域對話平台，採用了一個「極度放大」走道交流的活動形式 -- 在會議開始前，先進行了跨域的圓桌會談。

「圓桌會談的特點在於，身為特邀講者的領域專家以及聽眾之間的座位安排是一樣高的。而且這樣的活動不錄影、不錄音、不直播。以一種一期一會的安全空間感，企圖讓各方意見在最自在的氣氛下交流。」規劃執行這場會議的卓騰語言科技如此說明著。

「結果…這樣的安排效果好嗎？」小編提出第一個問題。

「交流非常深入！聽眾預先提出的 22 個問題裡，只討論了其中的 14 個，就已經嚴重超時 1.5 小時了！幾乎每個問題，都讓聽眾們更深入地瞭解各個領域專家們面對提問的挑戰時，背後的不同的考量重點和各自的生命歷程經驗。」

「預先做這樣的交流，或是說預先做了走道對談的安排，對整場活動的主軸有什麼影響？」

「聽眾接著參與第二天的主題演講，聽到主講的專家們準備的內容時，對內容的理解深度就完全不一樣了。即便這些內容是第一次聽到，但是聽眾也能設身處地理解為什麼講者會這麼想，為什麼講者會這麼做，為什麼在這個領域裡會有這些挑戰的存在。」

「圓桌會談裡聊了什麼？能和我們分享一下嗎？」

「不能 (笑)。我們討論了 ChatGPT 對學術研究的影響、對實際工作的衝擊的評估，也交流了彼此對於人生的下一步要怎麼走的心法、政策面的各種考量…等等議題。關於我們究竟講了什麼，我只能說這麼多了。」

「不能再多透露一點？畢竟 HELL 辦在交通不便的埔里，讓許多人沒辦法參加。」

「這個活動選在埔里是有意為之的，雖然這也讓身為主辦方的我們無法靠售票來打平收支。但在交通上加上一點『門檻』的好處是，我們可以向所有的專家講者保證在場的聽眾的聽講與交流動機一定非常強烈！這點在第二天的活動從一早七點半開始就有聽眾陸續到場可為證！聽眾裡可有一大半都是早起不能的大學生呢！當然，特別安排充滿地方特色的早餐也有不小的功勞！(燦笑)」

「那麼第二天的主題演講裡在談什麼，方不方便和我們重點分享一下呢？」

「第二天的主題演講是特別安排過的，上下午都是『從產業需求出發，再回到學界觀點』的節奏。

從一開始是公部門與金融業裡實際遇到的 NLP (自然語言處理) 需求。這裡面是有許多問題是即便出現了 ChatGPT 以後，仍然還沒有完全解決的。我們仍然有繼續投入大量的技術研究與開發的需求。

我們特別延請的講者是數位部的柯維然技正和玉山銀行的林鉦育經理。這兩位專家不只是在各自的應用問題上都已鑽研許久，更是對『如何實際解決問題』有第一手經驗的高手。他們兩位的演講讓聽眾大開眼界，在活動結束後還多問了快一小時的時間，才讓我們送講者去搭車。還有聽講的同學表示這一天下來，大腦像在開快車一樣，筆記都抄了四頁多的 A4！

上午的最後一場，則由清華大學資工系的陳宜欣教授分享 AI 與教育的議題。事後有幾位同學說『早上一路聽到這裡，我覺得資訊量實在是太高了！我要拼命吸收才跟得上！這是絕無一分鐘廢話的分享。』就像吸了高純度的氧氣一樣！

在特別安排過，能彰顯地方特色的午餐後，下午的第一場由 104 人力銀行的石惠貞副總經理分享在 104 裡的各種自然語言處理需求與挑戰，同時也以自身面對挑戰的經驗來鼓勵在場的同學。

也許是一樣是外文人出身的石副總激勵了聽眾中佔多數的外文系同學的共鳴，再加上有許多同學也是一週前才剛剛畢業，踏入社會。這場演講結束時，聽眾席爆出熱烈的掌聲，為石副總深入淺出的技術分享和面對各種挑戰的勇氣鼓掌！

甚至到會議結束後三天，還有同學在線上交流的語音頻道裡提到石副總分享的內容。

最後一場，則是由在教育現場第一線教了 20 年的國立中正大學語言學研究所吳俊雄教授主講。一天下來，這也是最有火花的一場！吳教授先是指出語言學做 NLP 和資訊科學做 NLP 之間的差異。

如果我用比喻來說明的話，語言學做 NLP 像是特戰隊，專注在特定的幾個棘手的邊緣問題；而資訊科學做 NLP 的話，則是正規軍，講究攻克據點，展開部隊把地盤佔起來。任何戰爭都是需要這兩種單位才能打贏的！

接著吳教授也常常在演講中徵詢同為教育者的陳宜欣教授從資訊工程的角度來看，是否如此？每一次被否定，都是一點微小的火花，讓大部份還處在『入門期』的聽眾們發現『一樣在處理『語言』，但語言學和資訊科學在假設和方法上的差別，是之前不曾仔細思考過的！』

而這種跨領域的交流時碰撞出的火花以及它所引思的繼續思考，正是我們期待造成的效果！」

「聽起來是很精采的一天半！那你最後有沒有什麼要對我們的讀者說的呢？」

「在 HELL Conf. 裡，聽眾們在 ChatGPT 強大的媒體聲量壓力下，親手操作而知道了它的挶限，然後在講題裡聽到了業界的應用機會，更看到如果要繼續走學術路線做研究的話，可以有什麼樣的未來選擇，甚至交到了可以一起努力的同好。這就是 HELL 和其它會議不同的價值！

在會議開始前的四個禮拜，我們有連續四週的 HELL Sprint，有多間學校的同學和社會人參加，藉由串接 ChatGPT 設計與實作聊天機器人，在密集的投入下，他們開始接觸到 ChatGPT 的邊緣，開始摸清楚它有什麼事能做，什麼事不以做。

接著在 HELL 的圓桌會議裡找到發出同樣探問的同好，交上不同科系背景的朋友，甚至在第二天會議結束後兩個多小時，幾個年輕人還在會場旁邊講個沒完，中部的同學約好將來上台北的時候要去找誰誰誰繼續聊，或是討論想要繼續延伸 Sprint 的開發題目…等等。

我們用一個月的時間挖呀挖呀挖，然後在一日夜之間，種下台灣 NLP 下個世代的跨領域人才種子，並親眼看到它冒出芽來。

正如我們的特邀講者之一，玉山銀行的林鉦育經理所描述的『這是一個有後韻的會議』。後面會怎麼發展？我們也非常期待還有資源可以辦下一屆，還能和參加者說一聲 Welcome back to HELL！」

「我們也一起期待。再次謝謝您接受我們的線上專訪。」

#HELL_Conf #NLP #Linguistics

第一屆 H.E.L.L. (語言與語言學人機工程年會) 登場

報名傳送門：https://www.droidtown.co/hell/2023/

從 2022 年底開始一路延燒到現在的 ChatGPT 及其後的各種「生成影像/文字模型」的技術，最近可說是最熱門的話題了。這其中，許多人一直詢問的就是「我的工作真的要被取代了嗎？」甚至連「中國最大的自然語言處理研討會，今年將是最後一年」的聲音都出現了。

對於這些令人感到興奮又恐懼的行銷內容，我們持完全不同的看法！

靈長類就是會使用工具的動物，更何況是心靈手巧的智人。我們的歷史上類似的工具大爆發的事件層出不窮，人類並沒有因此而減少工作了，反而是工時愈來愈長。洗衣機的發明、吸塵器的發明，並沒有讓我們一整天的家事變得更輕鬆，反而是衣物乾淨的標準提高了，房舍整潔衛生的標準也提高了。

我對這些工具的出現，看法也是如此。第一線的 NLP 工作絕對不會減少，它只會變得更好！

我們邀請了產、官、學的各路專家，以理性面對職場裡的各項 NLP 任務，仔細地探討其中的技術本質與邊界問題、人才育成問題。從「語言與語言學」的角度討論人類與機器互動、協作的各種面向。

人類要被取代了嗎？Like hell!

#HELL_Conf #NLP #ChatGPT

Loki, ChatGPT 和 Hybrid AI

自然語言的 AIGC 來了！

NLP 圈子裡，從 2022 年底以來最大的消息，就是 ChatGPT 了。雖然我們並不認為它在「技術」上是一種創新或突破，LeCun 也和我們有一樣的看法。但不可否認地，利用簡單的 prompt 互動設計，讓許多常人對 ChatGPT 和 AI 開始了許多幻想。

很抱歉，光是 ChatGPT 並不能做什麼有價值的事情。它的名字也講得很清楚了，它就是一個可以 "Chat(聊天)" 的 GPT 而已。

許多朋友會問「ChatGPT 的出現，是不是 XX 工作就要被取代或是你們這樣的語言科技公司就要消失了？」呃…不是，相反地，其實我們從 ChatGPT 身上學到的一課就是「做底層技術，大家看不懂；要做終端應用，別人才會覺得你很厲害」。所以，一如以往的 Hybrid AI 的方針，卓騰語言科技正在利用像 GPT 這一類的「資料模型」補上 Loki 搭上市場應用的最後一塊。

#ChatGPT #AIGC #Loki #NLU

essentialquest

覆 [標準重要嗎？] 一文

讀到一篇 [人工智慧與自然語言處理想要說什麼？標準重要嗎？] 的 blog 文。文章中提出的議題，基本上沒有什麼大問題，的確有好幾個是重要的 NLP 課題。但是既然其中提到了「語言學」，那麼有些容易導致誤解的小細節就要拿出來說明釐清一下了。

對於現在的 NLP 應用工具，在評估「有沒有用」的時候，的確會有原作者提到的兩個問題：

一是用來比對的句子本身就是錯的…

二是怎麼分才算對的問題…

對於第一點，即便是目前大家最常用的 SIGHAN 2005 資料集的標準答案裡，也有這種「/夜/比/之前/更深/更/靜/」的結果。這就是作者說的「比對的句子本身就是錯的。

#CKIP #NLP #CWS #中文斷詞

再談「寫個能幹的中文斷詞系統」

在 2019 年的 PyConTW 裡，用「寫個能幹的中文斷詞系統」為題發表了 Articut NLP 引擎以後 (影片)，到現在已經三年多了。由於 Articut 基於語言學原理的特性，和一般電腦科學背景的從業人員習慣的「字典原理」、「統計機率式原理」以及基於「機器學習/深度學習」的「資料分佈原理」很不一樣，許多人仍然無法想像它是怎麼運作的。

前陣子，新聞出現一句「三成人情人節最想收口罩酒精液」的標題，讓網友們再度發問，如果用現代中文 tokenization 的原理，會做成什麼樣子呢？

#Articut #X-bar #Linguistics #NLP #NLU

精采的一年，感謝有您！

Hi Droidtowners, 我是卓騰語言科技的負責人 Peter。 2021 年馬上要進入尾聲了，回顧這驚無險的一年，同時也正好是我們成立的第十年，請容我再向您對我們的支持與產品的愛用，道聲感謝。

在今年裡，我們推出了許多 NLP 工具及應用，都是為了「透過 NLP 技術的突破以促進強人工智慧的發生」的初衷所做的努力。在我們往智慧奇點的路上，您的每一次採購與支持，都讓我們更接近目標。

在這生產力滿滿的一年裡，讓我們一起回顧一下卓騰在 2021 年端出了哪些好料吧！

小密技：透過我們的 API 來取用卓騰的各種 NLP 工具，速度會比較快一點點哦！這個技巧適用於 ArticutAPI、KeyMojiAPI、WordyAPI 和 Loki。

自己選了一個除式/分數來用，寫了一大篇，自說自話，你的資訊密度算高嗎？如果蔡的發言有內容？她為我們的生活帶來甚麼改善、進步？高雄大樓大火，花蓮火車事故，諾富特破口，怎麼他們民進黨佔高雄幾十年、執政5、6年，都沒法顧到？這樣叫做很有內容？

Hi 您好，高雄大樓大火，國人同感悲痛。正如文章中提到的：「統計資料怎麼解讀，並不是卓騰的主要業務。我們的主要業務，是 NLP 工具的開發應商。」

所以資訊密度高表示「好」或是「不好」，這件事，我們沒有做判斷和解讀。也許資訊密度愈低，表示是一個愈容易和民眾互動的演講稿也不一定。若假設一般民眾的語言理解能力呈現常態分佈的話，那麼表示「絕大部份」的人是聽不懂資訊密度高的內容，只能擷取自己愛聽，自己想聽，自己聽得懂的部份，再進行站隊和自行詮釋而已。

這部份要怎麼解讀，我們尊重您的意見。

Hi 卓騰你好初次來到你的網站，被人工智慧能不能利用 NLP 技術搞懂人類能吃什麼呢？這篇文章所吸引而來，無奈文章中的圖片似乎連結失效了，請問是否可以修復呢? 另外，文章所提到的內容是否有github可供參考(就算無法完整附現結果也沒關係)，非常希望能夠得到你的回覆，感謝你! 不過其實我也不知道你回覆了我會不會收到，我的信箱是yltsai0609(gmail)，希望能夠與你取得聯繫，謝謝!

Hi 我們在今年 4 月時已經回覆您了，希望能解決您的疑問。

Trending Blogs

Recently Viewed Blogs

Droidtown.co