採訪、撰文:陳雅莉
數據分析與預測將「被革命」?
ChatGPT在金融領域的可能應用有哪些?麥錫森智能科技創辦人暨執行長賴昭榮認為,「ChatGPT雖是已受訓練的大型語言分析系統,但使用者仍可進行新的訓練,讓ChatGPT更符合使用者的特殊需求,如用來金融分析、預測。」
近5年來,AI熱潮持續加溫,在ChatGPT席捲媒體、社群網站版面後,更讓此熱潮攀登新巔峰。為讓金融業從業者認識ChatGPT的特性,台灣金融研訓院「芬恩特創新聚落」特邀請麥錫森智能科技創辦人暨執行長賴昭榮,以「ChatGPT的數據分析與預測」為主題,講述其在金融領域的可能應用。
賴昭榮解釋,ChatGPT可視為AI科技中的生成式AI(GenerativeAI),生成式AI的主要功能為分類、預測,故金融業可將ChatGPT應用於數據分析與預測。他認為,在了解ChatGPT之前,得先了解AI,而AI的定義是,「被稱為AI的裝置、軟體,當使用者與之互動時,完全沒有感受到非人類的跡象。」
可視為聊天或文字接龍機器人
AI的定義,又稱「圖靈測試」(Turing test)。賴昭榮直言,AI的反應、回饋,會讓使用者覺得,「AI就像一個真實的人,而非機器」,而ChatGPT在全球迅速竄紅的關鍵,便在於其回覆,幾乎與真人無異。
「生成式AI的最大特點,在於可生成先前沒有的資料。」賴昭榮指出,ChatGPT回覆使用者的文章裡頭便有許多使用者未曾提供的文字資料,「其實,人們可將ChatGPT視為聊天或文字接龍的機器人。」
僅能「合理」回答問題而非「正確」
在資訊科技上,ChatGPT可被歸類為「自然語言處理技術」(NaturalLanguage Processing, NLP),也導入機器學習(Machine Learning)、深度學習(DeepLearning)等技術;自然語言指人類的語言,而非程式語言。「自然語言處理技術」可讓電腦理解、分析、生成自然語言,已逐漸應用於客服機器人、智慧家居電子產品。
何謂聊天或文字接龍的機器人?賴昭榮表示,ChatGPT針對使用者的問題,產出新的文字資料,若使用者繼續發問,ChatGPT再根據第2個問題,第2次提供答案,就彷彿使用者與真人對談般,「而ChatGPT僅能合理地回答問題,而非正確的回答問題。」
「有些人使用ChatGPT後,不滿意ChatGPT的回答,或認為其答案模稜兩可,簡直答非所問,甚至覺得ChatGPT很笨。」賴昭榮強調,對ChatGPT而言,正確即是合理地回答使用者的問題,與使用者認為的正確答案不一定一致,「有些使用者會以奇怪的問題詢問ChatGPT,自然得不到理想的答案。」
而且,ChatGPT並非搜尋引擎,所以使用者若問及人、事、時、地、物等問題,ChatGPT通常無法提供精準的答案。賴昭榮觀察,大多數台灣人使用的是免付費的ChatGPT3.5,僅有少數使用者、企業願意付費,使用更高階的ChatGPT4.0,「在答案的合理性上,ChatGPT4.0勝過ChatGPT3.5甚多。」
ChatGPT4.0超越ChatGPT3.5之處,還包括ChatGPT4.0已可直接瀏覽網頁,並從網址中「撈取」資料。不過,ChatGPT4.0功能雖比ChatGPT3.5強大,如還可安裝插件(Plugin),觀看影片,並分析電腦中的文件,產出PDF檔,但因可檢索的資料較多,故回答使用者問題的速度,比ChatGPT3.5略慢。
提問敏感資料事後勿忘刪除
「在使用ChatGPT之前,使用者務必切記,除非有必要,否則提問時,不要涉及個人、企業機密與敏感資料。」賴昭榮提醒,如果使用者非得問機密與敏感資料,事後一定要記得刪除,否則有資料外洩之虞,「但即使使用者刪除問答資訊,ChatGPT後端仍會保留相關資訊,為期至少1個月。」
如何將資料應用於AI(fromdata to AI)?賴昭榮引用Google制定的標準作業流程,將流程區分為7個步驟,依次為蒐集資料、準備資料、選擇模型、模型訓練、模型評估、參數優化,與進行預測,「AI最受期待的功能,自是進行預測。這7個步驟若缺乏最後1步,就只是統計。」
「統計與AI的差別在於,前者倚賴人類分析、預測,後者可透過程式計算,自行預測趨勢、未來。」賴昭榮認為,在執行Google的7步驟時,許多人常忽略蒐集資料的重要性,其實資料品質之良莠,直接影響結果的品質,「使用者更要謹記,並非把資料備齊,就是準備資料,還得刪除有缺失的資料,並將文字轉換成向量、數值,整理成可置入模型的樣態。」
在完成蒐集資料、準備資料後,接著便是根據目標,來選擇合適的模型。賴昭榮舉例,使用者若以AI雲端股票分析機器人為目標,亦可選擇以ChatGPT為模型。他補充道,ChatGPT乃是OpenAI(美國一間人工智慧研究實驗室)所開發的大型語言分析模型,GPT原意為GenerativePre-trained Transformer(生成式預先訓練轉換器),已是預先經過訓練的模型,可為使用者省下模型訓練的時間。
「ChatGPT使用者若想打造AI雲端股票分析機器人,就得蒐集與之相關的API(ApplicationProgramming Interface,應用程式介面),並從資料庫、雲端資料庫中汲取資料。」賴昭榮指出,各金融指數與各上市櫃公司的股價、重大訊息、媒體報導,亦是不可或缺的資料,若API不足,「使用者就得自行編寫網路爬蟲(即automaticindexer,自動索引程式),自動搜尋網路上的資料。」
應用API、網路爬蟲,目的皆是自動從網路上搜尋資料。只是,縱使API、網路爬蟲功能再強大,也不一定可找到所有的資料,得視各單位資料開放程度而定;以台灣政府機構為例,中央政府、台北市政府資料公開程度較高,其他縣市政府資料開放程度較低,搜尋不易。
訓練ChatGPT符合特殊用途
蒐集足夠的資料後,使用者接著應進行資料分析。賴昭榮說明,以程式分析資料,中文斷辭、情緒分析,使用者可應用ChatGPT、BERT、CKIP(由中研院研發的軟體,功能為中文斷辭,用以生成文字雲)等軟體,「所謂情緒分析(SentimentAnalysis),指分析一段或一篇文章的目的,與其蘊含正向、負向或中性情緒。」
「使用者若張貼一段話,或一篇文章,請ChatGPT回答其目的為何,情緒是正向、負向或中性,大多可得到相當精確的回答。」賴昭榮闡述,若要打造AI雲端股票分析機器人,至少得分析一整年的金融資料,取得情緒分析的結果後,再將其結果整合、分析,作為雲端服務、網頁框架、圖形呈現、即時通知、條件監控、關鍵字搜尋等功能的基礎。
除了各上市櫃公司的公開資訊與媒體報導,各個社群網站中的投資者留言,也可列入金融資料的範疇內。賴昭榮觀察,在不同國家,投資者都有慣用的「金融辭彙」,歐美國家與台灣皆如此,如「韭菜」等,「這些辭彙頗能彰顯當時的金融現象、氣氛,並飽含投資者真實的情緒,可用ChatGPT進行處理。」
「ChatGPT雖是已受訓練的大型語言分析系統,但使用者仍可進行新的訓練,讓ChatGPT更符合使用者的特殊需求,如用來金融分析、預測,也有企業將之用於安全控管。」賴昭榮直言,ChatGPT3.5雖可免費使用,卻非OpenSource Software(開源軟體,又稱開放原始碼軟體,指開放所有使用者自由修改的軟體),許多關鍵技術還掌握在OpenAI手上,「使用者可付費,轉用更高階的ChatGPT4.0,或換成其他軟體。」
然而,賴昭榮坦承,許多人接觸ChatGPT,是出於好奇與想「湊熱鬧」,對付費使用ChatGPT4.0,興趣缺缺。他建議使用者,對ChatGPT3.5提出問題時,不僅問題應盡量清晰,提供的資料也不可模糊,越詳盡、越齊備越好,不必在乎資料是否部分重複,「假使兩個使用者都詢問ChatGPT:『何為智能理財』,一位完全不給資料,一位提供一篇以智能理財為主題的論文。兩人所得到的答案,將天差地別,給後者的答案自然較優。」
AI浪潮劇烈改變人類生活、職場生態
除了回答使用者詢問,ChatGPT亦適用為長篇文章做摘要。賴昭榮歸納自己的使用經驗,發現ChatGPT不僅可為中文文章摘要,也可為英文文章摘要,還可將摘要條列化,或將英文摘要翻譯成中文,「使用ChatGPT,切勿操之過急,可以指定步驟,並給予充裕的時間,它就可給出更好的答案。」
賴昭榮強調,使用者應給ChatGPT明確的指示,除了指定步驟,更可標示資料的重點與資料來源,與期待ChatGPT哪些事,如此將有助於ChatGPT運作,「但重申先前所說的,這些舉措只能增加ChatGPT回答的合理性,而非正確性。」
「新興科技如雨後春筍般湧現,令人目不暇給,這些新科技將劇烈改變人類的生活與職場生態,金融業自不例外。」賴昭榮預言,在可見的未來,企業不一定會導入ChatGPT,因為許多資深員工不習慣,但ChatGPT掀起的AI風潮,勢必將持續深化、廣化,帶領人類進入新的科技紀元!