睿智科技-睿智合創(北京)科技有限公司

文：趙昊來源：财聯社

北京時間周二（5月14日）淩晨，美國(guó)人工智能(néng)研究公司OpenAI在線上舉辦了“春季更新”活動。

整體來看，活動主要分爲兩(liǎng)大部分：推出新旗艦模型“GPT-4o”，以及在ChatGPT中免費提供更多功能(néng)。

GPT-4o登場

OpenAI在活動中發(fā)布了新旗艦模型“GPT-4o”，“可以實時對(duì)音頻、視覺和文本進(jìn)行推理。”據介紹，新模型使ChatGPT能(néng)夠處理50種(zhǒng)不同的語言，同時提高了速度和質量。

GPT-4o的“o”代表“omni”。該詞意爲“全能(néng)”，源自拉丁語“omnis”。在英語中“omni”常被(bèi)用作詞根，用來表示“全部”或“所有”的概念。

新聞稿稱，GPT-4o是邁向(xiàng)更自然人機交互的一步，它可以接受文本、音頻和圖像三者組合作爲輸入，并生成(chéng)文本、音頻和圖像的任意組合輸出，“與現有模型相比，GPT-4o在圖像和音頻理解方面(miàn)尤其出色。”

在GPT-4o之前，用戶使用語音模式與ChatGPT對(duì)話時，GPT-3.5的平均延遲爲2.8秒，GPT-4爲5.4秒，音頻在輸入時還(hái)會(huì)由于處理方式丢失大量信息，讓GPT-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

與之相比，GPT-4o可以在232毫秒内對(duì)音頻輸入做出反應，與人類在對(duì)話中的反應時間相近。在錄播視頻中，兩(liǎng)位高管做出了演示：機器人能(néng)夠從急促的喘氣聲中理解“緊張”的含義，并且指導他進(jìn)行深呼吸，還(hái)可以根據用戶要求變換語調。

圖像輸入方面(miàn)，演示視頻顯示，OpenAI高管啓動攝像頭要求實時完成(chéng)一個一元方程題，ChatGPT輕松完成(chéng)了任務；另外，高管還(hái)展示了ChatGPT桌面(miàn)版對(duì)代碼和電腦桌面(miàn)（一張氣溫圖表）進(jìn)行實時解讀的能(néng)力。

OpenAI新聞稿稱，“我們跨文本、視覺和音頻端到端地訓練了一個新模型，這(zhè)意味著(zhe)所有輸入和輸出都(dōu)由同一神經(jīng)網絡處理。由于GPT-4o是我們第一個結合所有這(zhè)些模式的模型，因此我們仍然隻是淺嘗辄止地探索該模型的功能(néng)及其局限性。”

性能(néng)方面(miàn)，根據傳統基準測試，GPT-4o在文本、推理和編碼等方面(miàn)實現了與GPT-4 Turbo級别相當的性能(néng)，同時在多語言、音頻和視覺功能(néng)方面(miàn)的表現分數也創下了新高。

更多工具免費解鎖

OpenAI表示，“我們開(kāi)始向(xiàng)ChatGPT Plus和Team用戶推出GPT-4o，并且很快就會(huì)向(xiàng)企業用戶推出。我們今天還(hái)開(kāi)始推出ChatGPT Free，但有使用限額。 Plus用戶的消息限額將(jiāng)比免費用戶高出5倍，團隊和企業用戶的限額會(huì)再高一些。”

新聞稿稱，即使是ChatGPT Free（免費）用戶也可以有機會(huì)體驗GPT-4o，但當達到限額時，ChatGPT將(jiāng)自動切換到GPT-3.5。

另外，OpenAI還(hái)推出适用于macOS的ChatGPT桌面(miàn)應用程序，通過(guò)簡單的鍵盤快捷鍵（Option + Space）可以立即向(xiàng)ChatGPT提問，還(hái)可以直接在應用程序中截取屏幕截圖與機器人進(jìn)行讨論。

在直播活動尾聲時，OpenAI首席技術官Mira Murati說道(dào)，“感謝傑出的OpenAI團隊，也感謝Jensen（黃仁勳）和英偉達團隊爲我們帶來了最先進(jìn)的GPU，使今天的演示成(chéng)爲可能(néng)。”

關鍵詞：

返回列表

上一篇：兩(liǎng)家上市銀行拟吸收合并旗下村鎮銀行

下一篇：銀行豐富消費信貸産品爲“以舊換新”做好(hǎo)金融支持

搜索

行業動态

3分鍾速覽OpenAI春季發(fā)布會(huì)：GPT-4o炸裂登場！聽說讀寫絲滑如真人