展望未來,我們預(yù)計生成性AI的趨勢將集中在三個主要領(lǐng)域:快速而廣泛的技術(shù)進步、比預(yù)期更快的數(shù)字化轉(zhuǎn)型,以及對人工智能的社會和全球影響的日益重視。具體來說,我們預(yù)期生成式AI有8個主要發(fā)展趨勢:

作者:張長旺,圖源:旺知識
1. 多模態(tài)增長

作者:張長旺,圖源:旺知識
多模態(tài)——即一個生成性AI工具被設(shè)計為接受多種格式的輸入并生成多種格式的輸出——開始成為消費者的首要任務(wù),AI供應(yīng)商也在注意到這一點。
OpenAI是最早通過GPT-4向用戶提供多模態(tài)模型訪問的公司之一,谷歌的Gemini和Anthropic的Claude 3是緊隨其后的幾大模型之一。盡管如此,大多數(shù)AI公司尚未公開提供多模態(tài)模型;即使許多現(xiàn)在提供多模態(tài)模型的公司也對可能的輸入和輸出有重大限制。
在不久的將來,多模態(tài)生成性AI可能會變得不再是一個獨特的賣點,而是消費者對生成性AI模型的期望,至少在所有付費的LLM訂閱中是這樣。
此外,預(yù)計多模態(tài)建模本身將變得更復雜、更準確,以滿足消費者對一體化工具的需求。這可能看起來像是提高圖像和非文本輸出的質(zhì)量,或者為視頻、文件附件(正如Claude已經(jīng)做到的)和互聯(lián)網(wǎng)搜索窗口小部件(正如Gemini已經(jīng)做到的)等增加更好的功能和特性。
ChatGPT目前允許用戶使用文本(包括代碼)、語音和圖像輸入和輸出,但ChatGPT中沒有內(nèi)置的視頻輸入或輸出功能。這種情況可能很快就會改變,因為OpenAI正在嘗試其新的文本到視頻生成工具Sora,并可能將其一些功能嵌入到ChatGPT中,就像他們對DALL-E所做的那樣。
