對于獵豹移動 CEO 傅盛來說,他今年最呼吁的一件事情,正在成為潮流——小模型逐漸成熟,成為企業(yè)落地商業(yè)化主力軍,這令他十分開心。
可能很多人會困惑,大模型(LLM)正火的當下,什么是小模型(SLM)?目前,市場通常將參數(shù)規(guī)模遠少于 GPT-4 或 Llama-13B 的千億大語言模型,一般參數(shù)只有 1.5B、3B、7B 的模型稱為小大模型。
要說小模型現(xiàn)在有多火,僅僅 7 月下半月,4 家科技公司紛紛推出自己的小模型。
Hugging Face 推出了高性能的小型語言模型 SmoLLM,包括 135M、360M 和 1.7B,能夠直接在瀏覽器中運行;
OpenAI 緊隨其后發(fā)布了 GPT-4o mini,直接讓 GPT-3.5 Turbo 成為歷史;
Mistral AI 與英偉達合作推出了擁有 12 億參數(shù)的 Mistral Nemo,多語言支持、128K 上下文,性能優(yōu)于 L3 8B 和 Gemma 2 9B;
蘋果也不甘示弱,發(fā)布了 70 億參數(shù)的小模型 DCLM-7B,并立即將其全部開源。
如果將時間線再往前推到今年上半年,可以發(fā)現(xiàn)小模型市場早已經(jīng)開始 " 神仙打架 ",比如微軟 4 月發(fā)布了 Phi-3、谷歌 2 月發(fā)布了 Gemma-7B 等。
半年 6 款知名的小模型發(fā)布,行業(yè)掛起了小模型的旋風。
而此前國內(nèi)小模型的忠實擁躉,可能只有獵豹移動和面壁智能。不同于其他大廠有大小系列模型覆蓋,2023 年獵豹直接發(fā)布了中小模型 Orion-14B,應用于企業(yè)私有化模型落地。
盡管小模型市場競爭不激烈,但前趕集網(wǎng)技術總監(jiān)、小晨科技創(chuàng)始人 蒯義剛告訴鯨哥:企業(yè)部署私有大模型,服務的海外客戶最常見的模型是 GPT-3.5 turbo,國內(nèi)的百度文心多一些。
現(xiàn)在情況大變,無論 GPT3.5 還是 GPT-4,已經(jīng)成企業(yè)市場的 " 舊愛 " 了,這些參數(shù)小能力大的小模型憑借超高性價比,一時成為市場的新寵。2024 年會成為 SLM 元年嗎?
參數(shù)不如大模型,小模型憑啥火了?
在 Scaling Law(尺度定律)的信仰下,一直向著萬億大模型進軍的科技巨頭們,紛紛轉(zhuǎn)向了小模型賽道,在市場看來可能有 3 大原因:
第一大原因就是大模型實在太貴了。
對于開發(fā)者而言,訓練大模型和燒錢無異。 蒯義剛就說道:" 好的大模型也十分貴,GPT-4 的使用成本是 GPT-3.5 的 10 倍。 "
最先進的大模型,這么貴的原因,首當其沖的就是硬件訓練成本,GPU、TPU 和 CPU 集群都是基本軍備。前有 OpenAI 用了 25,000 塊 A100 芯片訓練 GPT-4,后有馬斯克宣布要用 10 萬塊 H100 組成超級 AI 訓練集群。其次就是能源消耗,有數(shù)據(jù)顯示,全美 AI 數(shù)據(jù)中心的耗電量足以點亮整個紐約市。此外,人力成本、訓練數(shù)據(jù)成本也都是一筆不小的開銷。
而隨著模型的參數(shù)數(shù)量呈指數(shù)級增長,訓練成本也在急劇上升。Anthropic 首席執(zhí)行官 Dario Amodei 在一檔播客節(jié)目中表示,目前正在開發(fā)的人工智能模型的訓練成本高達 10 億美元。但未來三年 AI 模型的訓練成本將上升到 100 億美元甚至 1000 億美元。至于 GPT-4o" 僅僅 1 億美元的開發(fā)成本,已經(jīng)不值一提。
主流 AI 模型的訓練和推理成本
這種成本上的巨大負擔,讓巨頭們紛紛放下參數(shù)執(zhí)念,投身小模型。
小語言模型可以理解是大語言模型的濃縮版本,參數(shù)更少,設計更精煉,自然需要更少的數(shù)據(jù)、訓練時間以及硬件成本。
比如可能僅僅聚焦于法律問題上的小模型,參數(shù)不到 100 億,那它的訓練成本往往可能不到 1000 萬美元。
而且小模型的性價比不僅體現(xiàn)在訓練端,對于用戶來說也是如此。
由于小模型訓練成本低、并且在相應過程中消耗的算力更少,因此小模型的使用價格也顯得更加親民可人。
目前 OpenAI 的 GPT-4o 的百萬 Tokens 輸入和輸出價格分別是 5 美元和 15 美元,而GPT-4o mini 的百萬 Tokens 輸入價格僅為 15 美分,輸出價格僅為 60 美分,價格速降了 96%~97%。
從 Artificial Analysis 的統(tǒng)計中可以清晰看到大模型與小模型的成本差距。OpenAI CEO 山姆奧特曼對此的形容是:通往智能的成本已經(jīng)「too cheap to meter」(便宜到無法計量 )。
第二,除了便宜,小模型的性能也已經(jīng)拉滿。
最新發(fā)布的 GPT-4o mini,在 lmsys(測評榜單)的較量中展現(xiàn)出了超強實力,不僅與 GPT-4o 的滿血版本并列榜首,還將 Claude 3.5 等強勁對手甩在身后。
lmsys 的排名機制是由用戶自主出題,隨機抽取兩個模型進行一對一的較量。這種機制有效防止了模型通過 " 刷題 " 來獲得虛高的評分,主打一個真實。
分數(shù)不代表一切,實際使用體驗也是效果不錯。
據(jù) OpenAI 公布的案例顯示,GPT-4o mini 已與 Ramp 和超人等公司進行了合作,反饋發(fā)現(xiàn)在執(zhí)行從收據(jù)文件中提取結構化數(shù)據(jù),或在提供線程歷史記錄時,生成高質(zhì)量電子郵件響應等任務時,GPT-4o mini 的表現(xiàn)明顯優(yōu)于 GPT-3.5 Turbo。
更令人期待的是,GPT-4o mini 的 API 現(xiàn)已支持文本(且大幅改善了非英文的效率)和視覺,未來還將支持文本、圖像、視頻和音頻輸入和輸出。
不僅是 GPT-4o mini,其他幾家的小模型也是爭奇斗艷。
主流小模型價格能力評價
被譽為「歐洲版 OpenAI」的 Mistral AI 旗下小模型 Mistral NeMo,從整體性能上也在多項基準測試中,擊敗了 Gemma 2 9B 和 Llama 3 8B。并且該模型專為全球多語言應用而設計,在英語、法語、德語、葡萄牙語、中文方面等方面表現(xiàn)尤為突出。
而蘋果這次推出 DCLM-7B 模型,在 MMLU 基準上的 5-shot 準確率達到了 64%,與 Mistral-7B 和 Llama 3 8B 不相上下,但計算量只有后者的六分之一。在 53 個自然語言理解任務上,它的平均表現(xiàn)也可以與 Llama 3 8B 相媲美。
此外,蘋果這波格局了一把。不僅模型本身開源,連訓練數(shù)據(jù)集都一并公開,讓人們可以完整復現(xiàn)他們的工作。
第三、小模型除了性價比杠杠的,也憑借著小巧的身姿進入了更多的應用場景。
大模型在使用場景上有很多局限。比如智能手機、物聯(lián)網(wǎng)設備等邊緣設備,通常具有有限的計算能力和存儲空間,無法承載大型語言模型,而這時候小模型則可以完美嵌入。
又比如在對實時性有嚴格要求的應用領域,例如實時圖像分析、語音識別和動態(tài)推薦系統(tǒng),小模型由于參數(shù)少,能夠迅速地進行推理,以極短的延遲滿足用戶的即時需求。
性價比超高,為何小模型現(xiàn)在才爆?
小模型有這么多優(yōu)點,為什么巨頭們現(xiàn)在才開始 " 真香 " 反轉(zhuǎn)呢?
Open AI 的產(chǎn)品主管 Olivier Godement 解釋,這單純是 " 純粹的優(yōu)先級 " 問題。之前公司專注于 GPT-4 這類大模型上,隨著時間的推移,OpenAI 才關注到開發(fā)者對于小模型的需求。
但也有觀點認為,大模型是通往小模型的必經(jīng)之路。
大型模型的訓練就像是海綿吸水,盡可能把所有數(shù)據(jù)、信息囊括其中。而這樣做,有利有弊。大型模型在海量數(shù)據(jù)的依托下,能夠更好、更準確的處理新新任務,但同樣也可能因為學的太雜,而出現(xiàn)不同知識的重疊、混合和沖突。
而小模型則是站在大模型的肩膀上進一步優(yōu)化。小模型接收的數(shù)據(jù),則是由超大模型進行清洗的高質(zhì)量數(shù)據(jù)。比如對于 GPT-4o mini 進行訓練的數(shù)據(jù),就是由 GPT-4 進行清洗的。
而這種先做大模型,再進一步瘦身的訓練模式正在成為新趨勢??萍季揞^們對于不再一味求大,而是求精。
在 2023 年 4 月,OpenAI 的首席執(zhí)行官 Sam Altman 宣布了大型 AI 模型時代的結束。他指出,數(shù)據(jù)質(zhì)量是 AI 訓練的關鍵成功因素,并且認為關鍵問題是人工智能系統(tǒng)如何從更少的數(shù)據(jù)中學到更多的東西。而這個觀點也得到微軟、Hugging Face 等其他玩家的認可。
而這種不斷精簡優(yōu)化的過程則會不斷形成正循環(huán)。每一代模型都會幫助生成下一代的訓練數(shù)據(jù),直到獲得 " 完美的訓練集 "。
未來,和階梯式上升的小模型質(zhì)量形成對比的,則是不斷下降的小模型價格。
傅盛曾在 WAIC 中說道," 千億參數(shù)大模型一年私有化授權費用就是幾千萬,到今天應該還是,然后私有化部署以后,買服務器的費用最低成本 160 萬(當時的價格)"。
大模型太貴了。 蒯義剛也和 AI 鯨選社說道,他們現(xiàn)在私有化部署一般是四五十萬,為了成本考量幾乎不太做微調(diào)。他們作為落地服務商沒有賺太多,大頭還是大模型企業(yè)的授權費用。
現(xiàn)在企業(yè)使用大模型成本可能會大幅降低了。AI Grant 的兩位合伙人 Daniel Gross 和 Nat Friedman 在訪談中, LLM 成本在質(zhì)量不變差的情況下,每年可以降低 90% 的情況。
OpenAI 也確實基本在證明了這件事。OpenAI 基本是以每 3 個月作為一個周期,總會有其中至少一個模型成本下降 60% ,或者成本下降至少 60% 的情況下,質(zhì)量還更高了。而一個模型基本上一年會經(jīng)歷兩次的降本增效,每次降低 60%,兩次過后就剛好是比之前降低了 90% 左右。
GPT-4o mini 就是這種邏輯的成果體現(xiàn)。而且隨著高質(zhì)量數(shù)據(jù)集以及訓練方式的改進,這些小模型有些能力甚至更突出。
正如 AI Grant 所說,沒理由認為更小的模型不會有更好的表現(xiàn)。" 最近這些 9B 的模型已經(jīng)震撼到我們了,沒有任何數(shù)學證明 3B 做不到同樣的效果。如果 3B 做到了,沒理由不運行在本地,那么那時候除了一些電耗問題外,我們更多的肯定是在做本地處理 + 云端模型的路由。"
換言之,未來將不斷涌現(xiàn)越來越多更精簡、更高效、更便宜的小模型。未來就像 OpenAI 創(chuàng)始成員及研究科學家 Andrej Karpathy 所發(fā)言,未來大模型的尺寸競爭趨勢即將逆轉(zhuǎn),尺寸競爭正在倒退。
企業(yè)落地最愛,小模型加速商業(yè)化
" 企業(yè)專用大模型,百億參數(shù)就夠了。" 是傅盛過去一年經(jīng)常說的話。
但實際上,2023 年將小模型向垂直方向微調(diào),打造出媲美大模型的效果,效果并沒有那么好,百億參數(shù)沒那么夠。
但現(xiàn)在情況不一樣了,gpt-4o-mini 在很多場景中不用微調(diào),都不比 Chat-4 turbo 差。
有 AI 創(chuàng)業(yè)者反饋:"gpt-4o-mini 的效果真的不錯。首先是速度非常快,比 4o 快多了,幾乎不需要等待,就可以讀取結果了。其次是實際的表現(xiàn),GPT-4o-mini 目前僅在復雜場景中還需借力 , 只有比較復雜一點的編程沒有搞定。" 日常的需要搜索引擎 +blog 或者教程才能解決的任務,基本 GPT-4o-mini 都可以完成的不錯。"
在大模型的托舉之下,小模型正在用更加輕盈的姿態(tài)落地。HuggingFace CEO Clem Delangue 甚至指出,多達 99% 的使用場景可以通過 SLM 來解決,并預測 2024 年將是 SLM 元年。
蒯義剛說道,最近有家此前做了醫(yī)療和房地產(chǎn)領域的客戶,都是用的大模型。4o-mini 發(fā)布那天,他看了下資料,比 GPT-3.5 Turbo 更好的性能,更長的輸出,多模態(tài)支持 ,更低的費用,以及更好的非英語語言的支持,感覺是天賜的好模型。
" 最近談的一個招聘客戶,預計就是使用 4o-mini。" 生意預計會好做,也讓他的笑聲多了起來。
但他也提到,看行業(yè)分析,未來大模型、小模型會相輔相成落地企業(yè)的部署。
這意味著模型生態(tài)向著流動、精準進一步發(fā)展。而從使用場景上,大模型、小模型也將分工明確。
大模型將繼續(xù)在需要廣泛知識基礎和高級認知能力的領域中發(fā)揮其核心作用;而小模型則以其輕巧的身形和高效的性能,在成本敏感、對響應時間有嚴格要求的應用場景中大放異彩。
正如 Forrester Research 的資深 AI 分析師 Rowan Curran 所比喻:" 并非時刻都需要跑車,有時一輛小型貨車或皮卡車更為合適。未來的模型應用不會單一,而是根據(jù)不同需求選擇最適宜的工具。"
甚至,未來大、小模型之間會出現(xiàn)任務的上下級協(xié)作。
DeepMind、普林斯頓大學和斯坦福大學的研究人員近日提出了一項名為 LATM(LLMs As Tool Makers)的創(chuàng)新框架,即讓大型語言模型生成自己的軟件工具來處理新任務。
它帶來了一種全新的大、小模型的分工形式。即將需要具備高強度算力才能實現(xiàn)的工具制造過程可以分配給功能強大、資源密集型的模型,例如 GPT-4;而將相對簡單的使用工具過程分配給輕量級、經(jīng)濟高效的模型,也就是小模型。這種模式既節(jié)省成本又保證性能。
如今市場上,99% 的企業(yè)實際上還沒有部署大模型進業(yè)務,小模型風靡后,輔以大模型托底,這一巨大的市場會不會在 2024 年被撕開?
來源:AI 鯨選社