當(dāng)生成式 AI 風(fēng)頭正勁,越來越多的企業(yè)開始積極在自身行業(yè)布局相關(guān)的 AI 應(yīng)用。但在風(fēng)頭之下,從準(zhǔn)備工作到業(yè)務(wù)價值落地之間環(huán)環(huán)相扣,從數(shù)據(jù)準(zhǔn)備到篩選場景,再到落地應(yīng)用,每一個環(huán)節(jié)都會成為企業(yè)級 AI 應(yīng)用的卡點。
第一步:數(shù)據(jù) " 就緒 "
" 從現(xiàn)階段應(yīng)用來看,具備企業(yè)級 AI 應(yīng)用落地的企業(yè)并不多,"IBM 大中華區(qū)董事長、總經(jīng)理陳旭東告訴鈦媒體 APP," 若想有更多成熟的生成式 AI 應(yīng)用場景落地,企業(yè)首先需要大量多維度的高質(zhì)量數(shù)據(jù)。"
" 數(shù)據(jù)是 AI 時代的石油。" 領(lǐng)悅數(shù)字信息技術(shù)有限公司南京分公司總經(jīng)理戚海飛對鈦媒體 APP 表示。確實,無論是對于政府,還是企業(yè),數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)時代、AI 時代的 " 石油 "。
2020 年 4 月,國務(wù)院發(fā)布文件《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》此次意見首次把數(shù)據(jù)和土地、勞動力、資本、技術(shù)四大傳統(tǒng)要素并列,成為第五個生產(chǎn)要素。目前行業(yè)公認(rèn)的以次為 " 起點 ",數(shù)據(jù)成為越來越重要的存在。2023 年 10 月,國家數(shù)據(jù)局的正式成立,將數(shù)據(jù)的重要性推到了最高峰。
2022 年底,ChatGPT 橫空出世以后,新一輪 AI 的浪潮席卷各行各業(yè),企業(yè)對于數(shù)據(jù)的重視程度越來越高。中國信息通訊研究院云計算大于數(shù)據(jù)研究所所長何寶宏表示,伴隨著大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)質(zhì)量越來越高的前提下,人工智能已經(jīng)逐漸從以代碼為中心,轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能," 當(dāng)下企業(yè)需要通過加強數(shù)據(jù)治理和增強數(shù)據(jù)質(zhì)量,來解決模型輸出效果。"
何寶宏還曾指出,據(jù)作為第五大生產(chǎn)要素,正在從數(shù)據(jù)資源演變?yōu)閿?shù)據(jù)資產(chǎn),其經(jīng)濟屬性日益凸顯,數(shù)字經(jīng)濟邁向以數(shù)據(jù)可信流通為核心的數(shù)據(jù)技術(shù) 3.0 時代,大模型的出現(xiàn)加快了各行各業(yè)的數(shù)字化和智能化升級進程,正在推動智能技術(shù)產(chǎn)生深刻變革。
固然,對于企業(yè)而言,想要落地大模型的第一步就是要具備足夠的高質(zhì)量數(shù)據(jù)。對此,圖靈新智算董事長兼 CEO 劉淼告訴鈦媒體 APP,企業(yè)應(yīng)用 AI 大模型就像是 " 中央廚房 " 一樣,而數(shù)據(jù)就是原材料,企業(yè)如果連高質(zhì)量的數(shù)據(jù)集都不具備的話,就形成了 " 巧婦難為無米之炊 " 的窘境。
而好的企業(yè)顯然已經(jīng)在數(shù)據(jù)方面做好了 " 就緒 "。戚海飛告訴鈦媒體 APP,寶馬從 2018 年就開始數(shù)據(jù)資產(chǎn)化進程,建立數(shù)據(jù)和 AI 的團隊," 特別是最近幾年,我們把所有的數(shù)據(jù)落湖,進行資產(chǎn)化。"
數(shù)據(jù)資產(chǎn)化之后,對于大型企業(yè)來說,實現(xiàn)了跨地域、跨業(yè)務(wù)部門之間異構(gòu)數(shù)據(jù)的互通互享," 打通了數(shù)據(jù)的通路,才能激發(fā)更多的數(shù)據(jù)價值。" 戚海飛如是說。
寶馬也正是在打通了數(shù)據(jù)之后,才在此基礎(chǔ)上進行應(yīng)用開發(fā)," 數(shù)據(jù)準(zhǔn)備好后,無論是做用戶高級分析,還是 AI 模型的訓(xùn)練,就顯得’得心應(yīng)手‘了," 戚海飛告訴鈦媒體 APP," 而這也是寶馬提出的 Data AI,Data 在前,AI 在后的原因。"
而伴隨著生成式 AI 的火爆,合成數(shù)據(jù)也成為了大模型時代企業(yè)訓(xùn)練大模型的 " 必備品 ",Gartner 數(shù)據(jù)顯示,預(yù)計 2024 年,60% 用于 AI 開發(fā)和分析的數(shù)據(jù)將會是合成數(shù)據(jù);2026 年,GPT 等大型語言模型就將耗盡互聯(lián)網(wǎng)上可用的文本數(shù)據(jù);2030 年,合成數(shù)據(jù)將徹底取代真實數(shù)據(jù)。
盡管合成數(shù)據(jù)發(fā)展的速度超乎想象,不過目前業(yè)內(nèi)對合成數(shù)據(jù)的看法并不一致。
一種觀點認(rèn)為,合成數(shù)據(jù)無異于 " 近親繁殖 ",會造成模型崩潰的情況,這種觀點主要的核心理論是:如果在訓(xùn)練中不加區(qū)別地使用 AI 產(chǎn)生的內(nèi)容,模型就會出現(xiàn)不可逆轉(zhuǎn)的缺陷——原始內(nèi)容分布的尾部(低概率事件)會消失。其主要觀點來自于牛津、劍橋等機構(gòu)在 Nature 封面發(fā)布的一篇論文。
另一種觀點認(rèn)為,當(dāng)現(xiàn)實中高質(zhì)量數(shù)據(jù)不足的時候,合成數(shù)據(jù)能夠精準(zhǔn)的提供高質(zhì)量的數(shù)據(jù)。根據(jù) IBM 的觀點,合成數(shù)據(jù)是現(xiàn)在比較有效的方法,特別是訓(xùn)練一些大模型的時候,主要原因是因為合成數(shù)據(jù)的質(zhì)量比較高,覆蓋性比較好,可以滿足利用一些比較精簡的數(shù)據(jù)集訓(xùn)練出好用的模型產(chǎn)品。
數(shù)據(jù)的重要性在當(dāng)下已經(jīng)不言而喻,而數(shù)據(jù)就緒也成為了企業(yè)在利用大模型產(chǎn)品賦能業(yè)務(wù)發(fā)展的過程中的第一步,既是基礎(chǔ),也是前提。
第二步:選準(zhǔn)應(yīng)用場景
擁有了足夠量的高質(zhì)量數(shù)據(jù),企業(yè)才具備大模型的 " 入場券 ",而進場之后,如何才能讓大模型產(chǎn)品幫助到自身業(yè)務(wù)發(fā)展?找準(zhǔn)場景就成為企業(yè)第二步要做的事。
目前企業(yè)場景中,比較容易率先應(yīng)用大模型的場景是:對一些原有的類似智能客服的產(chǎn)品的迭代。一方面,這些簡單的大語言模型的應(yīng)用目前已經(jīng)可以做到無需 GPU 卡就能實現(xiàn),從部署成本上,給企業(yè)降低了部署的成本,當(dāng)然也降低了試錯的成本;另一方面,原先的知識問答類的產(chǎn)品,相較于人工智能,更像是 " 人工智障 ",并不能很好地理解人們的訴求,但當(dāng)植入了大語言模型的能力之后,能讓智能問答類的產(chǎn)品有質(zhì)的飛躍。
對于智能問答類的產(chǎn)品的延伸——知識圖譜,也是企業(yè)現(xiàn)階段可以率先應(yīng)用大模型賦能的一環(huán)。
除此之外,在陳旭東看來,從應(yīng)用的深度上看,企業(yè)的 IT 運維管理方面,也是企業(yè)率先應(yīng)用大模型時好的選擇。" 大模型的能力對復(fù)雜的 IT 運維環(huán)境提供了更好的監(jiān)控,優(yōu)化資源配備的能力,可以監(jiān)控到指令級的問題,并對問題進行自動化的干預(yù)。" 陳旭東指出。
除了知識類和 IT 運維類的應(yīng)用以外,立足各行業(yè)中,企業(yè)也在積極的探索大模型的應(yīng)用。從目前的應(yīng)用場景上看,醫(yī)療、金融這兩部分是比較常見的,也是落地比較快的兩個場景。
金融行業(yè)方面,現(xiàn)階段,大模型在金融行業(yè)的應(yīng)用主要還是集中在風(fēng)險評估和管理,以及知識圖譜平臺搭建方面。在風(fēng)險評估方面,大模型可以通過分析大量的歷史數(shù)據(jù)和實時信息,預(yù)測市場風(fēng)險、評估信用風(fēng)險等,為金融機構(gòu)提供更加準(zhǔn)確和及時的風(fēng)險管理決策支持。
另一方面,就如同陳旭東所言,金融機構(gòu)還在嘗試將大模型與知識圖譜平臺結(jié)合,用大模型代替 NLP 技術(shù),在進一步提升效率的同時,提升風(fēng)控水平。
醫(yī)療行業(yè)方面的應(yīng)用目前主要集中在識別和同樣是類似問答的分診領(lǐng)域。一方面,通過行業(yè)大模型對大量醫(yī)療數(shù)據(jù)的學(xué)習(xí)和分析,可以自動識別病變特征,輔助醫(yī)生進行疾病診斷,提高診斷準(zhǔn)確率與診斷效率;另一方面,通過類似 "AI 助手 " 的模式,利用大模型為患者提供分診助手也是在醫(yī)療側(cè)目前布局廠商較多的一類產(chǎn)品。
第三步:規(guī)?;瘧?yīng)用
除了金融和醫(yī)療領(lǐng)域,其實還有很多領(lǐng)域涌現(xiàn)了不少大模型可以應(yīng)用的場景,雖然這些場景有一些不錯的落地效果,但企業(yè)也不應(yīng)該對大模型 " 趨之若鶩 "。對此,IBM 咨詢大中華區(qū)總裁陳科典對鈦媒體 APP 表示,如果一個企業(yè)級 AI 應(yīng)用沒法形成規(guī)?;瘧?yīng)用的話,那么這個應(yīng)用,這個場景對于企業(yè)而言意義不大," 無論是傳統(tǒng) AI,還是生成式 AI 技術(shù),如果好幾月才能做一個場景,且無法規(guī)模化應(yīng)用的話,那就不能說是企業(yè)級 AI。" 陳科典強調(diào)。
無獨有偶,戚海飛也有著與陳科典相似的看法,他指出,當(dāng)寶馬具備了數(shù)據(jù) " 就緒 " 的能力后,開始嘗試在各個場景中應(yīng)用," 后來發(fā)現(xiàn),一些個別的小的場景沒有太大價值," 戚海飛表示,"AI 的應(yīng)用還是需要從方方面面出發(fā),具備規(guī)?;哪芰?。"
而據(jù)戚海飛介紹,寶馬用了 2 年時間,落地了 100 多個 AI 應(yīng)用的場景," 之所以能形成這么大規(guī)模的應(yīng)用與復(fù)制的能力,數(shù)據(jù)是一方面,更重要的是平臺化的能力。" 戚海飛強調(diào)," 平臺化是 AI 規(guī)?;瘧?yīng)用的一個重要前提。"
如果能將 AI 的能力通過平臺化進行復(fù)制,重復(fù)使用 AI 的能力,對于企業(yè)而言,使用 AI 的成本與技術(shù)門檻將會下降很多。
陳旭東也曾對鈦媒體 APP 表示,IBM 認(rèn)為平臺化是企業(yè)級 AI 落地過程中重要的方式,IBM 相信,云計算將會是未來很長一段時間內(nèi)企業(yè)數(shù)字化的主要手段,而 AI 發(fā)展的趨勢也是不可逆的,"AI 已經(jīng)成為企業(yè)核心競爭力,所以企業(yè)需要打造自己的企業(yè)級 AI 平臺。" 陳旭東如是說," 雖然這種方式短期上來,企業(yè)的投入相較于其他兩種更大,但長期來看,企業(yè)投入的回報率非??捎^。"
而在戚海飛看來,平臺化僅是企業(yè)級 AI 規(guī)?;瘧?yīng)用的開始和前提,在實現(xiàn)了平臺化的能力后,通過公司內(nèi)部的系統(tǒng)對 AI 應(yīng)用集成決定了企業(yè)級 AI 規(guī)?;暮脡?,在他看來," 以我們所處的汽車行業(yè)為例,很多內(nèi)部的應(yīng)用系統(tǒng)都是有關(guān)聯(lián)性的,通過這些系統(tǒng),將 AI 的能力進行集成后,就能產(chǎn)生聯(lián)動效應(yīng),才能實現(xiàn)真正的規(guī)?;瘧?yīng)用。"
來源:鈦媒體