目前,數(shù)據(jù)逐步成為AI創(chuàng)企的“金鐘罩鐵布衫”:初創(chuàng)企業(yè)收集的數(shù)據(jù)越多,就越能訓(xùn)練出更好的AI模型,使得新的市場競爭者難以與之匹敵。然而,這些數(shù)據(jù)并非免費(fèi)獲取,許多AI創(chuàng)企認(rèn)為,這筆額外的費(fèi)用大大侵蝕了他們的利潤。隨著時(shí)間的推移,這些公司可能希望降低在數(shù)據(jù)上的投入,但目前尚不清楚如何預(yù)測這種情況出現(xiàn)的時(shí)間,以及降低至何種程度,這就增加了公司對(duì)未來增長進(jìn)行建模的難度。
在軟件創(chuàng)企中,產(chǎn)品開發(fā)費(fèi)用在損益表上歸屬于研發(fā)成本,而AI創(chuàng)企則將數(shù)據(jù)成本作為銷售成本(cost of goods sold,COGS)的一部分,后者這種做法有助于企業(yè)發(fā)掘擴(kuò)大規(guī)模同時(shí)降低成本的機(jī)遇,從而提高利潤率。
下面的數(shù)據(jù)價(jià)值鏈流程圖顯示了大多數(shù)AI創(chuàng)企獲取和使用數(shù)據(jù)的方式。首先,企業(yè)將基礎(chǔ)事實(shí)的片段作為原始數(shù)據(jù)進(jìn)行記錄。企業(yè)可將原始數(shù)據(jù)存儲(chǔ)在某處,然后建立流程或途徑進(jìn)行維護(hù)和訪問。在運(yùn)用于AI模型之前,企業(yè)需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,以便AI模型實(shí)施處理每個(gè)數(shù)據(jù)點(diǎn)的行為。隨后,訓(xùn)練有素的模型接收數(shù)據(jù)并產(chǎn)生反饋,企業(yè)便可以使用這種反饋來執(zhí)行驅(qū)動(dòng)終端用戶某種行為的操作。該過程可以分為三個(gè)不同的步驟:獲取數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)和為了訓(xùn)練模型而標(biāo)注數(shù)據(jù)。每一步都會(huì)產(chǎn)生相應(yīng)的成本。
數(shù)據(jù)采集成本
在所有的數(shù)據(jù)價(jià)值鏈中,任何傳感器(無論是物理設(shè)備還是人類)在收集原始數(shù)據(jù)時(shí),首先需要捕捉對(duì)現(xiàn)實(shí)的觀測。在這種情況下,數(shù)據(jù)采集的成本將來自于傳感器的創(chuàng)建、分配和操作。如果該傳感器是一種硬件,企業(yè)必須考慮材料和制造的成本;如果傳感器是人,則成本來自于人員的招募以及提供他們制作和記錄觀察結(jié)果所需的工具。根據(jù)覆蓋范圍的不同,企業(yè)可能需要支付大量的費(fèi)用來分布傳感器。不僅如此,在某些用例中還可能需要進(jìn)行高頻率的數(shù)據(jù)收集,這也可能會(huì)增加人工和維護(hù)成本。例如,受眾測量公司尼爾森(Nielsen)就需要承擔(dān)上述所有成本,因?yàn)樗忍峁┦找暵适占?,也需承?dān)獲取參與者電視節(jié)目觀看情況的許可費(fèi)。這樣一來,隨著覆蓋范圍越來越廣泛,尼爾森的數(shù)據(jù)就越有價(jià)值,規(guī)模經(jīng)濟(jì)也就自然而然降低了單位數(shù)據(jù)采集成本。
在某些用例中,企業(yè)向終端用戶提供管理工作流程的工具(例如,自動(dòng)電子郵件響應(yīng)生成器),將他們捕獲的數(shù)據(jù)存儲(chǔ)在他們的工作流程中,或者觀察他們與工具的交互并將其記錄為數(shù)據(jù),從而將數(shù)據(jù)采集的工作和成本轉(zhuǎn)移給終端用戶。如果企業(yè)選擇免費(fèi)分布這些工具,那么數(shù)據(jù)采集的成本就將是獲取用戶的成本。或者企業(yè)可以選擇對(duì)工作流工具進(jìn)行收費(fèi),這種方式可能會(huì)減慢和限制客戶采用率,從而在抵消數(shù)據(jù)采集成本的同時(shí)減少數(shù)據(jù)采集,具體的降低和限制程度將取決于企業(yè)對(duì)該工具的定價(jià)。
例如,我們公司的投資組合之一,大數(shù)據(jù)公司InsideSales為銷售代表提供了一個(gè)可直接與銷售線索建立聯(lián)系的平臺(tái)。在銷售代表使用的過程中,平臺(tái)會(huì)自動(dòng)記錄互動(dòng)的相關(guān)數(shù)據(jù),例如時(shí)間、模式、其他元數(shù)據(jù),以及該銷售渠道中的銷售線索是否有進(jìn)展。這些數(shù)據(jù)將被運(yùn)用于AI模型的訓(xùn)練,從而計(jì)算出聯(lián)系潛在客戶最佳的通信時(shí)間和通信方式。在這種情況下,隨著越來越多用戶入駐該平臺(tái),網(wǎng)絡(luò)效應(yīng)就有可能會(huì)提高工具的實(shí)用性,從而降低獲取用戶的成本。
另外一種方式是,在另一個(gè)實(shí)體已經(jīng)建立了數(shù)據(jù)收集渠道的情況下,確保建立戰(zhàn)略伙伴關(guān)系可以進(jìn)一步降低成本。例如,我們的另一家公司Tractable采用計(jì)算機(jī)視覺來實(shí)現(xiàn)汽車保險(xiǎn)調(diào)節(jié)器的自動(dòng)化。該公司目前正與幾家業(yè)內(nèi)出色的汽車保險(xiǎn)公司合作,致力于研發(fā)獲取受損汽車圖像的技術(shù)。除此之外,我們無需使車主下載應(yīng)用程序,從而節(jié)約了應(yīng)用程序推廣所需的成本。
存儲(chǔ)和管理成本
在數(shù)據(jù)存儲(chǔ)和訪問方面,初創(chuàng)企業(yè)也面臨著一個(gè)成本問題。除了數(shù)據(jù)收集之外,企業(yè)可能還需要客戶提供其他相關(guān)數(shù)據(jù)來豐富模型。由于許多行業(yè)近期才逐步實(shí)現(xiàn)數(shù)字化,因此任何擁有企業(yè)所需數(shù)據(jù)的潛在客戶都不容小覷。為了獲取這些數(shù)據(jù),企業(yè)可能會(huì)在低利潤率的數(shù)據(jù)準(zhǔn)備工作中花費(fèi)大量的人力。
此外,如果數(shù)據(jù)分布在不同的系統(tǒng)和孤島中,那么企業(yè)可能需要花費(fèi)大量的時(shí)間來構(gòu)建各個(gè)集成,從而使模型完全正常運(yùn)行。有些行業(yè)圍繞整體式和異質(zhì)性技術(shù)堆棧建立,使集成很難在客戶之間重復(fù)使用。如果無法獲取集成服務(wù)提供商,那么這家AI創(chuàng)企很快就可能發(fā)現(xiàn)自己陷入了這樣的泥潭:只有為每個(gè)新客戶構(gòu)建定制集成,才能部署其AI系統(tǒng)。數(shù)據(jù)的結(jié)構(gòu)方式也可能因客戶而異,這就要求AI工程師花費(fèi)額外時(shí)間對(duì)數(shù)據(jù)進(jìn)行規(guī)范化或?qū)⑵滢D(zhuǎn)換為標(biāo)準(zhǔn)化模式,從而應(yīng)用AI模型。企業(yè)可以采用建立公共集成庫的方法降低成本,因?yàn)樗梢栽谛驴蛻糁斜恢貜?fù)使用。
訓(xùn)練成本
大多數(shù)建立AI模型的方法都需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,這對(duì)AI創(chuàng)企來說是最大的和最可變的成本之一。如果這些示例簡單明了或是通俗易懂,外行人就可以進(jìn)行標(biāo)注。例如,在圖片中畫一些蘋果,然后在所有蘋果周圍畫一個(gè)框,即可標(biāo)注為外包勞務(wù)服務(wù)。
但有時(shí),注釋需要更多的專業(yè)知識(shí)和經(jīng)驗(yàn),例如根據(jù)視覺線索來確定蘋果的質(zhì)量和成熟度,或者判斷石油鉆機(jī)上的一小塊銹斑是否具有風(fēng)險(xiǎn)。對(duì)于這種更專業(yè)的勞動(dòng)力,企業(yè)可能需要建立一個(gè)高薪的內(nèi)部專家標(biāo)注團(tuán)隊(duì)。根據(jù)企業(yè)的標(biāo)注方式,可能還必須構(gòu)建自己的標(biāo)注工作流工具,盡管Labelbox等公司目前已經(jīng)開始提供此類工具。
在某些AI應(yīng)用程序中,終端用戶會(huì)是最有效的標(biāo)注器,企業(yè)可以通過設(shè)計(jì)產(chǎn)品來減輕標(biāo)注成本,這樣用戶就可以在與產(chǎn)品交互時(shí)進(jìn)行數(shù)據(jù)標(biāo)記。例如,Constructor提供針對(duì)電子商務(wù)的人工智能網(wǎng)站搜索,觀察用戶實(shí)際點(diǎn)擊和購買每個(gè)產(chǎn)品的搜索詞,使這些網(wǎng)站能夠優(yōu)化搜索結(jié)果從而獲得更高的銷售額。這種標(biāo)注不可能通過外包或?qū)<宜阉鞣?wù)進(jìn)行人工操作,而且這種方式大大節(jié)約了Constructor潛在的巨額標(biāo)注成本。
即使受到了高精度的訓(xùn)練,但當(dāng)模型無法確切地解釋一項(xiàng)新輸入的內(nèi)容時(shí),仍然需要進(jìn)行偶爾的人工干預(yù)。根據(jù)模型向終端用戶傳遞價(jià)值的方式,該用戶自己可以對(duì)模型進(jìn)行更正或標(biāo)注,企業(yè)也可以通過使用質(zhì)量控制的“AI保姆”來處理異常。如果企業(yè)正在建模的環(huán)境不穩(wěn)定且變化速率很高,那么企業(yè)可能需要在穩(wěn)定狀態(tài)下保留一組標(biāo)注器,以便根據(jù)需要使用新的數(shù)據(jù)更新模型。
擴(kuò)展AI業(yè)務(wù)
第一批成功的AI企業(yè)進(jìn)入市場時(shí),通過提供無AI的工作流工具來捕獲訓(xùn)練AI模型的數(shù)據(jù),并且該數(shù)據(jù)最終提高了工具的價(jià)值。這些初創(chuàng)企業(yè)在早期就能夠?qū)崿F(xiàn)軟件利潤,因?yàn)閿?shù)據(jù)和人工智能在其價(jià)值主張中居于次要地位。然而,隨著市場轉(zhuǎn)向更專業(yè)的AI應(yīng)用,下一波AI創(chuàng)企將面臨更高的啟動(dòng)成本,并將耗費(fèi)更多的人力來為客戶提供初始價(jià)值,導(dǎo)致其成為低利潤率的服務(wù)企業(yè)。
獲得大量客戶和數(shù)據(jù)最終將降低單位經(jīng)濟(jì)效益和構(gòu)建至關(guān)重要的復(fù)合防御能力,但許多初創(chuàng)企業(yè)并不確切地了解這一點(diǎn),也不明白他們需要采取哪些行動(dòng)才能更快地實(shí)現(xiàn)目標(biāo)。而出色的AI創(chuàng)企則會(huì)通過這種方式進(jìn)行優(yōu)化權(quán)衡,有計(jì)劃地進(jìn)行投資并迅速擴(kuò)張。
【來源:中國工控網(wǎng)】