香蕉视频APP免费下载,欧美另类高清ZO欧美

重新想象百度的未來(lái)？李彥宏說(shuō)人工智能是百度核心中的核心觀點(diǎn)

騰訊科技 / 韓依民 / 2016-09-01 16:33

百度世界大會(huì)是百度一年一度最重要的一次發(fā)布會(huì)，在這個(gè)發(fā)布會(huì)上，百度創(chuàng)始人、CEO李彥宏以及百度重要業(yè)務(wù)的負(fù)責(zé)人均將“出門見(jiàn)客”，為外界講述百度對(duì)未來(lái)戰(zhàn)略的思考，以...

重新想象百度的未來(lái)？李彥宏說(shuō)人工智能是百度核心中的核心

“今天的主題演講將圍繞人工智能。”

在今天舉行的百度世界大會(huì)上，李彥宏以這句話作為了整個(gè)演講的開(kāi)端。

因此，百度世界大會(huì)成為外界一窺百度發(fā)展戰(zhàn)略、發(fā)展規(guī)劃、發(fā)展重心的重要窗口，在這個(gè)窗口中，李彥宏的表態(tài)尤其受到關(guān)注。

在今年的百度世界大會(huì)上，李彥宏的演講全部圍繞百度人工智能戰(zhàn)略展開(kāi)。

百度的“新”核心：人工智能

百度如何看待人工智能？百度的人工智能現(xiàn)在處于什么水平？百度的人工智能會(huì)有哪些應(yīng)用？對(duì)于這些問(wèn)題，李彥宏在演講中進(jìn)行了解答。

延續(xù)此前在2016亞布力中國(guó)企業(yè)家論壇夏季峰會(huì)上的觀點(diǎn)，李彥宏認(rèn)為，互聯(lián)網(wǎng)發(fā)展的第一幕是PC互聯(lián)網(wǎng)時(shí)代，第二幕是移動(dòng)互聯(lián)網(wǎng)，但移動(dòng)互聯(lián)網(wǎng)時(shí)代正在離開(kāi)我們，而代表未來(lái)的下一幕，則是人工智能。

百度如何看待人工智能，李彥宏表示：“人工智能是百度核心中的核心。”

具體來(lái)講，人工智能之于百度的具體產(chǎn)品是百度大腦，根據(jù)李彥宏的介紹，百度大腦由三個(gè)部分組成：人工智能算法（超大規(guī)模的神經(jīng)網(wǎng)絡(luò)）、計(jì)算能力（數(shù)十萬(wàn)臺(tái)服務(wù)器來(lái)進(jìn)行計(jì)算，基于GPU）、大數(shù)據(jù)。

百度大腦的能力主要有四方面能力：語(yǔ)音的能力（語(yǔ)音合成、語(yǔ)音識(shí)別）、圖像的能力、自然語(yǔ)言處理能力以及用戶畫像這四種能力。

李彥宏介紹，百度目前在語(yǔ)音能力方面已經(jīng)進(jìn)入比較成熟的階段，這四種能力也已經(jīng)各有實(shí)用的案例。

通過(guò)李彥宏的具體舉例來(lái)看，在人工智能的具體應(yīng)用上，仍然圍繞百度當(dāng)前的業(yè)務(wù)進(jìn)行。比如，李彥宏現(xiàn)場(chǎng)舉例語(yǔ)音識(shí)別能力幫助電話銷售搞定客戶、基于圖像識(shí)別技術(shù)的AI能力幫助廣告客戶做營(yíng)銷。

除了這些緊緊圍繞現(xiàn)有業(yè)務(wù)的實(shí)際應(yīng)用，李彥宏也提到了一些代表未來(lái)方向的產(chǎn)品，比如被頻繁提及的百度無(wú)人車、度秘（語(yǔ)音助手，用人的語(yǔ)言跟人交流）等。

李彥宏宣布，百度大腦的全部能力將對(duì)外開(kāi)放，并且很多將是免費(fèi)提供。

以下為李彥宏演講全文：

各位來(lái)賓大家早上好！歡迎來(lái)到2016百度世界。

大家知道，百度世界是我們每年舉辦一次的百度技術(shù)創(chuàng)新大會(huì)。今年的主題我們聚焦在人工智能，大家在之前收到的請(qǐng)柬上已經(jīng)看到這個(gè)主題了。剛才開(kāi)場(chǎng)視頻是以人工智能為主題的，今天我的主題演講也將圍繞著人工智能來(lái)展開(kāi)。

今年6月份，我在百度聯(lián)盟峰會(huì)上講了一個(gè)概念，叫做互聯(lián)網(wǎng)的下一幕。下一幕是什么意思呢？就是說(shuō)，互聯(lián)網(wǎng)的發(fā)展在此之前已經(jīng)經(jīng)過(guò)了兩個(gè)非常重要的階段，第一個(gè)階段大概持續(xù)了十幾年的時(shí)間，就是我們講的PC互聯(lián)網(wǎng)階段。第二個(gè)階段是在最近四五年，我們把它叫做移動(dòng)互聯(lián)網(wǎng)的階段。對(duì)于中國(guó)市場(chǎng)來(lái)說(shuō)，隨著上網(wǎng)人數(shù)越來(lái)越多，上網(wǎng)人口的滲透率越來(lái)越高，現(xiàn)在已經(jīng)達(dá)到了七億多，就是說(shuō)已經(jīng)超過(guò)了50%的滲透率，同時(shí)，每一個(gè)上網(wǎng)的人現(xiàn)在也基本都用上了智能手機(jī)。這意味著什么呢？這意味著，未來(lái)互聯(lián)網(wǎng)的增長(zhǎng)不能再靠人口紅利來(lái)驅(qū)動(dòng)了，也就是說(shuō)，移動(dòng)互聯(lián)網(wǎng)的時(shí)代其實(shí)正在離開(kāi)我們。這可能是很多人覺(jué)得難以接受的。我們國(guó)家現(xiàn)在進(jìn)入了所謂的新常態(tài)，經(jīng)濟(jì)的增長(zhǎng)需要靠“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃來(lái)推動(dòng)，所謂“互聯(lián)網(wǎng)+”就是希望用互聯(lián)網(wǎng)的思維方式、互聯(lián)網(wǎng)的效率來(lái)推動(dòng)各個(gè)行業(yè)、產(chǎn)業(yè)的繼續(xù)發(fā)展。但是，我們互聯(lián)網(wǎng)的從業(yè)者其實(shí)又深深地感受到了這其中的危機(jī)，這個(gè)危機(jī)就是因?yàn)檫^(guò)去的粗放增長(zhǎng)階段已經(jīng)結(jié)束了。

移動(dòng)互聯(lián)網(wǎng)之后的下一幕是什么？其實(shí)現(xiàn)在已經(jīng)很清楚了，就是我們所說(shuō)的人工智能。人工智能對(duì)于百度來(lái)說(shuō)是核心當(dāng)中的核心，我們也很幸運(yùn)，在過(guò)去的五六年當(dāng)中，百度花了很大很大的精力投入到人工智能的研發(fā)當(dāng)中。人工智能對(duì)于百度來(lái)說(shuō)意味著什么呢？我可以用簡(jiǎn)單的四個(gè)字來(lái)描述，就是百度大腦。百度大腦的概念我們其實(shí)在大約三年前就對(duì)外講過(guò)。那個(gè)時(shí)候我們講，百度大腦已經(jīng)具備了大概兩三歲孩子的智力水平了。自此以后，不斷的有人來(lái)問(wèn)我，尤其是今年人工智能突然火起來(lái)了之后，很多人來(lái)問(wèn)我說(shuō)，你們這個(gè)百度大腦現(xiàn)在相當(dāng)于多少歲人的智力水平了。

要回答這個(gè)問(wèn)題其實(shí)還蠻難的，我也不知道它現(xiàn)在是多少歲了，因?yàn)楫吘谷四X和電腦它還是有很大的區(qū)別，百度大腦雖然是一個(gè)人工智能的大腦，但是它和人正常的發(fā)育的過(guò)程還是很不一樣的。

百度大腦到底由什么構(gòu)成的呢？它基本上是由三個(gè)大的部分組成的。第一個(gè)組成部分，就是人工智能的算法。我們有超大規(guī)模的神經(jīng)網(wǎng)絡(luò)，這是模擬人的神經(jīng)元組成的網(wǎng)絡(luò)，但其實(shí)我們也不知道真正人腦工作的原理是什么，只是想象當(dāng)中應(yīng)該是這個(gè)樣子。我們還使用了萬(wàn)億級(jí)的參數(shù)，人腦的神經(jīng)源大概是千億級(jí)的，我們也有千億的樣本和千億的特征進(jìn)行訓(xùn)練。整個(gè)這些東西組成了百度大腦當(dāng)中算法的部分。

百度大腦的第二個(gè)組成部分是我們計(jì)算能力?，F(xiàn)在我們已經(jīng)使用了數(shù)十萬(wàn)臺(tái)的服務(wù)器來(lái)進(jìn)行計(jì)算，而這當(dāng)中很多的服務(wù)器不是傳統(tǒng)基于CPU的服務(wù)器，而是基于GPU。早年的時(shí)候，GPU主要在游戲等領(lǐng)域使用得比較廣泛，在人工智能、尤其是深度學(xué)習(xí)起來(lái)以后，我們發(fā)現(xiàn)，其實(shí)GPU特別適合人工智能的計(jì)算，尤其是深度學(xué)習(xí)的計(jì)算，一塊GPU可以頂100個(gè)CPU的計(jì)算能力。有關(guān)GPU的事情，我之后會(huì)請(qǐng)一位外部的嘉賓，就是NVIDIA的創(chuàng)始人和CEO黃仁勛先生，讓他給大家介紹更多有關(guān)GPU的，尤其是在人工智能領(lǐng)域應(yīng)用的情況。

百度大腦的第三部分是數(shù)據(jù)。數(shù)據(jù)也非常非常重要，而且這個(gè)數(shù)據(jù)量也是非常大的。比如說(shuō)，我們已經(jīng)收集了全網(wǎng)上萬(wàn)億的互聯(lián)網(wǎng)網(wǎng)頁(yè)內(nèi)容，這其中包括了很多視頻、音頻、圖像，這些數(shù)據(jù)也是數(shù)以百億級(jí)的。我們還有每天數(shù)十億次網(wǎng)民的搜索請(qǐng)求，而且還有每天數(shù)百億次的網(wǎng)民定位請(qǐng)求，就是說(shuō)這個(gè)人在什么地方，這樣的請(qǐng)求也比大家想象得多，每天都有好幾百億次這樣的定位請(qǐng)求。

有了算法，有了計(jì)算能力，有了數(shù)據(jù)，百度大腦就可以開(kāi)始工作了。百度大腦又到底有什么樣的功能？讓我們來(lái)看一看。

我們今天想重點(diǎn)介紹的四個(gè)功能：一個(gè)是語(yǔ)音的能力，一個(gè)是圖像的能力，一個(gè)是自然語(yǔ)言理解的能力，還有一個(gè)就是用戶畫像的能力。這幾個(gè)能力雖然都是屬于人工智能中比較典型的應(yīng)用，但是它的發(fā)展階段也是很不一樣的。比如說(shuō)語(yǔ)音，現(xiàn)在就已經(jīng)進(jìn)入了相對(duì)比較成熟的階段，在很多很多領(lǐng)域中都開(kāi)始進(jìn)入實(shí)用階段，識(shí)別的準(zhǔn)確率也已經(jīng)很高了。圖像最近幾年也有了長(zhǎng)足的進(jìn)展。這兩者都屬于人工智能當(dāng)中認(rèn)知的部分，所以深度學(xué)習(xí)的算法非常適合處理這些形式。

相對(duì)來(lái)說(shuō)，自然語(yǔ)言的理解、或處理能力就更加難一些，并處在一個(gè)更加早期的階段，因?yàn)樗苏J(rèn)知方面的能力之外，還要求有推理、規(guī)劃等等能力，才能夠真正地理解自然語(yǔ)言。用戶畫像的能力，其實(shí)從傳統(tǒng)意義上來(lái)講并不是人工智能的領(lǐng)域，但是由于近年來(lái)大數(shù)據(jù)的發(fā)展，尤其是大型互聯(lián)網(wǎng)公司有能力搜集很多用戶的數(shù)據(jù)之后，再用人工智能的方法、用機(jī)器學(xué)習(xí)的方法，就可以把一個(gè)人的特征描繪得非常非常清楚。所以今天，用戶畫像也變成了人工智能、或者說(shuō)變成了百度大腦的一個(gè)重要功能。

下面我就分別來(lái)講一下這幾個(gè)功能，這幾個(gè)百度大腦的功能。

我們先看一下語(yǔ)音，剛才也講了應(yīng)該說(shuō)今天人工智能發(fā)展的最成熟的一部分能力，而語(yǔ)音又分成兩個(gè)方向，一個(gè)是語(yǔ)音的合成，一個(gè)是語(yǔ)音的識(shí)別。

我們先看看語(yǔ)音識(shí)別。今年MIT Technology Review（《MIT科技評(píng)論》）雜志，把百度的Deep Speech 2評(píng)為“2016改變世界十大突破技術(shù)”，這就是百度的語(yǔ)音識(shí)別引擎，它已經(jīng)到了第二代，主要就是使用了深度學(xué)習(xí)的能力。這樣的一個(gè)技術(shù)已經(jīng)可以把語(yǔ)音識(shí)別的準(zhǔn)確度做到多少呢？大概可以做到97%的準(zhǔn)確率，這樣的準(zhǔn)確率已經(jīng)達(dá)到、甚至有時(shí)已經(jīng)超過(guò)了人對(duì)語(yǔ)音的識(shí)別能力。當(dāng)然，我們講這些能力不是為了簡(jiǎn)單地去炫耀這個(gè)數(shù)字有多好，我更感興趣的是，當(dāng)你有了這些能力時(shí)，它可以在什么領(lǐng)域應(yīng)用，又可以在哪些方面幫助到我們，這其實(shí)才是最最讓我們覺(jué)得興奮的地方。我個(gè)人的想象力很有限，整個(gè)百度幾萬(wàn)人的想象力也是有限的，但是這些能力如果賦予到很多很多人，賦予給幾億人、幾十億人，這個(gè)可能性幾乎是無(wú)限的。先用我們比較有限的想象力來(lái)給大家舉一個(gè)例子。

這是一個(gè)銷售、電話銷售的例子，是一個(gè) 2B(To B)的應(yīng)用。這個(gè)應(yīng)用是什么意思呢？很多的公司其實(shí)都有電話銷售這樣的一個(gè)部門，都需要這樣做。但是銷售，尤其是電話銷售這個(gè)行業(yè)，大家知道流動(dòng)性是比較大的，很多銷售都是新人，新人的話就會(huì)經(jīng)過(guò)一定的時(shí)間培訓(xùn)才能夠上崗，但即使是經(jīng)過(guò)培訓(xùn)的話，也不一定有那些有經(jīng)驗(yàn)的銷售那么出活兒、出單。其實(shí)有經(jīng)驗(yàn)、最優(yōu)秀的銷售和一般、較差的銷售相比，在效率上有非常大的差別。我們?cè)趺床拍軌蜃屝率?、讓沒(méi)有經(jīng)驗(yàn)的銷售，能夠具備最優(yōu)秀銷售的銷售能力？過(guò)去的做法是，把優(yōu)秀的銷售經(jīng)驗(yàn)總結(jié)成冊(cè)子讓大家去學(xué)習(xí)，讓這些銷售去背，但是怎么活學(xué)活用還是需要一個(gè)過(guò)程的。而有了這么高精度的語(yǔ)音識(shí)別能力之后，我們就可以徹底改變這樣一個(gè)狀況了，甚至可以讓一個(gè)剛剛上崗一個(gè)月的銷售就具備最優(yōu)秀銷售的能力，也就是說(shuō)，我們可以通過(guò)實(shí)時(shí)的語(yǔ)音識(shí)別甄別出用戶或客戶在問(wèn)什么問(wèn)題，然后我們?cè)賹?shí)時(shí)地在屏幕上告訴新的銷售，最優(yōu)秀的銷售是怎么回答這個(gè)問(wèn)題的。過(guò)去沒(méi)有實(shí)時(shí)的語(yǔ)音識(shí)別的時(shí)候，你需要線下學(xué)，學(xué)完了之后上去用、很容易就忘了，但是有了這個(gè)系統(tǒng)之后，我們就可以解決這樣的問(wèn)題。

我們來(lái)看一下這個(gè)案例。

【播放語(yǔ)音識(shí)別技術(shù)演示視頻】

大家看到，在剛才的過(guò)程中，百度大腦一直在實(shí)時(shí)地識(shí)別雙方的對(duì)話，尤其是從電話里面?zhèn)鞒鰜?lái)的聲音，有的時(shí)候并不是那么清晰，對(duì)于人來(lái)說(shuō)要完全聽(tīng)清楚每一個(gè)字其實(shí)都是有一定難度的，但百度大腦的語(yǔ)音識(shí)別能力已經(jīng)可以做到非常精準(zhǔn)，并且可以根據(jù)用戶的問(wèn)題、實(shí)時(shí)推薦下一步的工作要怎樣應(yīng)對(duì)，這是一個(gè)語(yǔ)音識(shí)別應(yīng)用在企業(yè)日常運(yùn)作中的一個(gè)例子，就像我剛才講的，應(yīng)該還有很多很多應(yīng)用場(chǎng)景，大家可以根據(jù)自己的背景去想象。

語(yǔ)音識(shí)別是一方面，語(yǔ)音合成又是另外一個(gè)方面。語(yǔ)音合成是什么意思呢？就是機(jī)器可以把文字轉(zhuǎn)換成語(yǔ)音，把它念出來(lái)、讀出來(lái)。今天的語(yǔ)音合成也有了和過(guò)去非常不一樣的體驗(yàn)，最主要的就是，它可以用比較自然的人的聲音讀出來(lái)，而不是像過(guò)去機(jī)器一樣，每一個(gè)字之間的停頓都是一樣長(zhǎng)，是勻速的、沒(méi)有表情的。這樣的自然體驗(yàn)，當(dāng)然對(duì)于用戶的黏性來(lái)說(shuō)也是有很大的作用。

現(xiàn)在，百度每天要響應(yīng)2.5億次的語(yǔ)音合成請(qǐng)求，這些請(qǐng)求用來(lái)干什么呢？比如說(shuō)，過(guò)去人們看小說(shuō)，今天可以在手機(jī)百度里面聽(tīng)小說(shuō)。慢慢的人們聽(tīng)小說(shuō)的時(shí)間也更長(zhǎng)了，過(guò)去每個(gè)人平均在小說(shuō)頻道會(huì)花大概四十分鐘左右的時(shí)間，現(xiàn)在要花將近兩個(gè)半小時(shí)，就是因?yàn)榘延?jì)算機(jī)合成出來(lái)的語(yǔ)音讀出來(lái)給我們聽(tīng)，確實(shí)是一個(gè)很不錯(cuò)的體驗(yàn)，甚至是一種享受。那么這種讀出來(lái)的小說(shuō)，和我們平時(shí)聽(tīng)到的廣播有什么本質(zhì)上的不一樣？其實(shí)非常不一樣。廣播是每一個(gè)人聽(tīng)到的東西是一模一樣的，而今天的語(yǔ)音合成，它可以做到每一個(gè)人聽(tīng)到的東西都是不一樣的，完全根據(jù)你個(gè)人的需求進(jìn)行定制，這就是為什么它的（用戶）黏性會(huì)很高，它能夠具備自然發(fā)聲的能力。不僅如此，其實(shí)我們可以想象一下，它如果能夠模擬一個(gè)自然人的表達(dá)方式或發(fā)聲能力，它就可以模擬任何一個(gè)你喜歡的人的說(shuō)話方式。

不知道有沒(méi)有人注意到，百度地圖里導(dǎo)航功能就是用語(yǔ)音來(lái)進(jìn)行的，其中有一個(gè)選項(xiàng)可以用我的聲音進(jìn)行導(dǎo)航。其實(shí)導(dǎo)航的那些話我并沒(méi)有說(shuō)過(guò)，機(jī)器只是根據(jù)我平時(shí)說(shuō)話的情況合成了一個(gè)李彥宏的聲音。這樣的聲音不僅在我身上可以做到，在很多其他人身上也可以做到。

我們現(xiàn)在來(lái)給大家展示一個(gè)合成的聲音。我們合成了一下13年前已經(jīng)去世的張國(guó)榮的聲音，我們來(lái)放一段video。

【播放情感語(yǔ)音合成視頻】

為什么給大家展示這個(gè)呢？一方面我知道，很多人是張國(guó)榮的粉絲，另一方面，其實(shí)合成張國(guó)榮的聲音比合成一般人的聲音要更難。為什么呢？因?yàn)樗膰?guó)語(yǔ)語(yǔ)料相對(duì)來(lái)說(shuō)比較少，所以，我們能夠合成他的聲音，就一定能合成很多很多人的聲音。

對(duì)于百度來(lái)說(shuō)，百度大腦的語(yǔ)音合成能力可以讓每個(gè)人都有自己的聲音模型，你只要按照我們的要求說(shuō)50句話，我就學(xué)會(huì)了你說(shuō)話的方式。當(dāng)你擁有自己的合成聲音之后，比如說(shuō)家里的老人想經(jīng)常聽(tīng)你說(shuō)一說(shuō)，你把這個(gè)聲音合成出來(lái)讓他聽(tīng)就好了?；蛘哒f(shuō)你平時(shí)要加班，小孩睡覺(jué)之前想聽(tīng)個(gè)故事，你合成自己的聲音給孩子講一遍這個(gè)故事，聽(tīng)起來(lái)也會(huì)很親切。所以大家可以看到，這些語(yǔ)音的能力會(huì)帶來(lái)各種各樣新的可能性。

下面我給大家講一下圖像。用一個(gè)比較專業(yè)的術(shù)語(yǔ)來(lái)講，我們叫做計(jì)算機(jī)視覺(jué)。這也是現(xiàn)在廣義的人工智能中非常重要的領(lǐng)域。說(shuō)到圖像的識(shí)別，我想大家自然而然會(huì)反應(yīng)出來(lái)一個(gè)什么應(yīng)用呢？應(yīng)該就是我們通常講的人臉識(shí)別的應(yīng)用。人臉識(shí)別的準(zhǔn)確率今天已經(jīng)達(dá)到了99.7%，已經(jīng)非常非常準(zhǔn)確了。現(xiàn)場(chǎng)的屏幕能夠識(shí)別出來(lái)我們一些嘉賓，根據(jù)他們的人臉，我們知道這個(gè)人是誰(shuí)，這個(gè)準(zhǔn)確率已經(jīng)比較高了。剛才進(jìn)來(lái)的時(shí)候，大家也可以看到一些人臉識(shí)別的展臺(tái)，我們是可以識(shí)別很多很多人的面孔的。

那么，人臉識(shí)別這個(gè)技術(shù)是怎么實(shí)現(xiàn)的？我們要對(duì)人臉的特征提取它的關(guān)鍵點(diǎn)，把這些點(diǎn)打出來(lái)之后要做一些處理，把它連成一個(gè)面部表情，據(jù)此來(lái)識(shí)別這樣一個(gè)人。這就使得當(dāng)一個(gè)人的表情發(fā)生變化的時(shí)候，我們?nèi)匀荒軌蜃R(shí)別出來(lái)這個(gè)特點(diǎn)是沒(méi)有發(fā)生變化的，比如他在哭，他在笑，他在憤怒，他在迷茫，他的表情是不一樣的，但是他的表情特征是不變的，所以我們?nèi)匀豢梢院軠?zhǔn)確地識(shí)別出這樣一個(gè)人。

除了面部識(shí)別之外，圖像識(shí)別還在很多領(lǐng)域也有應(yīng)用。我們?cè)倏匆粋€(gè)，這是上海的一個(gè)全景圖，大家使用百度地圖有時(shí)候需要看這樣一個(gè)景，到一個(gè)陌生的地方之前，想看看到那看到的樣子是什么。當(dāng)然，這個(gè)圖不是一個(gè)簡(jiǎn)單的圖像的采集，我們采集了圖像之后要對(duì)圖像中各種各樣的目標(biāo)進(jìn)行識(shí)別，這個(gè)大樓是什么樣的大樓，那個(gè)路牌上面寫的什么字，對(duì)寫的這個(gè)字識(shí)別的話，跟人臉識(shí)別還不太一樣，這里面有一個(gè)特殊的圖像識(shí)別的技術(shù)就是OCR，這個(gè)是二十多年前我們的一個(gè)專利，到今天它的準(zhǔn)確率已經(jīng)非常高了，下面我們也是用一段視頻給大家看一下百度地圖是如何利用圖像識(shí)別的。

【播放百度地圖視頻】

這是百度地圖利用圖像識(shí)別的情況，其實(shí)還有一個(gè)很重要的領(lǐng)域也是非常需要圖像識(shí)別的技術(shù)，這個(gè)領(lǐng)域是什么呢？這就是我們過(guò)去一年來(lái)講得比較多的無(wú)人駕駛汽車。無(wú)人駕駛汽車涉及到很多很多的技術(shù)，比如說(shuō)我們需要計(jì)算機(jī)視覺(jué)的技術(shù)，需要高精度地圖，需要對(duì)環(huán)境的感知，需要定位，甚至需要語(yǔ)音的通話。但應(yīng)該說(shuō)，計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù)是“最后一公里”，無(wú)人駕駛汽車真的要變成沒(méi)有人，真的要能夠解決99.999%、甚至100%的情況，最終還是要依靠計(jì)算機(jī)視覺(jué)的能力，要識(shí)別各種各樣的極端的情況。

去年年底開(kāi)始，我們給大家展示過(guò)百度的無(wú)人車在五環(huán)上跑，在高速上跑的情況，過(guò)去一年左右的時(shí)間我們也花了不少精力去提升我們?cè)诔鞘械缆飞线\(yùn)營(yíng)的水平，下面我們也放一段視頻給大家看一下。

【播放無(wú)人車視頻】

大家看到左下角這是人能夠看到的視野，這個(gè)視野其實(shí)是比較窄的，主屏幕是無(wú)人車能夠看到的路面情況，大家可以感受到，它感知的范圍其實(shí)比人要寬了很多，很多比較遠(yuǎn)的目標(biāo)都可以感知到，每個(gè)目標(biāo)都給出它唯一的編號(hào)進(jìn)行識(shí)別。對(duì)面有什么車過(guò)來(lái)了，遇到紅綠燈，遇到障礙怎么辦，行人怎么能識(shí)別出來(lái)，或者是樹(shù)木，周邊的汽車等等，每一個(gè)目標(biāo)我們都進(jìn)行了識(shí)別和編號(hào)，這就是實(shí)際的、一個(gè)百度無(wú)人駕駛汽車在城市道路中行駛的情況，上面的45是限速。

這是大致的一個(gè)車看到的世界是什么樣的。這里面涉及了很多計(jì)算機(jī)視覺(jué)或者是圖像識(shí)別的技術(shù)，尤其是這兩個(gè)技術(shù)：一個(gè)是我們叫做車輛的檢測(cè)，你行駛過(guò)程中怎么能夠知道旁邊有車輛，這個(gè)車輛在哪？這個(gè)車輛的檢測(cè)我們現(xiàn)在按照國(guó)際權(quán)威的評(píng)測(cè)來(lái)看，車輛檢測(cè)的能力，百度無(wú)人車已經(jīng)排名第一了。還有一個(gè)很重要的能力是車輛跟蹤的能力。這個(gè)不僅是全自動(dòng)的無(wú)人車，即使是對(duì)半自動(dòng)的、高度自動(dòng)駕駛來(lái)說(shuō)，也是一個(gè)很基本的能力。你怎樣能夠準(zhǔn)確地跟著前面的車走，這個(gè)技術(shù)在包括準(zhǔn)確性、全面性、連續(xù)性等六項(xiàng)指標(biāo)中，我們已經(jīng)有四項(xiàng)拿到了第一。

這是無(wú)人車對(duì)于圖像識(shí)別依賴的情況。我們?cè)俳o大家展示一個(gè)領(lǐng)域，就是增強(qiáng)現(xiàn)實(shí)AR，AR其實(shí)也是非常依賴（圖像識(shí)別）。拿著手機(jī)拍一下現(xiàn)實(shí)的情況，我們要能夠識(shí)別出來(lái)這是哪，這里面有什么，然后才能跟用戶進(jìn)行互動(dòng)，才能產(chǎn)生真實(shí)世界和一些虛擬世界的完美的結(jié)合。那么這個(gè)東西有什么應(yīng)用呢？我們也覺(jué)得很高興我們的周總、我們的廣告主非常敏銳地把握到了這么一個(gè)機(jī)會(huì)，他說(shuō)OK，我可以把現(xiàn)實(shí)世界中我的產(chǎn)品和虛擬世界中我希望用戶感知的東西結(jié)合在一起，這樣的一個(gè)做法也可以說(shuō)是一種新型的廣告形式，下面我們就來(lái)看一個(gè)具體的例子。這是我們跟歐萊雅中國(guó)合作的一個(gè)例子。我們放視頻。

【播放歐萊雅視頻】

所以大家看到無(wú)論你拿手機(jī)拍一張明信片，還是拍一個(gè)實(shí)物的洗發(fā)水，它都可以準(zhǔn)確地識(shí)別出來(lái)這個(gè)東西，和用戶進(jìn)行互動(dòng)，這里面不僅有圖像識(shí)別的技術(shù)，也很大程度上取決于廣告主的創(chuàng)意，如果創(chuàng)意和這個(gè)技術(shù)結(jié)合，對(duì)消費(fèi)者的吸引力也非常大，所以我們也期待將來(lái)的時(shí)間和客戶很好地合作，把這個(gè)創(chuàng)意，把最優(yōu)秀的想法和最優(yōu)秀的技術(shù)結(jié)合起來(lái)，給消費(fèi)者帶來(lái)實(shí)惠。

這是有關(guān)圖像識(shí)別方面的幾個(gè)例子。下面我們?cè)倏醋匀徽Z(yǔ)言處理。自然語(yǔ)言處理其實(shí)我剛才也講了，它的成熟程度應(yīng)該不如語(yǔ)音，甚至不如圖像識(shí)別，但是即使在目前的狀態(tài)下，它也能夠給大家?guī)?lái)很多很多不一樣的體驗(yàn)。最直接的例子應(yīng)該是我們?nèi)ツ暝诎俣仁澜绱髸?huì)上講的一個(gè)例子，就是度秘。度秘是一個(gè)個(gè)人智能的助理。這個(gè)個(gè)人智能助理今天我們可以在手機(jī)百度里面找到，度秘跟用戶進(jìn)行交互，現(xiàn)在已經(jīng)有超過(guò)一半的交互是通過(guò)語(yǔ)音和圖像來(lái)完成的，去年我們也講了，語(yǔ)音和圖像將來(lái)會(huì)變成一個(gè)主流。

度秘除了它能夠識(shí)別語(yǔ)音和圖像之外，其實(shí)它更關(guān)鍵、更核心的技術(shù)，是能夠用人的語(yǔ)言來(lái)與人進(jìn)行交流，并且能夠理解人的很多意思和意圖，盡管不是每一次都能理解。

過(guò)去這段時(shí)間我們也利用度秘的自然語(yǔ)言的能力做了一個(gè)比較有意思的應(yīng)用，用度秘來(lái)解說(shuō)奧運(yùn)籃球，下面我們看一下視頻。

【播放度秘與楊毅合作解說(shuō)視頻】

今天我們?nèi)嬲故玖税俣却竽X各種各樣的能力，我覺(jué)得，而在我自己和百度同學(xué)的想象范圍內(nèi)，這些能力能做的事情已經(jīng)很多了，但是更讓我興奮的是如果這些能力賦予到全社會(huì)的每個(gè)人，它能夠變換出來(lái)無(wú)窮無(wú)盡的可能性。所以，百度大腦會(huì)把語(yǔ)音、圖像、自然語(yǔ)言理解和用戶畫像等能力完全開(kāi)放出來(lái)，并且在大多數(shù)情況下這些能力會(huì)是免費(fèi)提供的。有了這樣的能力，有了開(kāi)放共享，將給各行各業(yè)的人群帶來(lái)過(guò)去大家做不到的、不敢想的能力。我在這里也邀請(qǐng)每個(gè)人重新想象你所在的行業(yè)，重新想象中國(guó)經(jīng)濟(jì)，重新想象世界的未來(lái)。

謝謝大家！

【來(lái)源：

騰訊科技

作者：韓依民】

百度
李彥宏
人工智能

1.砍柴網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源；2.砍柴網(wǎng)的原創(chuàng)文章，請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源：砍柴網(wǎng)"，不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控?zé)任；3.作者投稿可能會(huì)經(jīng)砍柴網(wǎng)編輯修改或補(bǔ)充。

閱讀延展