男人网站,国产精品对白刺激久久久,性XXXX欧美老妇506070,哦┅┅快┅┅用力啊┅┅在线观看

AI 學會「搞」科研登 Nature,知乎網(wǎng)友:不忍直視的水

人工智能
2019
07/10
21:48
機器之心
分享
評論

人工智能可以在復(fù)雜的圍棋游戲中輕松戰(zhàn)勝人類,但它們可以幫助我們做出科學發(fā)現(xiàn)嗎?美國能源部勞倫斯伯克利國家實驗室最近發(fā)表在《自然》雜志上的一篇論文引起了人們的廣泛關(guān)注。研究人員表示,人工智能在自動閱讀 300 萬篇材料學領(lǐng)域的論文之后發(fā)現(xiàn)了全新的科學知識。

在人們的普遍印象里,論文上了 Nature,那結(jié)論自然也就八九不離十了。然而對于熟悉人工智能的人來說,該研究有些奇怪的是:論文中模型使用的技術(shù)是「詞嵌入」——既不是卷積神經(jīng)網(wǎng)絡(luò),也不是循環(huán)神經(jīng)網(wǎng)絡(luò)等更復(fù)雜的模型。這么簡單的模型,真的可以幫助我們找到成百上千研究者多年來從未找到的新材料嗎?

這篇文章發(fā)表之后引來了機器學習社區(qū)的大量反對意見,人們紛紛對這樣的「灌水」行徑表示不忍直視。

讓我們先看看論文是怎么說的:

AI 學會「看論文」了,研究還上了 Nature

該論文的作者來自伯克利國家實驗室能量存儲與分布式資源部門(Energy Storage & Distributed Resources Division)科學家 Anubhav Jain 領(lǐng)導的團隊,他們收集了 330 萬篇已發(fā)表的材料科學論文的摘要,并將它們饋入到一個名為  word2vec  的算法中。通過解釋詞間的關(guān)系,該算法能夠提前數(shù)年給出新熱電材料的預(yù)測,在目前未知的材料中找出有應(yīng)用潛力的候選材料。

這篇名為《Unsupervised Word Embeddings Capture Latent Knowledge from Materials Science Literature》的論文發(fā)表在 7 月 3 日的 Nature 上。

論文地址:https://www.nature.com/articles/s41586-019-1335-8

論文一作 Vahe Tshitoyan 是伯克利國家實驗室博士后研究員,現(xiàn)就職于谷歌。此外,同屬伯克利國家實驗室的科學家 Kristin Persson 和 Gerbrand Ceder 也參與了此項研究。

Gerbrand Ceder 表示:「該論文認為,對科學文獻進行文本發(fā)掘可以發(fā)現(xiàn)隱藏的知識,單純的文本提取可以建立基本科學知識?!?/p>

論文一作 Tshitoyan 表示,該項目的動機是人們很難完全弄明白數(shù)量過多的已發(fā)表研究。所以,他們想到機器學習是否能夠以無監(jiān)督的方式利用所有集體知識(collective knowledge)。

King - queen + man = ?

該團隊整理了 1922 年至 2018 年間發(fā)表在 1000 多個期刊上的 330 萬篇論文摘要(是的,AI 讀論文只看摘要)。Word2vec 從這些摘要中提取了大約 50 萬個不同的單詞,并將每個單詞轉(zhuǎn)化為 200 維的向量或者包含 200 個數(shù)字的數(shù)組。

Jain 表示:「重要的不在于數(shù)字,而是利用這些數(shù)字觀察單詞之間的關(guān)系」。例如,你可以利用標準向量數(shù)學做向量減法。其他研究者已經(jīng)證明,如果你要在非科學文本資源上訓練該算法,并從『king 減去 queen』中提取向量,則可以得到與『man 減去 woman』相近的結(jié)果。

同樣地,當在材料科學文本中進行訓練時,該算法僅根據(jù)摘要中單詞的位置以及它們與其他單詞的共現(xiàn)關(guān)系就可以學習科學術(shù)語和概念的含義。例如,正如該算法可以解「king-queen + man」方程式一樣,它能夠計算出方程式「ferromagnetic(鐵磁的)— NiFe(鎳鐵)+ IrMn(銥錳)」的答案是「antiferromagnetic」(反鐵磁的)。

左:Word2vec 的元素表征(投影到二維空間);右:門捷列夫元素周期表。圖源:Berkeley Lab

如上圖所示,當元素周期表中的化學元素投影到二維空間時,Word2vec 甚至可以學習它們之間的關(guān)系。

提前數(shù)年預(yù)測新材料

那么,如果 Word2vec 那么聰明,它能預(yù)測新的熱電材料嗎?一種好的熱電材料可以高效地將熱能轉(zhuǎn)換為電能,而且是用安全、充足、易生產(chǎn)的原料制成的。

該算法根據(jù)詞向量與單詞「熱電」的相似性對每種化合物進行排序,研究者選取了該算法最為推薦的熱電材料。然后,他們通過計算來驗證算法的預(yù)測結(jié)果。

他們發(fā)現(xiàn),在算法預(yù)測出的前 10 位熱電材料中,所有預(yù)測都計算出了略高于已知熱電元件的功率因數(shù)(衡量電氣設(shè)備效率高低的一個系數(shù),該值越高效益越好);前三位材料的功率因數(shù)高于 95% 的已知熱電學元件。

接下來,他們測試了該算法是否適用于「過去」的預(yù)測實驗,即只給它 2000 年之前的摘要。結(jié)果再次給人驚喜,算法給出的排名靠前的預(yù)測結(jié)果很多都出現(xiàn)在了后來的研究中,這一數(shù)字是隨機選擇結(jié)果的四倍。例如,利用 2008 年之前的數(shù)據(jù)訓練得到的預(yù)測結(jié)果有 5 個,其中三個已經(jīng)被發(fā)現(xiàn),而其余的兩個非常稀有或含有有毒物質(zhì)。

研究者說:「該研究表明,如果該算法能夠早點應(yīng)用,一些材料早在幾年前就可以被發(fā)現(xiàn)了?!?/p>

隨著研究的進行,研究者正在發(fā)布由算法預(yù)測出的前 50 位熱電材料。他們還將發(fā)布研究中用到的詞嵌入,以幫助其他人發(fā)現(xiàn)更好的材料。此外,他們還在開發(fā)一個更加強大的智能搜索引擎,幫助研究者利用更加有效的方法搜索摘要。

遭遇機器學習社區(qū)嘲諷

人工智能真的可以自動發(fā)現(xiàn)新材料嗎?這篇論文一經(jīng)發(fā)表便在社交網(wǎng)絡(luò)上引發(fā)了熱烈的討論。目前為止,該帖子已經(jīng)有 14 萬的瀏覽量。

材料學的同學們首先表示驚訝:AI 代替科研人員,我們都會失業(yè)嗎?熟悉機器學習的人們看完論文之后回過神來,則開啟了「嘲諷模式」。

在知乎上,新加坡國立大學博士、騰訊算法工程師「霍華德」表示:看完這篇 paper 后,我的內(nèi)心久久不能平復(fù),好久沒看到這么爛的 paper 了!

也有人建議其他領(lǐng)域的學者在使用機器學習方法做自己的研究前要先打好基礎(chǔ)?!傅教幫诳邮Y玉成」表示:我真心建議文章通訊作者和審稿人都去學學 CS224n …這文章的立意還挺不錯的,但是實際的實現(xiàn)也太水了,完全不配發(fā) Nature。

機器學習社區(qū)的人們仔細分析了這篇論文:

該論文中,作者用 t-SNE 將詞向量投影到二維空間,并發(fā)現(xiàn)同族元素聚集在了一起?!富羧A德」表示,同族元素在上下文當然容易提及,它們只是共現(xiàn)關(guān)系而已。此外,作者聲稱可以直接用詞向量預(yù)測化合物,并表示預(yù)測結(jié)果與理論計算的絕對誤差非常小,但理論能算出來東西,用神經(jīng)網(wǎng)絡(luò)做擬合的意義真的很大嗎?

在這里,作者連神經(jīng)網(wǎng)絡(luò)適用的基本場景都弄不清,對于 Formation Energy 的計算有完善的量子力學理論做支撐,對于這樣能夠精準建模的問題,用傳統(tǒng)的物理學第一性理論來計算更好,更加可靠!

最后,作者用余弦相似度計算了和 thermoelectric 最接近的單詞,然后在其中的 326 位和 345 位發(fā)現(xiàn)了兩種材料 Li2CuSb 和 Cu3Nb2O8,然后宣稱他們的算法能夠預(yù)測潛在的新型熱電材料。在讀者看來,這是一種「令人窒息」的操作。因為 thermoelectric 和兩種材料之所以余弦相似度接近,根本原因是有人在文章里同時提到過 thermoelectric 和 Li2CuSb、Cu3Nb2O8,這僅僅是共現(xiàn)關(guān)系而已。

所以結(jié)論來了:所謂能夠預(yù)測潛在的新型熱電材料的 AI 算法屬于無稽之談,材料學研究者們的生存并沒有因此受到威脅——因為這篇論文沒有提出任何能讓 AI 看懂論文的算法。

也有研究材料的學者在知乎上表示,為了蹭大數(shù)據(jù)、機器學習、深度學習的熱度,很多領(lǐng)域的研究都在做相關(guān)的工作。「聲嘶力竭」介紹了自己的經(jīng)歷:剛開始接觸和學習 AI 相關(guān)技術(shù),本以為可以利用這個工具做出多么偉大的工作,但是自己真正做了之后,才感覺「這不就是個高維特征空間的統(tǒng)計工具嘛,為什么被吹得這么玄幻?」

機器學習不能這么亂用

論文上了《自然》、《科學》雜志,卻仍然經(jīng)不起人們的推敲,這種事最近在機器學習社區(qū)已經(jīng)發(fā)生了不是一兩次了。

在「人工智能搞科研」研究之前,是「深度學習預(yù)測地震」。去年 8 月,《Nature》上發(fā)表了一篇題為《Deep learning of aftershock patterns following large earthquakes》的火爆論文。該論文由哈佛和谷歌的數(shù)據(jù)科學家聯(lián)合撰寫,論文一作所屬單位是哈佛大學地球與行星科學系。

該論文展示了如何利用深度學習技術(shù)預(yù)測余震。研究者指出,他們利用神經(jīng)網(wǎng)絡(luò)在預(yù)測余震位置方面的準確率超越了傳統(tǒng)方法。

但很快,這一方法就遭到了深度學習從業(yè)者的質(zhì)疑。一位名叫 Rajiv Shah 的數(shù)據(jù)科學家表示,論文中使用的建模方法存在一些根本性的問題,因此實驗結(jié)果的準確性也有待考究。這名數(shù)據(jù)科學家本著嚴謹?shù)木裨谕ㄟ^實驗驗證之后聯(lián)系了原作和《Nature》,卻沒得到什么積極的回復(fù)。

于是,Rajiv Shah 經(jīng)過半年時間,研究了論文作者公開的代碼,隨后在 medium 上發(fā)表文章揭露論文中存在的根本性缺陷以及《Nature》的不作為,后來這件事又在 Reddit 上引起了廣泛的討論。

人們除了批評 Nature 之外,也對深度學習、AI 技術(shù)被濫用的情況表示擔憂。隨著機器學習逐漸成為熱門學科,越來越多其他領(lǐng)域的學者開始使用新方法來解決問題,有些獲得了成果,有些則因為實驗和數(shù)據(jù)的錯誤方式而導致了不嚴謹?shù)慕Y(jié)果。

更令人擔憂的是,有時候有缺陷的研究還可以得到人們的認可。

這篇深度學習預(yù)測余震的論文登上了 Nature,還成為了 TensorFlow 2.0 新版本上宣傳文章中提到的案例——然而卻被機器學習社區(qū)從業(yè)者們詬病。

頂級期刊的事,怎么能說胡編亂造呢?然而這一次,人工智能學者們真的有點忍不住了。

【來源:機器之心】

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

AI+5G+IoT的組合,雖然打開了語音芯片的新想象力。但是在這個邏輯里,未來能占據(jù)廣泛市場的芯片模式,絕不是今天智能音箱芯片的模樣。語音芯片本身,變化才剛剛開始。
人工智能
困難重重的AI“辯味”。
人工智能
今天凌晨,一年一度的蘋果WWDC 19全球開發(fā)者大會在美國圣何塞舉辦,蘋果更新了自家系統(tǒng)平臺macOS、iOS、watchOS、tvOS以及今年剛剛加入的iPadOS。
業(yè)界
5月27日消息,人工智能的飛速發(fā)展,能給傳媒帶來什么樣的發(fā)展機遇?
業(yè)界
今天,YC中國在中關(guān)村舉辦創(chuàng)業(yè)者見面會,YC中國創(chuàng)始人及CEO、YC全球研究院院長陸奇圍繞《技術(shù)驅(qū)動創(chuàng)業(yè)帶來的創(chuàng)業(yè)機會》主題展開深度分享。
業(yè)界

相關(guān)推薦

1
3