現(xiàn)代科技最引人注目的進(jìn)步之一是機(jī)器視覺(jué)的興起。在短短的幾年間,新一代的機(jī)器學(xué)習(xí)技術(shù)已經(jīng)改變了計(jì)算機(jī)對(duì)圖像的識(shí)別方法?,F(xiàn)在,機(jī)器在人臉識(shí)別和物體識(shí)別方面已超越了人類并且徹底改變了大量的基于視覺(jué)的任務(wù),比如駕駛、安全監(jiān)控等等。機(jī)器視覺(jué)現(xiàn)在已具有超人的能力。
但據(jù)麻省理工《技術(shù)評(píng)論》報(bào)道,來(lái)自谷歌和OpenAI研究所的研究人員發(fā)現(xiàn)了機(jī)器視覺(jué)算法的一個(gè)弱點(diǎn):機(jī)器視覺(jué)會(huì)被一些經(jīng)過(guò)修改的圖像干擾,而人類可以很容易地發(fā)現(xiàn)這些圖像的修改之處。
研究人員指出:“一例子是對(duì)人臉圖像打上非常細(xì)微的標(biāo)記,人類依然可以正確地識(shí)別出圖像中人物的身份,但機(jī)器學(xué)習(xí)系統(tǒng)會(huì)把他們識(shí)別成其他人”。研究人員對(duì)此進(jìn)行了系統(tǒng)的研究,揭示了機(jī)器視覺(jué)系統(tǒng)的弱點(diǎn)。研究團(tuán)隊(duì)一開(kāi)始使用了ImageNet,該數(shù)據(jù)庫(kù)的圖像根據(jù)其顯示的內(nèi)容被分類;研究人員首先使用該數(shù)據(jù)庫(kù)的一部分圖像來(lái)訓(xùn)練一個(gè)機(jī)器算法,然后用另一部分圖像來(lái)評(píng)估算法是否能良好地進(jìn)行分類。研究團(tuán)隊(duì)用三種不同的方式修改了5萬(wàn)張來(lái)自ImageNet的圖片,從而創(chuàng)造了一個(gè)對(duì)比圖像數(shù)據(jù)庫(kù)。第一種算法對(duì)圖像進(jìn)行了較小的改變從而最大化這項(xiàng)交叉熵,第二種算法是將這個(gè)過(guò)程迭代來(lái)進(jìn)一步地改變某張圖像,第三項(xiàng)算法改變了某張圖像從而能控制機(jī)器視覺(jué)系統(tǒng),并讓其出現(xiàn)某種特定的分類錯(cuò)誤。研究團(tuán)隊(duì)測(cè)試Google的Inceptionv3算法能否正確地對(duì)這些圖像進(jìn)行分類,結(jié)果發(fā)現(xiàn)前兩種算法大幅度地降低了精確度,但是第三種算法將所有圖像的精確度減小至零。
這項(xiàng)研究揭示了機(jī)器視覺(jué)的阿喀琉斯之踵,未來(lái)還有很多值得研究的內(nèi)容。研究人員希望為其他類型的視覺(jué)系統(tǒng)開(kāi)發(fā)比較圖像,從而使這些系統(tǒng)更有效率。