你能想象在不久的將來,你在網(wǎng)上沖浪時候看到的視頻博主制作的視頻,或者是大學(xué)老師錄制好的網(wǎng)課,是由機(jī)器人幫忙拍出來的嗎?
現(xiàn)如今,視頻網(wǎng)站的流量已經(jīng)十分龐大,很多年輕人或者是權(quán)威專家們都會開設(shè)一些視頻網(wǎng)站的賬號,成為一個視頻博主,但并不是所有的博主都有一個專業(yè)的攝影團(tuán)隊,而將手機(jī)固定在支架上拍攝又往往無法將內(nèi)容很好地呈現(xiàn)在視頻里,如果可以有個“人”隨時可以充當(dāng)攝影師,對創(chuàng)作者而言是個天大的好消息,如今,一款機(jī)器人正肩負(fù)著這樣的使命。
這是一款被稱為“觀星者”的交互式機(jī)器人,它可以識別使用者給他下達(dá)的指令,通過機(jī)器人的手臂完成相應(yīng)的拍攝動作,它的出現(xiàn)讓一些沒有辦法請攝影團(tuán)隊的視頻創(chuàng)作者們能在機(jī)器人的幫助下拍攝更多動態(tài)視頻。
研究人員們首先在機(jī)器人的手臂上安裝了一個攝像頭,這個可以自主活動的機(jī)械臂帶有七個獨(dú)立的電機(jī),可以自由選定跟蹤區(qū)域或者自主跟蹤視頻對象進(jìn)行移動,同時該機(jī)器人可以根據(jù)使用者的一些明示或者暗示進(jìn)行細(xì)微調(diào)整,例如傳感器可以檢測并分析使用者的身體語言、手勢等。
據(jù)悉,該機(jī)器人還連通了ChatGPT-3.用戶的指令由無線線麥克風(fēng)錄制,并發(fā)送到語音識別軟件 Microsoft Azure Speech-to-Text,轉(zhuǎn)錄的文本會連同自定義提示一起被發(fā)送到 GPT-3程序上,從而理解用戶希望相機(jī)執(zhí)行怎樣的動作,如使用高角度拍攝或者是更緊湊的取景。
目前,該機(jī)器人主要的測試項目是老師們用于教學(xué)視頻的錄制,為了不干擾正常的教學(xué),老師們用來吸引觀眾注意力的語句可以作為機(jī)器人的指令語句。
例如:當(dāng)老師說“請注意我左手手上的物品”后,機(jī)器人可以捕捉到相關(guān)指令,并指揮機(jī)械手臂配合攝像頭聚焦在老師的手上,促使相機(jī)四處平移;當(dāng)老師說“請大家仔細(xì)觀察我是如何把物品從A處移動到B處”時,機(jī)器人可以馬上做出判斷,通過提高拍攝角度,讓觀眾擁有更好的視野觀看整個移動過程。
據(jù)研發(fā)人員透露,現(xiàn)階段的迭代中,團(tuán)隊希望提高機(jī)器人的交互能力,提高識別使用者發(fā)出指令的準(zhǔn)確性,避免教師與學(xué)生或聽眾交談時被誤識別為對機(jī)器人的指令,只有盡量解決詞匯干擾的問題,才可以讓該機(jī)器人更適合教學(xué)錄制。
除此之外,研發(fā)團(tuán)隊還希望將這一項技術(shù)應(yīng)用在更多的設(shè)備上,如無人機(jī)或者輪式機(jī)器人,以達(dá)到最大化地利用機(jī)器人幫助視頻創(chuàng)作者們構(gòu)建自己的攝影團(tuán)隊。
雖然“觀星者”機(jī)器人可以為普通的視頻創(chuàng)作者們提供一個搭建攝影團(tuán)隊的可能性,但這個機(jī)器人是依賴于一套昂貴的機(jī)械臂以及眾多的傳感器組成的,使用成本相對比較高,目前可能不是普通的視頻創(chuàng)作者們?nèi)菀棕?fù)擔(dān)的消費(fèi)。
多倫多大學(xué)計算機(jī)科學(xué)博士李建南是該項目的首席研究員,他認(rèn)為“觀星者”的概念不一定會受到昂貴的成本限制,而恰恰是機(jī)器人拍攝是一個空白的且前景廣闊的市場,以后會吸引更多的消費(fèi)者選擇,因為他認(rèn)為這仍然是組建一個攝影團(tuán)隊的最低成本的方式。