
視頻搜索的瓶頸
隨著諸如YouTube這樣的視頻庫(kù)的壯大,能夠索引這些素材的技術(shù)將成為互聯(lián)網(wǎng)今后的熱點(diǎn)。
作者:Joab Jackson 編譯:張林
現(xiàn)在,淘寶、VANCL等熱門的電子商務(wù)(電商頻道)網(wǎng)站都宣稱將和視頻網(wǎng)站合作,以在線視頻提升購(gòu)物體驗(yàn)。比如消費(fèi)者可以看到,一款衣服穿在模特兒身上的效果如何。
不過,對(duì)于視頻的搜索服務(wù)如果不夠精準(zhǔn),有可能使用戶體驗(yàn)大打折扣。現(xiàn)在,谷歌和微軟的Bing這樣基于文字的搜索服務(wù)都能提供非常接近于用戶搜索目標(biāo)的結(jié)果,而視頻搜索服務(wù)卻亟待提高。專家們正在尋找相關(guān)的技術(shù),來提升視頻搜索的精準(zhǔn)率。
荷蘭聲光研究所負(fù)責(zé)未來圖像計(jì)劃的主任Hans Westerhof在2005年啟動(dòng)了一項(xiàng)將其視頻存檔數(shù)字化的計(jì)劃,包括電影、電視節(jié)目和新聞素材在內(nèi)的長(zhǎng)達(dá)28萬小時(shí)的視頻和音頻素材將被數(shù)字化。其中,大約10萬小時(shí)的素材已經(jīng)被轉(zhuǎn)換格式,其存儲(chǔ)空間達(dá)到3PB,而到2015年時(shí),存檔將占用14PB的存儲(chǔ)空間。
該研究所現(xiàn)在面臨的問題是如何更容易地在這些視頻素材中進(jìn)行查找。很多老一些的電影鏡頭幾乎沒有元數(shù)據(jù)或描述數(shù)據(jù),而老電視節(jié)目鏡頭也只有少得可憐的一些信息,比如只有節(jié)目標(biāo)題、播出日期這樣的信息,而節(jié)目的內(nèi)容則毫無信息可尋。
“為了讓資料變得可用,我們需要有元數(shù)據(jù),”他說,創(chuàng)建元數(shù)據(jù)的工作應(yīng)該盡可能自動(dòng)化,因?yàn)椤皞鹘y(tǒng)編目無法在這種規(guī)模上發(fā)揮作用!
當(dāng)前,聲光研究所正在使用語音和圖形識(shí)別技術(shù)尋找從視頻中自動(dòng)提取數(shù)據(jù)的方法。但由于多種原因,開發(fā)自動(dòng)索引視頻的工具比開發(fā)索引文本的工具難得多。
和文本不同,視頻只能被分解成和整個(gè)視頻信息毫無關(guān)系的像素,Paul Over說。他是美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所視頻搜索開發(fā)的項(xiàng)目負(fù)責(zé)人,這個(gè)項(xiàng)目致力于鼓勵(lì)開發(fā)更好的視頻搜索技術(shù)。而另一方面,一段文字可以被分解成一系列的詞匯,這些詞匯的意思已知,通過對(duì)它們的分析就可以得到整個(gè)文檔的概述。
視頻“和文字迥然不同,”他說,這導(dǎo)致對(duì)視頻進(jìn)行索引要困難得多。
“視頻搜索絕非易事,要提取結(jié)構(gòu)是比較困難的,”Videolectures.net的項(xiàng)目經(jīng)理Marko Grobelnik在在線講座中說道,“我們還在努力解決諸如物體識(shí)別這樣的基本問題!
谷歌YouTube的搜索和算法識(shí)別產(chǎn)品經(jīng)理Jamie Davidson提到,谷歌正在嘗試一種新的算法,它可以給上傳到網(wǎng)站的視頻添加上相關(guān)信息。
例如,軟件可以判斷某段視頻是否是像音樂會(huì)這樣的常見事件,以便幫助識(shí)別視頻內(nèi)容。它可以添加諸如視頻上傳位置這樣的注解,以便用戶們能將其搜索限定到特定的地理位置上。
但YouTube還面臨著搜索與分類的挑戰(zhàn),尤其是很多視頻的內(nèi)容都是千奇百怪的。他展示了一段視頻,視頻中一只土撥鼠在音樂的伴奏下在鏡頭前非常有趣地轉(zhuǎn)圈。這段視頻的標(biāo)題是“可愛的花栗鼠”,這讓搜索到該視頻的人很難猜到會(huì)有如此的標(biāo)題。
Over 解釋說,人們會(huì)為了各種各樣的目的搜索視頻。例如,一個(gè)普通的網(wǎng)民可能會(huì)去搜索一段搞笑視頻。情報(bào)分析師會(huì)搜索背景信息,因此對(duì)視頻的拍攝目的可能毫無興趣。一個(gè)紀(jì)實(shí)作者或新聞機(jī)構(gòu)會(huì)搜索特定時(shí)間和地點(diǎn)的新聞素材。想要給視頻加上標(biāo)記以便這些用戶都能找到顯然是非常困難的。
作為示例,Over展示了一段視頻,一個(gè)女子跑過廣場(chǎng),驚起一群鴿子,隨即腳下一滑,摔倒在濕滑的地上。
“為了讓這個(gè)視頻文件具有重復(fù)使用性,你會(huì)如何對(duì)它進(jìn)行標(biāo)記?”他問道,并隨即寫下一串說明詞匯:“女人,鴿子,廣場(chǎng),白天,戶外,摔倒!钡聦(shí)上,視頻的上傳者只用了一個(gè)詞來標(biāo)記它:“笨姐姐”。
這個(gè)標(biāo)簽“非常個(gè)性化,它對(duì)于上傳者具有某種意義,但對(duì)其他要重新使用它的人卻沒有絲毫用處!
美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所計(jì)劃每年都為推進(jìn)自動(dòng)視頻搜索接受一系列的挑戰(zhàn),它使用真實(shí)的視頻素材作為測(cè)試的材料,目的就是鼓勵(lì)開發(fā)出能夠像人一樣高質(zhì)量地標(biāo)記素材的算法,把視頻中的人物、物體、地點(diǎn)甚至是特定的事件全部精確標(biāo)注出來。
一種方法是建立一系列所謂的“識(shí)別器”,即能夠被算法識(shí)別的物體或事件。軟件可以詢問:“這個(gè)鏡頭是否包含教室?是否包含椅子?是否有人在唱歌?”,然后加上對(duì)應(yīng)的標(biāo)簽。識(shí)別器越多,軟件就越能夠從素材中獲取有價(jià)值的特性。
該計(jì)劃正在取得進(jìn)展:早些年,該計(jì)劃只能使用晚間新聞廣播和機(jī)場(chǎng)監(jiān)控視頻素材作為測(cè)試新視頻搜索系統(tǒng)和技術(shù)的數(shù)據(jù)集。但今年,該計(jì)劃將使用網(wǎng)絡(luò)上的視頻素材,這將大大提升材料的多樣性。
“隨著特定的方法或算法進(jìn)入到不同的系統(tǒng)中,它們將會(huì)在不同的數(shù)據(jù)上測(cè)試,以反復(fù)驗(yàn)證其可用性。”O(jiān)ver說。
專家小組表示,雖然在過去這些年視頻搜索工具的開發(fā)取得了長(zhǎng)足進(jìn)展,但要滿足商用要求還有很長(zhǎng)的路要走。聲光研究所的Westerhof認(rèn)為這些工具遲早會(huì)派上用途,但他也表示,“近期內(nèi)這些工具可能還無法很好地進(jìn)行應(yīng)用。”
相關(guān)閱讀