物體檢索與定位是計(jì)算機(jī)視覺(jué)技術(shù)核心的技術(shù)之一。本書(shū)主要闡述了物體檢索與定位中的關(guān)鍵問(wèn)題和相關(guān)技術(shù),包括大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用、視覺(jué)詞組的貝葉斯池化模型、位置對(duì)齊的深度示例檢索模型、多示例在線(xiàn)學(xué)習(xí)模型、基于顯著性的深度特征表示、人工智能時(shí)代的信息檢索技術(shù)展望。 本書(shū)內(nèi)容新穎、條理清晰,適合作為計(jì)算機(jī)與人工智能相關(guān)行業(yè)從業(yè)人員的專(zhuān)業(yè)技術(shù)類(lèi)參考用書(shū)。
隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)正在發(fā)生爆發(fā)式增長(zhǎng),從大規(guī)模數(shù)據(jù)中檢索與定位重要的目標(biāo)信息具有廣泛且重要的應(yīng)用價(jià)值,因而受到學(xué)術(shù)界和工業(yè)界的大量關(guān)注。物體檢索與定位,是指給定查詢(xún)目標(biāo)在某種模態(tài)下的信息,在大規(guī)模圖像視頻數(shù)據(jù)中集中定位該目標(biāo)的技術(shù)。物體檢索與定位是計(jì)算機(jī)視覺(jué)技術(shù)核心的課題之一。然而,由于光照、視角、遮擋等外部因素和物體本身的形變、類(lèi)別多樣性等內(nèi)部因素的共同影響,圖像在不同層次上存在復(fù)雜的表象變化。除此之外,示例、圖像和標(biāo)簽之間的層次關(guān)聯(lián)繁雜多樣,這些都給物體檢索與定位帶來(lái)了很大的困難。
本書(shū)從實(shí)際應(yīng)用的角度出發(fā),針對(duì)示例檢索、標(biāo)簽檢索和物體定位三個(gè)相關(guān)問(wèn)題進(jìn)行深入研究。以視覺(jué)詞袋模型和深度卷積網(wǎng)絡(luò)模型為基礎(chǔ),從模型表示、模型學(xué)習(xí)和關(guān)聯(lián)匹配幾個(gè)方面進(jìn)行擴(kuò)展和完善。
(1)針對(duì)基于視覺(jué)詞組的示例檢索模型進(jìn)行了研究。首先,優(yōu)化了視覺(jué)詞組的定義方式,提高了視覺(jué)詞組的區(qū)分性。其次,分析了一類(lèi)容易被忽視的現(xiàn)象,即視覺(jué)詞組的突爆匹配。后,基于概率模型,提出了一種新穎的貝葉斯池化模型用于消除突爆匹配,從而優(yōu)化了圖像之間的相似性度量,提高了示例檢索的準(zhǔn)確性。
(2)針對(duì)基于深度卷積網(wǎng)絡(luò)的示例檢索模型進(jìn)行了研究。針對(duì)示例檢索的查詢(xún)敏感的空間位置關(guān)聯(lián)性問(wèn)題,提出了一種空間位置對(duì)齊的模型框架。更進(jìn)一步,提出了一種基于排序的深度卷積網(wǎng)絡(luò),用于建模物體的類(lèi)內(nèi)和類(lèi)間差異性。為了訓(xùn)練這個(gè)網(wǎng)絡(luò),設(shè)計(jì)了一種半監(jiān)督的訓(xùn)練樣本收集策略。該策略不需要任何對(duì)查詢(xún)物體的先驗(yàn)知識(shí),并且極大地減少了人工收集訓(xùn)練樣本所需的成本。實(shí)驗(yàn)結(jié)果表明,這一方法顯著地提高了深度模型下示例檢索的準(zhǔn)確性。
(3)針對(duì)前背景的模糊性,從特征學(xué)習(xí)的角度,介紹了一種多示例在線(xiàn)學(xué)習(xí)模型解決弱監(jiān)督條件下的圖像標(biāo)注和物體定位問(wèn)題。首先,在現(xiàn)有的多示例學(xué)習(xí)模型的基礎(chǔ)上,改進(jìn)了訓(xùn)練樣本的選擇和更新策略。改進(jìn)后的策略能夠收集準(zhǔn)確多樣的正樣本以及有區(qū)分性的負(fù)樣本,從而提高前背景的區(qū)分性。其次,設(shè)計(jì)了一個(gè)端到端的模型,同時(shí)進(jìn)行訓(xùn)練樣本的選擇和物體檢測(cè)器的訓(xùn)練。后,通過(guò)對(duì)示例標(biāo)注和圖像標(biāo)注進(jìn)行關(guān)聯(lián),從而通過(guò)一個(gè)模型聯(lián)合學(xué)習(xí)圖像標(biāo)注和物體檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,這一模型有效地提高了圖像標(biāo)注和物體定位的性能。
(4)從特征表示的角度對(duì)標(biāo)簽檢索和物體定位問(wèn)題進(jìn)行了研究。具體地,本書(shū)介紹了一種基于顯著性的深度特征模型,改善基于矩形框的物體特征表示。顯著性模型使得矩形框內(nèi)背景區(qū)域的特征響應(yīng)被抑制,而前景中重要的視覺(jué)區(qū)域的特征激活得到增強(qiáng)。這樣的特征表示模型使得前景區(qū)域和背景區(qū)域的類(lèi)內(nèi)差異變小,類(lèi)間差異變大,從而減少了前背景的模糊性。這一顯著性特征模型可以與當(dāng)前好的弱監(jiān)督物體檢測(cè)模型融合,從而進(jìn)行端到端的聯(lián)合訓(xùn)練。這一方法的可靠性在多個(gè)數(shù)據(jù)集上得到了驗(yàn)證。
姜文暉,男,博士,2017年博士畢業(yè)于北京郵電大學(xué),美國(guó)加州大學(xué)圣巴巴分校訪問(wèn)博士生。博士畢業(yè)后在阿里巴巴達(dá)摩院從事計(jì)算機(jī)視覺(jué)方面的研究,F(xiàn)為江西財(cái)經(jīng)大學(xué)信息管理學(xué)院講師,碩士生導(dǎo)師。長(zhǎng)期從事可視媒體內(nèi)容理解、多媒體內(nèi)容檢索、智能監(jiān)控安防等方面的研究和產(chǎn)業(yè)落地。在國(guó)際高水平學(xué)術(shù)期刊和會(huì)議發(fā)表論文十余篇,主持國(guó)家自然科學(xué)基金項(xiàng)目1項(xiàng),省部級(jí)課題2項(xiàng),在學(xué)術(shù)界和工業(yè)化場(chǎng)景中積累了豐富經(jīng)驗(yàn)。