隨著計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展和便攜式設(shè)備的普及,網(wǎng)絡(luò)上的文本、圖像、音頻和視頻等多種模態(tài)的數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)的勢(shì)態(tài),在海量數(shù)據(jù)中進(jìn)行跨媒體檢索成為新的挑戰(zhàn)。一方面,不同媒體數(shù)據(jù)的表示呈現(xiàn)異構(gòu)性,如何度量異構(gòu)數(shù)據(jù)的相似度成為跨媒體檢索的關(guān)鍵性問(wèn)題。另一方面,互聯(lián)網(wǎng)上的數(shù)據(jù)數(shù)量大,數(shù)據(jù)表示維度高,如何實(shí)現(xiàn)準(zhǔn)確而又高效的檢索成為跨媒體檢索亟待解決的問(wèn)題。哈希算法把高維數(shù)據(jù)映射到低維的漢明空間,為大規(guī)?缑襟w快速檢索提供了一條有效途徑。因此,本書(shū)主要圍繞基于哈希算法的圖文跨媒體檢索問(wèn)題展開(kāi)研究,主要?jiǎng)?chuàng)新成果如下。
(1) 針對(duì)哈希碼的每位取值不表示任何含義的問(wèn)題,本書(shū)提出一種基于映射字典學(xué)習(xí)的無(wú)監(jiān)督跨媒體哈希算法。首先,利用映射字典學(xué)習(xí)為圖像和文本模態(tài)學(xué)習(xí)一個(gè)共享語(yǔ)義空間。傳統(tǒng)的字典學(xué)習(xí)方法由于加入稀疏約束項(xiàng),會(huì)導(dǎo)致較高的計(jì)算復(fù)雜度,本書(shū)利用線性映射代替非線性的稀疏編碼,降低了計(jì)算復(fù)雜度; 其次,提出一種迭代優(yōu)化算法,得到目標(biāo)函數(shù)的局部最優(yōu)解; 最后,通過(guò)學(xué)習(xí)正交旋轉(zhuǎn)矩陣最小化量化誤差,提升算法的性能。
(2) 針對(duì)已有算法在共享子空間學(xué)習(xí)時(shí)忽視樣本模態(tài)內(nèi)一致性的問(wèn)題,提出一種基于語(yǔ)義一致性的跨媒體哈希算法。首先,分別利用協(xié)同非負(fù)矩陣分解和近鄰保持算法保持樣本的模態(tài)間和模態(tài)內(nèi)的一致性,學(xué)習(xí)區(qū)分性能更好的共享語(yǔ)義子空間; 其次,提出一種高效的計(jì)算復(fù)雜度為O(N)的優(yōu)化算法,使算法具有良好的可擴(kuò)展性; 最后,在兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了該算法的有效性。
(3) 當(dāng)圖文數(shù)據(jù)有標(biāo)簽時(shí),針對(duì)大部分算法只利用基于標(biāo)簽信息的樣本間相似性學(xué)習(xí)哈希函數(shù),忽視了樣本間相似的多樣性,本書(shū)提出一種基于CoarsetoFine語(yǔ)義的監(jiān)督跨媒體哈希算法。首先,利用標(biāo)簽信息和樣本的底層特征構(gòu)造細(xì)粒度相似矩陣; 其次,利用細(xì)粒度相似矩陣學(xué)習(xí)區(qū)分性更好的哈希函數(shù); 最后,在兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與參考算法比較,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
(4) 針對(duì)不同模態(tài)與高層語(yǔ)義存在語(yǔ)義鴻溝不平衡的問(wèn)題,本書(shū)提出一種基于語(yǔ)義對(duì)齊的離散監(jiān)督跨媒體哈希算法。首先,利用協(xié)同濾波直接建立標(biāo)簽與哈希碼的聯(lián)系,以減少計(jì)算量和內(nèi)存開(kāi)銷(xiāo); 其次,利用圖像的屬性對(duì)齊圖文模態(tài)的語(yǔ)義信息,學(xué)習(xí)性能更好的哈希函數(shù); 最后,提出一種離散優(yōu)化算法,直接得到問(wèn)題的離散解。在兩個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明該算法的性能優(yōu)于對(duì)比算法。
(5) 對(duì)于異構(gòu)數(shù)據(jù)點(diǎn),跨模態(tài)哈希算法旨在學(xué)習(xí)共享漢明空間,其模式是來(lái)自一種模態(tài)的查詢(xún)可以檢索另一種模態(tài)的相關(guān)項(xiàng)。盡管跨模態(tài)哈希算法取得了重大進(jìn)展,但仍存在一些問(wèn)題需要進(jìn)一步解決。首先,為了利用哈希碼中的語(yǔ)義信息,大多數(shù)人直接從類(lèi)標(biāo)簽構(gòu)造的相似度矩陣中學(xué)習(xí)哈希碼,忽略了類(lèi)標(biāo)簽在現(xiàn)實(shí)世界中可能包含噪聲的事實(shí)。其次,大多數(shù)人忽略了哈希碼的離散約束性,這可能會(huì)引入較大的量化誤差而導(dǎo)致性能不佳。為了解決上述問(wèn)題,提出了一種離散魯棒監(jiān)督哈希(discrete robust supervised hashing,DRSH)算法。具體來(lái)說(shuō),首先融合來(lái)自不同模態(tài)的類(lèi)標(biāo)簽和特征,通過(guò)低秩約束學(xué)習(xí)魯棒的相似性矩陣,該矩陣可以揭示其結(jié)構(gòu)并捕獲其中的噪聲; 其次,通過(guò)在共享漢明空間中保留基于魯棒相似度矩陣的相似度生成哈希碼; 最后,由于哈希碼的離散約束,優(yōu)化具有挑戰(zhàn)性,提出了一種離散優(yōu)化算法來(lái)解決這個(gè)問(wèn)題。在三個(gè)真實(shí)數(shù)據(jù)集上評(píng)估DRSH算法,結(jié)果證明了DRSH相對(duì)于幾種現(xiàn)有哈希算法的優(yōu)越性。
(6) 盡管監(jiān)督跨模態(tài)哈希算法依賴(lài)成對(duì)相似性矩陣來(lái)指導(dǎo)哈希碼的學(xué)習(xí)過(guò)程,取得了良好的性能,但也存在以下一些問(wèn)題。第一,成對(duì)相似性矩陣通常導(dǎo)致高時(shí)間復(fù)雜度和內(nèi)存成本,使得它們無(wú)法適應(yīng)大規(guī)模數(shù)據(jù)集。第二,成對(duì)相似性矩陣可能導(dǎo)致語(yǔ)義信息的丟失,因而缺乏具有區(qū)分性的哈希碼。第三,大多數(shù)方法在優(yōu)化過(guò)程中放松了哈希碼的離散約束,這通常導(dǎo)致積累了較大的量化誤差,從而產(chǎn)生劣質(zhì)的哈希碼。第四,大多數(shù)離散哈希算法是逐位學(xué)習(xí)哈希碼, 在訓(xùn)練階段產(chǎn)生了時(shí)間成本。為了解決上述問(wèn)題,本書(shū)提出了一種名為快速離散跨模態(tài)哈希的算法。具體而言, 它首先利用類(lèi)別標(biāo)簽和成對(duì)相似性矩陣來(lái)學(xué)習(xí)一個(gè)共享的漢明空間,從而更好地保持語(yǔ)義一致性。其次,提出了一個(gè)非對(duì)稱(chēng)哈希碼學(xué)習(xí)模型,以避免具有挑戰(zhàn)性的對(duì)稱(chēng)矩陣分解問(wèn)題。最后,設(shè)計(jì)了一種有效且高效的離散優(yōu)化方案,可以直接生成離散哈希碼,并將由成對(duì)相似性矩陣引起的計(jì)算復(fù)雜度和內(nèi)存成本從O(n2)降到O(n),其中n表示訓(xùn)練集的大小。在三個(gè)公開(kāi)的數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)突出了FDCH相對(duì)于幾種跨模態(tài)哈希算法的優(yōu)越性,并證明了其有效性和高效性。
(7) 大多數(shù)現(xiàn)有的跨媒體哈希算法以基于批處理的模式學(xué)習(xí)哈希函數(shù)。然而,在實(shí)際應(yīng)用中,數(shù)據(jù)點(diǎn)往往以流的方式出現(xiàn),這使得基于批量的哈希算法失去了效率。因此,本書(shū)利用在線潛在語(yǔ)義哈希算法來(lái)解決這個(gè)問(wèn)題。它僅利用新到達(dá)的多媒體數(shù)據(jù)點(diǎn)來(lái)有效地重新訓(xùn)練哈希函數(shù),同時(shí)保留舊數(shù)據(jù)點(diǎn)中的語(yǔ)義相關(guān)性。具體來(lái)說(shuō),為了學(xué)習(xí)判別性哈希碼,使離散標(biāo)簽被映射到連續(xù)的潛在語(yǔ)義空間,在該空間中可以更準(zhǔn)確地測(cè)量數(shù)據(jù)點(diǎn)中的相對(duì)語(yǔ)義距離。針對(duì)在流數(shù)據(jù)點(diǎn)上有效學(xué)習(xí)哈希函數(shù)的挑戰(zhàn)性任務(wù)提出了一種在線優(yōu)化方案,并且計(jì)算復(fù)雜度和內(nèi)存成本遠(yuǎn)小于每輪訓(xùn)練數(shù)據(jù)集的大小。在許多現(xiàn)實(shí)世界的數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),充分體現(xiàn)了所提出方法的有效性和效率。
(8) 近年來(lái),在基于譜圖的哈希場(chǎng)景中,已經(jīng)取得了一些成就,包括單模態(tài)哈希算法和跨媒體哈希算法。但仍然有一些問(wèn)題需要進(jìn)一步研究,包括: ①圖嵌入的一個(gè)顯著缺點(diǎn)是由圖拉普拉斯矩陣引起的昂貴的內(nèi)存和計(jì)算成本; ②大多數(shù)先驅(qū)工作在訓(xùn)練過(guò)程中未能充分利用可用的類(lèi)標(biāo)簽,這通常導(dǎo)致它們的檢索性能不盡如人意。為了克服這些缺點(diǎn),提出了高效監(jiān)督圖嵌入哈希算法,它可以同時(shí)高效地學(xué)習(xí)哈希函數(shù)和離散二進(jìn)制碼。具體而言就是: ESGEH利用基于類(lèi)標(biāo)簽的語(yǔ)義嵌入和圖嵌入來(lái)生成共享的語(yǔ)義子空間,并且還將類(lèi)標(biāo)簽納入其中,以最小化量化誤差,以更好地逼近生成的二進(jìn)制碼。為了減少計(jì)算資源,提出了一種中間項(xiàng)分解方法,避免了顯式計(jì)算圖拉普拉斯矩陣。最后,推導(dǎo)出了一個(gè)迭代的離散優(yōu)化算法來(lái)解決上述問(wèn)題,每個(gè)子問(wèn)題都可以得到一個(gè)閉式解。在4個(gè)公共數(shù)據(jù)集進(jìn)行的大量實(shí)驗(yàn)結(jié)果表明,所提出的方法在準(zhǔn)確性和效率方面優(yōu)于現(xiàn)有的幾種跨媒體哈希算法。
姚濤
2025年1月
第1章緒論
1.1研究背景與意義
1.2國(guó)內(nèi)外相關(guān)工作研究進(jìn)展
1.2.1基于樹(shù)的索引方法
1.2.2哈希算法
1.3基于哈希的跨媒體檢索存在的關(guān)鍵問(wèn)題
1.4跨媒體檢索常用數(shù)據(jù)集與檢索性能評(píng)價(jià)標(biāo)準(zhǔn)
1.4.1跨媒體檢索常用數(shù)據(jù)集
1.4.2跨媒體檢索常用評(píng)價(jià)標(biāo)準(zhǔn)
1.5本書(shū)安排
第2章相關(guān)工作
2.1字典學(xué)習(xí)
2.1.1綜合字典學(xué)習(xí)
2.1.2分析字典學(xué)習(xí)
2.1.3映射字典學(xué)習(xí)
2.2協(xié)同非負(fù)矩陣分解
2.3細(xì)粒度語(yǔ)義
2.4語(yǔ)義屬性
2.5本章小結(jié)
第3章基于映射字典學(xué)習(xí)的跨媒體哈希檢索
3.1引言
3.2基于映射字典學(xué)習(xí)的跨媒體哈希檢索算法
3.2.1符號(hào)說(shuō)明與問(wèn)題定義
3.2.2優(yōu)化算法
3.2.3正交旋轉(zhuǎn)矩陣
3.2.4算法的復(fù)雜度分析
3.3實(shí)驗(yàn)結(jié)果及分析
3.3.1實(shí)驗(yàn)設(shè)置
3.3.2在WiKi數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
3.3.3在NUSWIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
3.4本章小結(jié)
第4章基于語(yǔ)義一致性的跨媒體哈希檢索
4.1引言
4.2基于語(yǔ)義一致性的跨媒體哈希檢索算法
4.2.1符號(hào)說(shuō)明與問(wèn)題定義
4.2.2優(yōu)化算法
4.2.3算法的復(fù)雜度分析
4.3實(shí)驗(yàn)結(jié)果及分析
4.3.1實(shí)驗(yàn)設(shè)置
4.3.2在WiKi數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
4.3.3在NUSWIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
4.4本章小結(jié)
第5章基于CoarsetoFine語(yǔ)義的跨媒體監(jiān)督哈希檢索
5.1引言
5.2基于CoarsetoFine語(yǔ)義的監(jiān)督哈希檢索算法
5.2.1符號(hào)說(shuō)明與問(wèn)題定義
5.2.2優(yōu)化算法
5.2.3正交旋轉(zhuǎn)矩陣
5.2.4復(fù)雜度分析
5.3實(shí)驗(yàn)結(jié)果及分析
5.3.1實(shí)驗(yàn)設(shè)置
5.3.2在WiKi數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
5.3.3在NUSWIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
5.4本章小結(jié)
第6章基于語(yǔ)義對(duì)齊的跨媒體哈希檢索
6.1引言
6.2基于語(yǔ)義對(duì)齊的跨媒體哈希檢索算法
6.2.1符號(hào)說(shuō)明與問(wèn)題定義
6.2.2優(yōu)化算法
6.2.3復(fù)雜度分析
6.3實(shí)驗(yàn)結(jié)果及分析
6.3.1實(shí)驗(yàn)設(shè)置
6.3.2在WiKi數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
6.3.3在NUSWIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
6.4本章小結(jié)
第7章用于跨模態(tài)檢索的離散魯棒監(jiān)督哈希算法
7.1引言
7.2離散魯棒監(jiān)督哈希算法
7.2.1符號(hào)說(shuō)明與問(wèn)題定義
7.2.2公式
7.2.3優(yōu)化算法
7.3實(shí)驗(yàn)結(jié)果及分析
7.3.1實(shí)驗(yàn)數(shù)據(jù)集
7.3.2基準(zhǔn)算法和實(shí)施細(xì)節(jié)
7.3.3實(shí)驗(yàn)結(jié)果及分析
7.4本章小結(jié)
第8章具有語(yǔ)義一致性的快速離散跨模態(tài)哈希算法
8.1引言
8.2快速離散跨模態(tài)哈希
8.2.1符號(hào)說(shuō)明與問(wèn)題定義
8.2.2優(yōu)化算法
8.2.3復(fù)雜度分析
8.3實(shí)驗(yàn)結(jié)果及分析
8.3.1實(shí)驗(yàn)數(shù)據(jù)集
8.3.2基準(zhǔn)算法和實(shí)施細(xì)節(jié)
8.3.3實(shí)驗(yàn)結(jié)果及分析
8.4本章小結(jié)
第9章用于跨媒體檢索的在線潛在語(yǔ)義哈希算法
9.1引言
9.2有監(jiān)督的在線跨媒體哈希
9.2.1符號(hào)說(shuō)明與問(wèn)題定義
9.2.2公式
9.2.3優(yōu)化算法
9.3實(shí)驗(yàn)結(jié)果及分析
9.3.1實(shí)驗(yàn)數(shù)據(jù)集
9.3.2基準(zhǔn)算法和實(shí)施細(xì)節(jié)
9.3.3實(shí)驗(yàn)結(jié)果及分析
9.4本章小結(jié)
第10章用于大規(guī)?缑襟w檢索的高效監(jiān)督圖嵌入哈希算法
10.1引言
10.2高效監(jiān)督圖嵌入哈希算法
10.2.1符號(hào)說(shuō)明與問(wèn)題定義
10.2.2公式
10.2.3優(yōu)化算法
10.2.4復(fù)雜度分析
10.3實(shí)驗(yàn)結(jié)果及分析
10.3.1實(shí)驗(yàn)數(shù)據(jù)集
10.3.2基準(zhǔn)算法和實(shí)施細(xì)節(jié)
10.3.3實(shí)驗(yàn)結(jié)果及分析
10.4本章小結(jié)
參考文獻(xiàn)