摘 要:現(xiàn)有的場(chǎng)景識(shí)別方法準(zhǔn)確率低,適應(yīng)能力不強(qiáng).為此,將自主發(fā)育神經(jīng)網(wǎng)絡(luò)應(yīng)用于機(jī)器人場(chǎng)景識(shí)別任務(wù),提出了 2 種將自主發(fā)育網(wǎng)絡(luò)與多傳感器融合技術(shù)相結(jié)合的場(chǎng)景識(shí)別方法,即基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法,以及基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法,分別在決策層以及數(shù)據(jù)層對(duì)多傳感器信息進(jìn)行融合,提高了場(chǎng)景識(shí)別的準(zhǔn)確度,而自主發(fā)育網(wǎng)絡(luò)則提升了識(shí)別方法針對(duì)各種復(fù)雜場(chǎng)景的適應(yīng)能力.對(duì)于所提出的場(chǎng)景識(shí)別方法進(jìn)行了實(shí)驗(yàn)測(cè)試與分析,證實(shí)了其有效性及實(shí)用性.此外,由于在同一網(wǎng)絡(luò)架構(gòu)下進(jìn)行數(shù)據(jù)融合可更高效地利用數(shù)據(jù),因此這種方法在場(chǎng)景識(shí)別的準(zhǔn)確度方面具有更為優(yōu)越的性能.

本文源自余慧瑾;方勇純;韋知辛;, 機(jī)器人 發(fā)表時(shí)間:2021-04-26 09:29《機(jī)器人》是經(jīng)中華人民共和國(guó)新聞出版總署批準(zhǔn),由中國(guó)科學(xué)院主管,中國(guó)科學(xué)院沈陽自動(dòng)化研究所、中國(guó)自動(dòng)化學(xué)會(huì)共同主辦的科技類核心期刊,主要報(bào)道中國(guó)在機(jī)器人學(xué)及相關(guān)領(lǐng)域具有創(chuàng)新性的、高水平的、有重要意義的學(xué)術(shù)進(jìn)展及研究成果,由中國(guó)科學(xué)出版社出版。
關(guān)鍵詞:自主發(fā)育神經(jīng)網(wǎng)絡(luò);多傳感器融合;場(chǎng)景識(shí)別
1 引言(Introduction)
多傳感器數(shù)據(jù)融合[1] 是一個(gè)新興的研究領(lǐng)域,是在一個(gè)系統(tǒng)中使用多種傳感器進(jìn)行數(shù)據(jù)處理,將多個(gè)同質(zhì)或異質(zhì)傳感器獲得的互補(bǔ)信息或冗余信息進(jìn)行有機(jī)結(jié)合,以得到滿意的檢測(cè)結(jié)果[2].Zhang 等[3] 針對(duì) 3 種基于稀疏表示的圖像融合方法進(jìn)行了分析對(duì)比總結(jié).Wan 等[4] 通過融合自主駕駛汽車的 GNSS(全球?qū)Ш叫l(wèi)星系統(tǒng))、LiDAR(激光雷達(dá))和 IMU(慣性測(cè)量單元)等傳感器,在不同的城市場(chǎng)景中實(shí)現(xiàn)了厘米級(jí)的定位精度.Rakotovao 等[5] 提出了一種只使用整數(shù)來表示概率的基于占用網(wǎng)格的多傳感器融合算法,以提升融合效率.Liang 等[6] 提出了一個(gè)多任務(wù)多傳感器檢測(cè)模型,通過融合 LiDAR 以及視覺傳感器,實(shí)現(xiàn)了 3D 物體的識(shí)別檢測(cè).
場(chǎng)景識(shí)別是機(jī)器人在復(fù)雜動(dòng)態(tài)環(huán)境下進(jìn)行作業(yè)的基本要求,得到了機(jī)器人領(lǐng)域?qū)<业膹V泛關(guān)注.要實(shí)現(xiàn)對(duì)場(chǎng)景的可靠識(shí)別,關(guān)鍵在于采用合適的傳感方式獲得區(qū)分度較高的場(chǎng)景信息.因此,近年來,國(guó)內(nèi)外許多學(xué)者將多傳感器融合方法應(yīng)用到場(chǎng)景識(shí)別及定位應(yīng)用中,并取得了一定的進(jìn)展.例如,Liu 等 [7] 提出一種基于場(chǎng)景約束的室內(nèi)場(chǎng)景定位方法,通過融合手機(jī)攝像頭、WiFi 和慣性傳感器實(shí)現(xiàn)室內(nèi)場(chǎng)景識(shí)別.Zhu 等[8] 提出了一種新的鑒別特征融合框架,用于 RGB-D 場(chǎng)景識(shí)別.Bijelic 等[9] 提出了一種脫離建議級(jí)融合的深度多模態(tài)融合網(wǎng)絡(luò),以解決在不利天氣場(chǎng)景中的目標(biāo)檢測(cè)問題.值得指出的是,盡管這些方法得到了一定程度的應(yīng)用,但是它們通常需要利用先驗(yàn)知識(shí),當(dāng)應(yīng)用于復(fù)雜動(dòng)態(tài)環(huán)境時(shí),場(chǎng)景識(shí)別的可靠性與魯棒性難以完全滿足要求.
隨著機(jī)器人技術(shù)的飛速發(fā)展,如何使機(jī)器人具有類人的認(rèn)知能力,使其能夠在各種復(fù)雜場(chǎng)景中自主作業(yè),逐漸成為機(jī)器人領(lǐng)域的研究熱點(diǎn).其中,Weng 等[10-11] 首先提出了一種基于自主發(fā)育網(wǎng)絡(luò)的機(jī)器人認(rèn)知方法,他們認(rèn)為機(jī)器人可以模仿人類的學(xué)習(xí)方式,并通過記憶新知識(shí)不斷發(fā)育其智能體系.該思想得到了國(guó)內(nèi)外學(xué)者的認(rèn)可,并嘗試將其推廣應(yīng)用于完成實(shí)際任務(wù).例如,王東署等[12] 提出利用自主發(fā)育網(wǎng)絡(luò)完成人臉朝向識(shí)別任務(wù),Castro-Garcia 等[13] 訓(xùn)練自主發(fā)育網(wǎng)絡(luò)以識(shí)別英語和法語句子,而 Zheng 等[14] 將自主發(fā)育網(wǎng)絡(luò)用于室外導(dǎo)航任務(wù).近年來,錢夔等 [15] 嘗試應(yīng)用自主發(fā)育網(wǎng)絡(luò)來解決機(jī)器人的場(chǎng)景識(shí)別問題,在其啟發(fā)下,文 [16] 提出了一種基于改進(jìn)型自主發(fā)育網(wǎng)絡(luò)的場(chǎng)景識(shí)別方法,這種方法通過負(fù)向?qū)W習(xí)、加強(qiáng)型學(xué)習(xí)等步驟實(shí)現(xiàn)對(duì)場(chǎng)景的快速識(shí)別,并使識(shí)別方法具有一定的適應(yīng)能力.遺憾的是,以上方法仍然處于起步階段,亟待進(jìn)一步提升性能.
盡管自主發(fā)育網(wǎng)絡(luò)得到了機(jī)器人領(lǐng)域的極大關(guān)注,但目前對(duì)于自主發(fā)育網(wǎng)絡(luò)的研究?jī)H局限于利用單一傳感器進(jìn)行,由于單一傳感器在適應(yīng)性方面存在不足,當(dāng)將其應(yīng)用于場(chǎng)景識(shí)別任務(wù)時(shí),識(shí)別的準(zhǔn)確率難以滿足實(shí)際要求.另一方面,針對(duì)配備多種傳感器的機(jī)器人系統(tǒng),若應(yīng)用傳統(tǒng)的數(shù)據(jù)融合方法來處理場(chǎng)景識(shí)別任務(wù)又面臨可靠性低和適應(yīng)能力不強(qiáng)等問題.基于上述分析,本文為了提高識(shí)別的準(zhǔn)確率和方法的適應(yīng)能力,將自主發(fā)育神經(jīng)網(wǎng)絡(luò)引入機(jī)器人場(chǎng)景識(shí)別任務(wù),分別提出了基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法,以及基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法,這 2 種方法分別在決策層和數(shù)據(jù)層對(duì)視覺傳感器與激光傳感器數(shù)據(jù)進(jìn)行融合,通過自主發(fā)育神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了場(chǎng)景識(shí)別.實(shí)驗(yàn)結(jié)果表明,這 2 種方法都可以較為可靠地識(shí)別出不同場(chǎng)景,而基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)的場(chǎng)景識(shí)別方法準(zhǔn)確率更高,并且在時(shí)間復(fù)雜度方面也可滿足機(jī)器人實(shí)時(shí)作業(yè)的要求,因此具有更好的實(shí)際應(yīng)用前景.
2 基于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的多傳感器場(chǎng)景 識(shí) 別(Multi-sensor scene recognition based on autonomous developmental neural network)
2.1 場(chǎng)景識(shí)別問題描述與整體思路
當(dāng)機(jī)器人在陌生環(huán)境下時(shí),需要基于自身攜帶的傳感器來獲取環(huán)境中的關(guān)鍵信息,在此基礎(chǔ)上,快速準(zhǔn)確地識(shí)別出所處的環(huán)境,這就是機(jī)器人的場(chǎng)景識(shí)別問題.考慮到單一傳感器在各方面性能的不足,本文將基于 2 種常見的傳感數(shù)據(jù),即視覺信息和激光信息,以自主發(fā)育神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),設(shè)計(jì)相應(yīng)方法對(duì)兩者信息進(jìn)行融合來實(shí)現(xiàn)場(chǎng)景識(shí)別(如走廊、室內(nèi)、拐角等不同場(chǎng)景).
針對(duì)視覺傳感器采集到的 RGB 信息和激光測(cè)距傳感器得到的輪廓信息,擬分別在決策層和數(shù)據(jù)層進(jìn)行信息融合,在此基礎(chǔ)上,分別提出基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法和基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法,并最終進(jìn)行實(shí)驗(yàn)測(cè)試和對(duì)比分析.當(dāng)然,以上方法并不僅僅限于視覺和激光數(shù)據(jù),對(duì)于其他類型的傳感信息,可以采用同樣的方法進(jìn)行融合來實(shí)現(xiàn)場(chǎng)景識(shí)別.
基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法主要在決策層進(jìn)行數(shù)據(jù)融合,具體思路如下:機(jī)器人通過自身裝載的 Kinect 攝像頭和激光測(cè)距傳感器分別獲取視覺 RGB 信息和激光輪廓信息;進(jìn)而,利用自主發(fā)育神經(jīng)網(wǎng)絡(luò)對(duì) RGB 信息和激光輪廓信息分別進(jìn)行處理,獲得基于單一傳感器的場(chǎng)景識(shí)別結(jié)果.在此基礎(chǔ)上,將上述結(jié)果進(jìn)行加權(quán)貝葉斯處理,并將融合后的結(jié)果作為最終的場(chǎng)景識(shí)別結(jié)果,以有效彌補(bǔ)單一傳感器適應(yīng)性不強(qiáng)等缺陷.
上述決策級(jí)融合在數(shù)據(jù)層面會(huì)損失一些信息,為了更好地提高機(jī)器人場(chǎng)景識(shí)別的準(zhǔn)確率,考慮在數(shù)據(jù)層面進(jìn)行融合,以最大程度利用不同傳感器獲取的輸入信息,從而提出了基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法,這種方法的主要思路如下:通過一個(gè)自主發(fā)育神經(jīng)網(wǎng)絡(luò)架構(gòu)同時(shí)學(xué)習(xí) 2 種傳感器的數(shù)據(jù),在數(shù)據(jù)級(jí)的層面進(jìn)行融合.為此,將來自視覺和激光傳感器的信息輸入到同一個(gè)自主發(fā)育網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個(gè)神經(jīng)元將同時(shí)處理這 2 種傳感器信息,而整個(gè)自主發(fā)育神經(jīng)網(wǎng)絡(luò)的輸出即為場(chǎng)景識(shí)別結(jié)果.
2.2 自主發(fā)育神經(jīng)網(wǎng)絡(luò)
本文提出的 2 種場(chǎng)景識(shí)別方法其核心均為自主發(fā)育神經(jīng)網(wǎng)絡(luò).本節(jié)將簡(jiǎn)要描述這種網(wǎng)絡(luò).
自主發(fā)育網(wǎng)絡(luò)[15] 是一個(gè)三層全連接網(wǎng)絡(luò) {X, Y,Z},神經(jīng)元主要有 3 種連接方式,分別為自底向上連接、自頂向下連接以及同層神經(jīng)元的橫向連接.X 層為感知輸入層,Y 層為決策處理層,Z 層為效應(yīng)輸出層.X 層與外界環(huán)境直接接觸,接收來自傳感器的信息.Y 層模擬人類大腦對(duì)外部輸入信息進(jìn)行處理分析,并作為連接 X 層與 Z 層的橋梁將處理結(jié)果傳輸?shù)?Z 層.Z 層是各效應(yīng)器的集合,在指導(dǎo)學(xué)習(xí)階段將指導(dǎo)信息傳遞到 Y 層進(jìn)行計(jì)算;在測(cè)試階段,輸出系統(tǒng)對(duì)實(shí)際環(huán)境做出的決斷.
自主發(fā)育神經(jīng)網(wǎng)絡(luò)每層神經(jīng)元的權(quán)重更新都采用了 LCA(lobe component analysis)算法[17].每個(gè) Y 層的神經(jīng)元都有一對(duì)突觸權(quán)重 v = (vb,vt),分別用來接收來自 X 層的自底向上(bottom up)信息 b 以及來自 Z 層的自頂向下(top down)信息 t.網(wǎng)絡(luò)針對(duì)輸入,對(duì)每個(gè)神經(jīng)元 n 計(jì)算其預(yù)響應(yīng)值 Rn [15],具體公式如下:
從式 (1) 可以看出,預(yù)響應(yīng)值的 2 個(gè)部分實(shí)際上就是該神經(jīng)元的權(quán)重向量和輸入向量之間的夾角余弦值,即神經(jīng)元輸入信息與記憶信息之間的匹配程度的表征.
采用 top-k 競(jìng)爭(zhēng)機(jī)制,激活預(yù)響應(yīng)值最大的前 k 個(gè)神經(jīng)元,并通過更新優(yōu)勝神經(jīng)元的突觸權(quán)重向量,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練發(fā)育,具體更新過程 [14] 如下式所示:
其中,R 向量中每個(gè)元素對(duì)應(yīng)網(wǎng)絡(luò)中不同神經(jīng)元的預(yù)響應(yīng)值.w1 (gj) 和 w2 (gj) 由遺忘平均算法(amnesic mean)獲取.gj 為被激活的優(yōu)勝神經(jīng)元年齡.通過不斷更新網(wǎng)絡(luò)神經(jīng)元間的突觸連接權(quán)重,完成網(wǎng)絡(luò)訓(xùn)練.
3 基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法(Robot scene recognition method based on weighted Bayesian fusion)
考慮到單一傳感器的局限性,本文結(jié)合視覺傳感器及激光傳感器,對(duì)兩者采集到的數(shù)據(jù)進(jìn)行融合,從而提升機(jī)器人場(chǎng)景識(shí)別作業(yè)的準(zhǔn)確性.為此,本節(jié)提出一種基于加權(quán)貝葉斯融合的機(jī)器人場(chǎng)景識(shí)別方法,這種方法采用決策級(jí)融合方式,其具體結(jié)構(gòu)如圖 1 所示:對(duì)于每個(gè)傳感器 j = 1,2,··· ,m,首先各傳感器獲取相關(guān)數(shù)據(jù) Xj,系統(tǒng)基于各傳感器數(shù)據(jù)實(shí)現(xiàn)分布式?jīng)Q策 Zj,即利用各傳感器數(shù)據(jù)通過自主發(fā)育網(wǎng)絡(luò)(DN)分別進(jìn)行場(chǎng)景識(shí)別,并將所有識(shí)別結(jié)果送到全局決策融合中心,在融合中心通過貝葉斯方法計(jì)算得到最終的識(shí)別結(jié)果.
具體來說,當(dāng)移動(dòng)機(jī)器人在未知環(huán)境下運(yùn)動(dòng)時(shí),由其自身攜帶的視覺傳感器和激光傳感器同時(shí)采集環(huán)境信息,記錄機(jī)器人在每個(gè)時(shí)刻獲取的 RGB 圖像及激光輪廓數(shù)據(jù),并將其分別作為輸入樣本輸入到各自對(duì)應(yīng)的自主發(fā)育神經(jīng)網(wǎng)絡(luò),經(jīng)過計(jì)算進(jìn)而得到場(chǎng)景識(shí)別結(jié)果。
對(duì)于激光輪廓數(shù)據(jù)來說,首先對(duì)其進(jìn)行二值化處理,再將其轉(zhuǎn)換為環(huán)投影直方圖(ring-projection histogram)的形式.將圖像分割為若干等間距的同心圓,用每個(gè)同心圓中的累計(jì)像素值表示激光數(shù)據(jù)的二值化圖形輪廓圖即為環(huán)投影直方圖.環(huán)投影直方圖的橫軸對(duì)應(yīng)的是激光輪廓圖中半徑的大小,縱軸即為相應(yīng)同心圓與整個(gè)輪廓面積的比值.因此,環(huán)投影直方圖中的數(shù)據(jù)取值范圍為 0~1.由于環(huán)投影是沿著圓環(huán)進(jìn)行的,因此具有旋轉(zhuǎn)不變性和收縮不變性,可以較好地容忍實(shí)驗(yàn)中因機(jī)器人旋轉(zhuǎn)而引起的角度變化.激光數(shù)據(jù)處理流程如圖 2 所示.
加權(quán)貝葉斯融合方法的具體結(jié)構(gòu)如圖 3 所示:首先將圖像和激光數(shù)據(jù)分別輸入各自的自主發(fā)育神經(jīng)網(wǎng)絡(luò),選取預(yù)響應(yīng)值最大的前 k 個(gè)神經(jīng)元激活并為其分配不同的加權(quán)因子:視覺傳感器對(duì)應(yīng)的網(wǎng)絡(luò)加權(quán)因子為 a1,a2,··· ,ak,激光傳感器對(duì)應(yīng)的網(wǎng)絡(luò)加權(quán)因子為 b1,b2,··· ,bk.將 k 個(gè)神經(jīng)元對(duì)應(yīng)的效應(yīng)器按不同權(quán)重根據(jù)對(duì)應(yīng)場(chǎng)景分別進(jìn)行累加,得到單傳感器的決策結(jié)果 Zp 和 Zl.在此基礎(chǔ)上,通過貝葉斯公式對(duì)由單傳感器得到的識(shí)別結(jié)果進(jìn)行加權(quán)融合,將得到的最大值對(duì)應(yīng)的場(chǎng)景作為最終的識(shí)別結(jié)果.
3.1 預(yù)響應(yīng)值的加權(quán)處理
由前文可知,自主發(fā)育神經(jīng)網(wǎng)絡(luò)算法會(huì)根據(jù)系統(tǒng)輸入信息計(jì)算預(yù)響應(yīng)向量,選取預(yù)響應(yīng)值最大的神經(jīng)元作為優(yōu)勝神經(jīng)元.激活優(yōu)勝神經(jīng)元,并根據(jù)它 Z 層自底向上的突觸權(quán)重向量確定與其最大值對(duì)應(yīng)的識(shí)別結(jié)果.
為了進(jìn)一步提高識(shí)別結(jié)果的可靠性,考慮預(yù)響應(yīng)值較大的前 k 個(gè)神經(jīng)元.設(shè)這 k 個(gè)神經(jīng)元經(jīng)過預(yù)響應(yīng)向量計(jì)算后得到的值為 r1,r2,··· ,rk,對(duì)應(yīng)每個(gè)神經(jīng)元的加權(quán)因子為 w1,w2,··· ,wk.將不同神經(jīng)元的預(yù)響應(yīng)值進(jìn)行加權(quán)比例分配,并根據(jù)對(duì)應(yīng)場(chǎng)景進(jìn)行累加,融合后會(huì)得到一個(gè) n × 1 的效應(yīng)器突觸權(quán)重向量 P,其中向量 P 的每個(gè)元素對(duì)應(yīng)一種場(chǎng)景類別.具體計(jì)算公式如下:
其中,V zb i 代表第 i 個(gè)神經(jīng)元對(duì)應(yīng)的 Z 層自底向上突觸權(quán)重向量.權(quán)重W 的各元素應(yīng)滿足以下約束:
將視覺傳感器和激光傳感器獲取的信息分別輸入對(duì)應(yīng)的自主發(fā)育神經(jīng)網(wǎng)絡(luò),經(jīng)過上述處理就可以得到對(duì)應(yīng)的識(shí)別結(jié)果 Pp = (pi j)n×1 和 Pl = (li j)n×1.
3.2 決策結(jié)果的貝葉斯融合
為了消除利用單個(gè)傳感器進(jìn)行數(shù)據(jù)獲取以及分析識(shí)別的局限性,將多個(gè)傳感器識(shí)別結(jié)果進(jìn)行融合,以進(jìn)一步提高場(chǎng)景識(shí)別的準(zhǔn)確率.因此,針對(duì)計(jì)算獲得的 Pp 和 Pl,采用貝葉斯估計(jì)算法進(jìn)行融合.
使用 P(A|ZA) 表示移動(dòng)機(jī)器人當(dāng)前所處位置屬于 A 場(chǎng)景,且系統(tǒng)的場(chǎng)景識(shí)別結(jié)果 ZA 對(duì)應(yīng)的也是 A 場(chǎng)景.同理,P(A|ZB) 即為移動(dòng)機(jī)器人處于 A 場(chǎng)景但是系統(tǒng)識(shí)別出機(jī)器人所處場(chǎng)景為 B.以此類推.
基于加權(quán)貝葉斯的多傳感器融合方法涉及到視覺傳感器以及激光傳感器二者的融合,因此以 P(A|ZA) 為例,其應(yīng)為 2 個(gè)傳感器數(shù)據(jù)識(shí)別結(jié)果的乘積,故具體計(jì)算公式如下:
其中,Pp(A|ZA) 對(duì)應(yīng)于 Pp 第 1 個(gè)元素的值,Pp(A|ZB) 對(duì)應(yīng)于 Pp 第 2 個(gè)元素的值,其余同理.
實(shí)驗(yàn)主要用于區(qū)分室內(nèi)、走廊、拐角 3 類場(chǎng)景,用 A、B、C 分別代表 3 類場(chǎng)景.關(guān)于每個(gè)場(chǎng)景識(shí)別正確的可靠度,可利用式 (6) 進(jìn)行計(jì)算(這里僅以室內(nèi)場(chǎng)景舉例進(jìn)行說明,其他場(chǎng)景類似):
其中 ZA、ZB、ZC 分別代表系統(tǒng)測(cè)試識(shí)別結(jié)果為室內(nèi)、走廊、拐角場(chǎng)景事件,A 代表測(cè)試樣本對(duì)應(yīng)的真實(shí)類別為室內(nèi)場(chǎng)景.默認(rèn)情況下,公式中的 P(ZA) = P(ZB) = P(ZC) = 1/3.但考慮到移動(dòng)機(jī)器人的實(shí)際作業(yè)情況,通過綜合分析前后多幀樣本圖像來識(shí)別場(chǎng)景類別,以處理各類偶然性因素的影響,提高識(shí)別結(jié)果的穩(wěn)定可靠性.因此,根據(jù)前一時(shí)刻的場(chǎng)景識(shí)別結(jié)果,適當(dāng)增加當(dāng)前時(shí)刻公式中對(duì)應(yīng)場(chǎng)景概率的值.
通過計(jì)算分別得到 P(A|ZA)、P(A|ZB)、P(A|ZC) 以及 P(A|ZD),其中 D 作為背景場(chǎng)景,代表沒有進(jìn)行過學(xué)習(xí)記憶的初生神經(jīng)元對(duì)應(yīng)場(chǎng)景.選取四者中的最大值對(duì)應(yīng)的場(chǎng)景類別即為該測(cè)試樣本的識(shí)別結(jié)果.
4 基 于 同 一 自 主 發(fā) 育 網(wǎng) 絡(luò) 架 構(gòu) 數(shù) 據(jù) 融合的場(chǎng)景識(shí)別方法(Scene recognition method based on data fusion of the same autonomous developmental network architecture)
上文提到的方法是基于決策進(jìn)行融合,這樣做的好處是可以并行計(jì)算,在一定程度上節(jié)省時(shí)間;但是,這種處理方式會(huì)損失部分?jǐn)?shù)據(jù)信息,從而影響場(chǎng)景識(shí)別的準(zhǔn)確度.為了更充分地利用數(shù)據(jù),提出了基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)的多傳感器融合方法,其具體結(jié)構(gòu)示意圖如圖 4 所示:該網(wǎng)絡(luò)架構(gòu)的 X 層將同時(shí)接收并處理視覺傳感器采集的 RGB 圖像數(shù)據(jù)以及激光測(cè)距傳感器采集的激光輪廓信息.通過自主發(fā)育神經(jīng)網(wǎng)絡(luò)算法針對(duì) X 層的輸入信息進(jìn)行計(jì)算,得到該系統(tǒng)最終的場(chǎng)景識(shí)別結(jié)果.
4.1 預(yù)響應(yīng)值的計(jì)算
進(jìn)行多傳感融合的自主發(fā)育神經(jīng)網(wǎng)絡(luò) X 層接收到的信息主要分為 2 個(gè)部分:一部分為視覺傳感器采集到的 RGB 圖像信息,經(jīng)過預(yù)處理成為固定大小的圖像,以 2 維矩陣 Xp 描述,其元素采用取值為 0~1 的像素值進(jìn)行表征;另一部分為激光傳感器采集得到的激光輪廓信息,用環(huán)投影方法進(jìn)行預(yù)處理后用直方圖 Xl 表示.
對(duì)于多傳感器數(shù)據(jù)融合網(wǎng)絡(luò)架構(gòu)來說,每個(gè) Y 層神經(jīng)元預(yù)響應(yīng)值的計(jì)算主要分為 2 個(gè)部分:來自 X 層的響應(yīng)以及來自 Z 層的響應(yīng).來自 X 層的響應(yīng)部分又分為來自圖像信息以及來自激光數(shù)據(jù)信息 2 個(gè)部分,具體計(jì)算方法如下:
其中,Ry x 表示 Y 層神經(jīng)元預(yù)響應(yīng)向量計(jì)算過程中來自 X 層輸入部分的影響;V b p 表示 Y 層神經(jīng)元的自底向上權(quán)重向量,用于學(xué)習(xí)視覺傳感器采集的圖像信息部分;V b l 表示 Y 層神經(jīng)元的自底向上權(quán)重向量,用于學(xué)習(xí)激光傳感器采集的輪廓信息部分.式 (7) 中,權(quán)重因子 α(0 6 α 6 1)為輸入到網(wǎng)絡(luò)中的視覺和激光信息各自占據(jù)的比重大小,也就是神經(jīng)元記憶的偏重點(diǎn).通常情況下,可以選擇 α = 0.5,即認(rèn)為對(duì)于機(jī)器人所處的某一點(diǎn)來說,該點(diǎn)的視覺信息和激光信息對(duì)于 Y 層神經(jīng)元預(yù)響應(yīng)向量計(jì)算的影響力度相同.由于各類傳感器有其不同的特點(diǎn)和適應(yīng)能力,因此,在實(shí)際應(yīng)用中,需要綜合考慮場(chǎng)景和傳感器的特點(diǎn)來選擇合適的權(quán)重因子 α.
Y 層神經(jīng)元利用其自頂向下突觸權(quán)重部分去學(xué)習(xí) Z 層的輸入信息,其預(yù)響應(yīng)值中的 Z 層響應(yīng)部分 Ry z 的計(jì)算公式如下:
其中,V t 表示 Y 層神經(jīng)元的自頂向下突觸權(quán)重向量,z 表示來自人為指導(dǎo)的輸入向量.
因此,Y 層每個(gè)神經(jīng)元的預(yù)響應(yīng)值計(jì)算公式如下:
其中,權(quán)重因子 β(0 6 β 6 1)即為相對(duì)于自底向上突觸權(quán)重向量而言的自頂向下突觸權(quán)重向量最大權(quán)重比例系數(shù).當(dāng) β = 0.5 時(shí),說明對(duì)于該神經(jīng)元來說,自底向上突觸權(quán)重向量和自頂向下突觸權(quán)重向量的影響力度相同,即來自 X 層的外部信息輸入與來自 Z 層的學(xué)習(xí)指導(dǎo)輸入對(duì)于該神經(jīng)元的預(yù)響應(yīng)值計(jì)算的影響力度相同.
4.2 神經(jīng)元突觸權(quán)重的更新
Y 層優(yōu)勝神經(jīng)元的突觸權(quán)重更新,采用基于視覺神經(jīng)的赫布學(xué)習(xí)(Hebbian learning)算法 [18].
針對(duì)自主發(fā)育神經(jīng)網(wǎng)絡(luò)來說,來自外界環(huán)境的信息輸入不僅有視覺傳感器采集到的 RGB 圖像信息,還有激光測(cè)距傳感器采集到的激光輪廓信息.因此,網(wǎng)絡(luò)中 Y 層用來學(xué)習(xí) X 層輸入信息的自底向上權(quán)重也分為了 2 個(gè)部分:用來學(xué)習(xí)圖像信息的 V b p 和用來學(xué)習(xí)輪廓信息的 V b l.故而,在更新優(yōu)勝神經(jīng)元的突觸權(quán)重時(shí),也需要對(duì)兩部分分別進(jìn)行處理.這樣才能讓網(wǎng)絡(luò)同時(shí)學(xué)習(xí)移動(dòng)機(jī)器人在當(dāng)前位置由 2 種不同傳感器獲取的數(shù)據(jù)信息.修改后的自底向上權(quán)重具體更新公式如下:
更新公式中的 w1 (gj) 和 w2 (gj) 控制著神經(jīng)元的學(xué)習(xí)速率,兩者之和恒等于 1,其相對(duì)比例 w2 (gj)/w1 (gj) 反映了神經(jīng)元對(duì)于新知識(shí)的學(xué)習(xí)程度,比例越大,則對(duì)新知識(shí)的學(xué)習(xí)程度越大。
同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)算法的流程圖如圖 5 所示.先利用訓(xùn)練樣本結(jié)合人工的指導(dǎo)學(xué)習(xí)輸入對(duì)網(wǎng)絡(luò)突觸權(quán)重不斷進(jìn)行更新優(yōu)化,網(wǎng)絡(luò)訓(xùn)練過程結(jié)束后,利用訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行場(chǎng)景識(shí)別,驗(yàn)證系統(tǒng)對(duì)測(cè)試樣本的識(shí)別準(zhǔn)確率.
5 實(shí)驗(yàn)結(jié)果與分析(Experimental results and analysis)將本文提出的 2 種基于多傳感融合的自主發(fā)育網(wǎng)絡(luò)場(chǎng)景識(shí)別方法分別應(yīng)用于移動(dòng)機(jī)器人系統(tǒng),使其完成場(chǎng)景識(shí)別任務(wù).為了驗(yàn)證這 2 種方法的可行性,實(shí)驗(yàn)選取了室內(nèi)、拐角、走廊 3 類場(chǎng)景類別進(jìn)行識(shí)別.部分場(chǎng)景圖像如圖 6 所示.
實(shí)驗(yàn)采用 Pioneer 3-DX 移動(dòng)機(jī)器人,裝配了 360? 激光測(cè)距傳感器以及 Kinect 2.0 視覺傳感器,實(shí)驗(yàn)所用機(jī)器人實(shí)物圖如圖 7 所示.實(shí)驗(yàn)數(shù)據(jù)包括分辨率為 0.1 ? 的 360? 激光輪廓數(shù)據(jù)以及分辨率為 200×150 的 RGB 圖像數(shù)據(jù).
針對(duì)移動(dòng)機(jī)器人在不同位置獲取的不同信息,采集了 60 組視覺傳感器以及激光傳感器獲取的數(shù)據(jù)信息用于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,其中每種場(chǎng)景包含 20 組數(shù)據(jù).系統(tǒng)測(cè)試時(shí)采用 90 組數(shù)據(jù)進(jìn)行移動(dòng)機(jī)器人所處場(chǎng)景的識(shí)別判斷,每個(gè)場(chǎng)景包含 30 組數(shù)據(jù),其中 15 組為訓(xùn)練時(shí)采用的樣本數(shù)據(jù),其余 15 組為機(jī)器人事先沒有到達(dá)過的位置數(shù)據(jù)信息.利用上述采集到的數(shù)據(jù)對(duì) 4 種基于自主發(fā)育神經(jīng)網(wǎng)絡(luò)算法的場(chǎng)景識(shí)別系統(tǒng)進(jìn)行識(shí)別準(zhǔn)確率的測(cè)試,4 種系統(tǒng)分別是:?jiǎn)为?dú)利用視覺傳感器進(jìn)行場(chǎng)景識(shí)別的自主發(fā)育神經(jīng)網(wǎng)絡(luò)系統(tǒng)、單獨(dú)利用激光輪廓數(shù)據(jù)進(jìn)行場(chǎng)景識(shí)別的系統(tǒng)、利用加權(quán)貝葉斯算法進(jìn)行視覺及激光傳感器數(shù)據(jù)融合的場(chǎng)景識(shí)別系統(tǒng)以及利用同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)進(jìn)行數(shù)據(jù)融合的場(chǎng)景識(shí)別系統(tǒng).分場(chǎng)景的識(shí)別結(jié)果準(zhǔn)確率如表 1 所示.
由表 1 實(shí)驗(yàn)結(jié)果可以看出,利用多傳感器數(shù)據(jù)融合算法進(jìn)行輸入信息分析進(jìn)而進(jìn)行場(chǎng)景識(shí)別,相比使用單一傳感器進(jìn)行識(shí)別,每個(gè)場(chǎng)景的識(shí)別準(zhǔn)確率均得到了一定的提高;此外,對(duì)比本文提出的 2 種識(shí)別方法,基于同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法得到的結(jié)果更為準(zhǔn)確可靠.
針對(duì)本文所提的 2 種多傳感器融合方法,采用更多的測(cè)試樣本進(jìn)行場(chǎng)景識(shí)別判斷,其中包括機(jī)器人運(yùn)動(dòng)過程中連續(xù)采集的數(shù)據(jù)以及定點(diǎn)獲取的數(shù)據(jù).進(jìn)行測(cè)試的樣本數(shù)量共 760 組,其中包括訓(xùn)練使用的 45 組數(shù)據(jù),其余測(cè)試樣本均為新采集的,機(jī)器人事先沒有訓(xùn)練學(xué)習(xí)過的數(shù)據(jù).全場(chǎng)景的識(shí)別準(zhǔn)確率如表 2 所示.
由表 2 數(shù)據(jù)可以看出,基于同一網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法相比加權(quán)貝葉斯融合方法的識(shí)別效果更好,主要原因在于對(duì)于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的神經(jīng)元來說,每個(gè)神經(jīng)元均同時(shí)學(xué)習(xí)并記憶了來自同一位置的 2 種傳感器信息,對(duì)輸入數(shù)據(jù)信息的利用率更高,故而學(xué)習(xí)效果比單獨(dú)學(xué)習(xí)后進(jìn)行決策融合的效果更好.
此外,對(duì)于融合而言,實(shí)時(shí)性問題非常重要.針對(duì)本文方法的時(shí)間復(fù)雜度進(jìn)行分析如下:自主發(fā)育神經(jīng)網(wǎng)絡(luò)的測(cè)試過程中,時(shí)間開銷的重點(diǎn)在于 Y 層神經(jīng)元的預(yù)響應(yīng)向量的計(jì)算.因此利用視覺傳感器進(jìn)行場(chǎng)景識(shí)別的算法測(cè)試時(shí)的時(shí)間復(fù)雜度為 O(Np),這里的 Np 為視覺處理時(shí)網(wǎng)絡(luò) Y 層神經(jīng)元的個(gè)數(shù).對(duì)于利用激光傳感器進(jìn)行場(chǎng)景識(shí)別的算法而言,還要多一步對(duì)于激光數(shù)據(jù)的環(huán)投影處理,將激光數(shù)據(jù)轉(zhuǎn)化為環(huán)投影直方圖的形式.因此,測(cè)試時(shí)的時(shí)間復(fù)雜度為 O(L + Nl),這里的 L 為環(huán)投影處理時(shí)間,Nl 為激光處理時(shí)網(wǎng)絡(luò) Y 層神經(jīng)元的個(gè)數(shù).同理,加權(quán)貝葉斯融合算法的時(shí)間復(fù)雜度應(yīng)為 O(Np +L+Nl),同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)融合的時(shí)間復(fù)雜度應(yīng)為 O(L+Nmix),Nmix 為同一自主發(fā)育網(wǎng)絡(luò)架構(gòu)的網(wǎng)絡(luò) Y 層神經(jīng)元個(gè)數(shù).不同場(chǎng)景識(shí)別方法的時(shí)間復(fù)雜度如表 3 所示.
針對(duì)不同多傳感器融合方法,分別利用訓(xùn)練樣本以及非訓(xùn)練樣本進(jìn)行測(cè)試,并對(duì)其識(shí)別處理時(shí)間進(jìn)行比較,得到的結(jié)果如表 4 所示.
由表 4 可以看出,使用視覺傳感器和激光傳感器進(jìn)行數(shù)據(jù)融合進(jìn)而執(zhí)行場(chǎng)景識(shí)別任務(wù),在針對(duì)單個(gè)樣本進(jìn)行識(shí)別處理的時(shí)間復(fù)雜度上來說,相比原來僅使用單一傳感器進(jìn)行識(shí)別并沒有明顯的增加. 2 種多傳感器融合算法在測(cè)試階段針對(duì)每個(gè)樣本的識(shí)別處理時(shí)間平均在 0.16 s 左右,完全可以滿足移動(dòng)機(jī)器人場(chǎng)景識(shí)別任務(wù)的實(shí)時(shí)性要求.且由表 4 中數(shù)據(jù)可以看出,在采用訓(xùn)練樣本進(jìn)行場(chǎng)景識(shí)別時(shí),所需時(shí)間略少于采用非訓(xùn)練樣本時(shí).這也在一定程度上說明對(duì)于自主發(fā)育網(wǎng)絡(luò)算法來說,原有經(jīng)驗(yàn)對(duì)當(dāng)前判斷仍有幫助.
為了進(jìn)一步驗(yàn)證系統(tǒng)識(shí)別的實(shí)時(shí)性,選取了一段包括 3 個(gè)場(chǎng)景的區(qū)域進(jìn)行實(shí)驗(yàn),將基于同一網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法下發(fā)到移動(dòng)機(jī)器人上.考慮移動(dòng)機(jī)器人的運(yùn)行速度,設(shè)定每 2 s 抓取一次數(shù)據(jù)進(jìn)行場(chǎng)景識(shí)別,實(shí)時(shí)識(shí)別結(jié)果如圖 8 所示.黑色實(shí)線為利用基于同一網(wǎng)絡(luò)架構(gòu)數(shù)據(jù)融合的場(chǎng)景識(shí)別方法得到的識(shí)別結(jié)果,紅色虛線為機(jī)器人所處真實(shí)場(chǎng)景類別.實(shí)驗(yàn)結(jié)果顯示,融合算法基本可以滿足移動(dòng)機(jī)器人實(shí)時(shí)場(chǎng)景作業(yè)要求.
通過實(shí)驗(yàn)驗(yàn)證,證明了本文提出的 2 種識(shí)別方法的有效性及可行性,通過將多傳感器融合和自主發(fā)育網(wǎng)絡(luò)相結(jié)合進(jìn)一步提高了移動(dòng)機(jī)器人場(chǎng)景識(shí)別的準(zhǔn)確率.此外,由于基于同一自主發(fā)育神經(jīng)網(wǎng)絡(luò)架構(gòu)的融合方法同時(shí)學(xué)習(xí)了視覺傳感器以及激光傳感器獲取的數(shù)據(jù)信息,對(duì)于原始輸入數(shù)據(jù)的利用更加充分,其識(shí)別的準(zhǔn)確率相比基于決策的加權(quán)貝葉斯識(shí)別方法更高,但在時(shí)間消耗方面略高.
6 總結(jié)與展望(Summary and prospect)
本文將自主發(fā)育神經(jīng)網(wǎng)絡(luò)引入機(jī)器人場(chǎng)景識(shí)別任務(wù)中,利用視覺傳感器和激光傳感器共同獲取移動(dòng)機(jī)器人所處位置的周圍信息,結(jié)合多傳感器數(shù)據(jù)融合算法,在決策層和數(shù)據(jù)層分別對(duì)來自 2 個(gè)傳感器的數(shù)據(jù)信息進(jìn)行融合處理,最終將其成功應(yīng)用于移動(dòng)機(jī)器人場(chǎng)景識(shí)別任務(wù)中.
實(shí)驗(yàn)結(jié)果表明,本文提出的基于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的多傳感器融合算法,在移動(dòng)機(jī)器人場(chǎng)景識(shí)別任務(wù)中,識(shí)別準(zhǔn)確率均明顯高于使用單一傳感器進(jìn)行場(chǎng)景識(shí)別的算法,同時(shí)在時(shí)間復(fù)雜度上并沒有明顯提高;此外,基于同一自主發(fā)育神經(jīng)網(wǎng)絡(luò)架構(gòu)的多傳感器融合算法的識(shí)別效果更好,在處理耗時(shí)方面也滿足機(jī)器人實(shí)時(shí)作業(yè)要求,因此具有更好的實(shí)際應(yīng)用前景.
未來的研究工作主要是完善基于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的多傳感器數(shù)據(jù)融合算法,在此基礎(chǔ)上進(jìn)一步提高系統(tǒng)的識(shí)別準(zhǔn)確率.
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >