摘要:經(jīng)濟林作為重要森林資源,其種植面積及產(chǎn)品產(chǎn)量逐年增加。隨著科學技術的不斷創(chuàng)新與升級,經(jīng)濟林產(chǎn)品加工產(chǎn)業(yè)快速發(fā)展、衍伸產(chǎn)品日趨增多,急需智能化檢測、采收與分選技術與裝備。深度融合人工智能技術與經(jīng)濟林產(chǎn)品加工產(chǎn)業(yè),是實現(xiàn)高效化、精準化、智能化發(fā)展的重要手段之一。文中綜合比較了深度學習技術中不同卷積神經(jīng)網(wǎng)絡算法及模型的優(yōu)缺點,綜述了其在經(jīng)濟林產(chǎn)品檢測與分選中的研究進展,并針對研究應用過程中存在的問題提出了建議,以期為經(jīng)濟林產(chǎn)品檢測與分選的智能化發(fā)展提供參考。

本文源自張曉; 劉英; 李玉榮; 費葉琦, 世界林業(yè)研究 發(fā)表時間:2021-06-30
關鍵詞:卷積神經(jīng)網(wǎng)絡,經(jīng)濟林,目標檢測,產(chǎn)品分選,應用研究
經(jīng)濟林是森林資源的重要組成部分,根據(jù)聯(lián)合國糧農(nóng)組織發(fā)布的 2020 年《全球森林資源評估》報告,全球共有 40.6 億 hm2 森林,約 30%的森林用于木材和非木材林產(chǎn)品生產(chǎn),其中非木材林產(chǎn)品主要包括經(jīng)濟林果、木本糧油、森林藥材、林產(chǎn)飲料、森林食品等。2018 年我國各類經(jīng)濟林產(chǎn)品產(chǎn)量達到 1.57 億 t,總產(chǎn)值達到 7.33 萬億元。經(jīng)濟林產(chǎn)業(yè)具有資源豐富、產(chǎn)品種類多、應用范圍廣等特點[1-2]。隨著科學技術的不斷創(chuàng)新與升級,經(jīng)濟林產(chǎn)品加工產(chǎn)業(yè)快速發(fā)展、衍伸產(chǎn)品也日趨增多[3-4]。但目前我國在經(jīng)濟林產(chǎn)品資源利用上仍存在采收不及時、效率低下、產(chǎn)品分級不嚴格以及商品化處理落后等問題,因此對新技術、新裝備的需求極大。近年來,基于深度學習的人工智能技術不斷推陳出新,為經(jīng)濟林產(chǎn)品檢測、采收與分選技術及裝備研究提供了理論依據(jù),為產(chǎn)業(yè)的高效化、精準化、智能化發(fā)展提供了重要技術支撐。本文將簡述卷積神經(jīng)網(wǎng)絡的發(fā)展歷程,綜合比較不同卷積神經(jīng)網(wǎng)絡算法及模型的優(yōu)缺點,以及在經(jīng)濟林產(chǎn)品檢測與分選中的研究進展,并針對實際應用過程中存在的問題提出進一步的研究建議,以期基于深度學習技術的卷積神經(jīng)網(wǎng)絡在經(jīng)濟林產(chǎn)品檢測與分選領域中的應用發(fā)揮更重要的作用。
1 卷積神經(jīng)網(wǎng)絡發(fā)展歷程及特點
卷積神經(jīng)網(wǎng)絡(CNN)是深度監(jiān)督學習的代表算法之一,是一種帶有卷積結構的深度神經(jīng)網(wǎng)絡,結構形式為:輸入層--> 卷積層 --> 池化層 --> (重復卷積、池化層) … --> 全連接層--> 輸出結果,至少包括 5 個隱含層。其中卷積層(convolutional layer)用于提取特征;池化層(max pooling layer)用于下采樣(down sampling),卻不損壞識別結果;全連接層(fully connected layer)用于分類。CNN 利用反向傳播算法訓練卷積神經(jīng)網(wǎng)絡中的權重,使其特有的感受野結構與實際的生物神經(jīng)網(wǎng)絡更加接近,更能有效地提取復雜任務的高階非線性特征[5],解決了傳統(tǒng)人工智能網(wǎng)絡參數(shù)太多、訓練復雜且冗余等問題,其模型的準確率也比傳統(tǒng)方式高很多[6]。CNN 通過稀疏連接、權重共享、最大池采樣等,具有極強的適應性,善于挖掘數(shù)據(jù)局部特征,提取目標的全局訓練特征和分類[7],常用于復雜多樣環(huán)境下的目標檢測、圖像識別與分類等[8-9],其發(fā)展歷程如圖 1 所示。
1)目標識別與分類。1998 年 LeCun 等基于 Fukushima 的研究工作使用 BP 算法設計并訓練得到了 LeNet-5 模型,隨后涌現(xiàn)出 AlexNet、VGG16、VGG19 等新模型,通過不斷迭代優(yōu)化,模型的訓練速度得到提升,準確率也逐步提高。但隨著網(wǎng)絡層數(shù)及參數(shù)的不斷增加,網(wǎng)絡參數(shù)壓縮研究也相繼被提出,如 GoogLeNet 的 inception 模塊、ResNet 的殘差連接結構等[10]。經(jīng)典卷積神經(jīng)網(wǎng)絡模型的優(yōu)點及相關參數(shù)如表 1 所示。
2)目標檢測。區(qū)域卷積神經(jīng)網(wǎng)絡算法(Region-CNN)是第 1 個成功將深度學習應用到目標檢測上的算法,隨著研究不斷深入,F(xiàn)ast RCNN、Faster RCNN、Mask RCNN 等算法橫空出世。其中 Faster RCNN 克服了提取卷積特征時的冗余操作,提出了 RPN 結構,并融入 GPU 并行運算能力,大大提高了算法的檢測和識別速度而不降低精度[11]。在此基礎上,Mask RCNN 增加了像素級別的實例分割遮罩分支,同時實現(xiàn)了目標檢測和實例分割,統(tǒng)一網(wǎng)絡損失[12]。不同算法綜合比較如表 2 所示。
2 不同卷積網(wǎng)絡算法在經(jīng)濟林產(chǎn)品目標檢測中的應用
隨著油茶、紅棗、茶葉、林果等經(jīng)濟林產(chǎn)品種植面積不斷增加,產(chǎn)品產(chǎn)量逐年上升,利用智能機器人技術提高林產(chǎn)品采摘效率、節(jié)約人力成本已是必然趨勢,因此在自然環(huán)境下進行目標果實的準確分割、特征提取及檢測對經(jīng)濟林產(chǎn)業(yè)智能化發(fā)展具有重要的科學研究意義和廣闊的應用前景。反向傳播神經(jīng)網(wǎng)絡(BPNN)、隨機森林(RF)、主成分分析(PCA)、遺傳算法(GA)和支持向量機(SVM)等基于淺層神經(jīng)網(wǎng)絡的模型算法普遍存在特征提取不完全、網(wǎng)絡泛化性能差、網(wǎng)絡魯棒性差等問題;且往往只考慮單一特征,網(wǎng)絡收斂速度較慢,容易陷入局部最優(yōu),不能快速、準確地檢測多目標。
因此,許高建等[13]基于 Faster RCNN 深度網(wǎng)絡模型開展了茶葉嫩芽的檢測研究,利用區(qū)域建議網(wǎng)絡生成高質(zhì)量的區(qū)域建議框,選用隨機梯度下降算法(BGD)作為模型優(yōu)化器,實驗結果表明,模型精確率為 85.14%,召回率為 78.9%,mAP 為 82.17%,該深度網(wǎng)絡模型能夠有效識別茶葉嫩芽。朱超偉[14]提出一種改進的單一損失函數(shù) Fast RCNN 模型用于靈武長棗的檢測,通過較小維度的網(wǎng)絡深度和卷積次數(shù)識別目標,使用雙層損失函數(shù)(A-softmax loss、L-softmax loss 函數(shù))并行運算,實驗結果表明,該模型的精確率、召回率、mAP 分別提升至 92.96%、94.62%、80%,相比其他模型有明顯提高。閆建偉等[15]通過 Faster RCNN 的交替優(yōu)化訓練方式、雙線性插值、感興趣區(qū)域校準(ROI align)的區(qū)域特征聚集等手段,使得自然環(huán)境下刺梨果實檢測的目標矩形框更加精確,召回率最高達到 96.93%,準確率最高達到 95.53%,同時檢測的平均速度能夠達到 0.25 s/幅。陳斌等[16]基于 Faster-RCNN 卷積神經(jīng)網(wǎng)絡模型檢測自然環(huán)境中的油茶果圖像,利用邊框回歸修正錨框獲得精確的候選區(qū)域,再利用區(qū)域生成網(wǎng)絡 RPN 進行分類和校準,檢測結果表明,準確率達到 98.92%,圖像識別時間為 0.21 s/幅,進一步提高了油茶果的識別精度與速度,滿足了實時檢測要求。但上述研究仍存在參數(shù)量大、訓練速度慢、訓練時間較長等問題。因此,任會等[17]基于 Faster-RCNN 網(wǎng)絡構建了橘子識別模型,采用 Softmax 得到錨框屬于物體或背景的概率,相較于傳統(tǒng)方法,不僅識別率提升了 26%,還減少了參數(shù)量和預測時間,大幅加快了訓練速度。張習之等[18] 還提出一種基于改進 Mask RCNN 網(wǎng)絡的油茶果檢測分割方法,對特征提取模塊進行改造,利用并聯(lián)的不同尺寸的分解卷積核實現(xiàn)對不同類型特征學習,模型識別準確率、精確率、召回率分別為 87.5%、87.9%和 87%。Mask RCNN 網(wǎng)絡的層數(shù)較淺,計算量較小,訓練時間僅為 27 h,該算法在訓練時間上有明顯優(yōu)勢,具有較好的實時性與一定的實用性。
綜上所述,F(xiàn)aster RCNN、Mask RCNN 等新算法通過接入?yún)^(qū)域生成網(wǎng)絡 RPN、引入雙層損失函數(shù)、融合提取多特征等手段極大地提高了網(wǎng)絡的學習能力、穩(wěn)定性等。相比傳統(tǒng)算法,基于深度學習技術的卷積神經(jīng)網(wǎng)絡能更好地適應田間復雜環(huán)境,目標檢測效果更優(yōu),檢測速度也基本達到實時采摘的要求,檢測模型的實用性得到極大地提升。但目前國內(nèi)大部分研究主要針對二維圖像進行訓練及檢測,缺乏對多維信息的研究,無法獲取圖像中的目標位置,尤其在復雜環(huán)境背景下,光照、陰影以及遮擋對小目標或稠密目標識別效果影響非常大,后續(xù)可以考慮采用深度相機、雙目相機、測距雷達等[19]手段獲取更多復雜條件下的樣本數(shù)據(jù)信息,建立多維信息的數(shù)據(jù)集,增加模型的普適性。例如,Bargoti 等[20]提出一種具有 CNN 和多尺度多層感知器(MLP)2 種特征學習的圖像分割方法,結合球形數(shù)字相機獲取 360° 全景視圖,并基于霍夫圓變換(CHT)和分水嶺分割算法(WS)對自然環(huán)境下的果園圖像數(shù)據(jù)進行蘋果、芒果的檢測和計數(shù),結果表明,誤差從 13.3%提高到了 10.84%,其 F1值最高達到 86.1%,平方相關系數(shù) r 2 為 0.826。Madeleine 等[21]提出一種多傳感器框架來識別、跟蹤、定位和檢測果園中的芒果,綜合采用彩色相機、全球定位慣性導航系統(tǒng)(GPS/INS)和 3D 激光雷達收集多維數(shù)據(jù)信息,利用 GPS 軌跡數(shù)據(jù)進行圖像比對、3D 激光雷達自動生成冠層圖像掩模,結果表明,采用多視圖方法不需要額外校準,每棵樹的錯誤率僅為 1.36%。
3 不同卷積網(wǎng)絡模型在經(jīng)濟林產(chǎn)品分選中的應用
常規(guī)人工分選不僅分級效率較低,且受個人主觀因素影響,難以實現(xiàn)標準化作業(yè),不能滿足市場需求。因此,依據(jù)經(jīng)濟林產(chǎn)品精深加工生產(chǎn)需求,采用近紅外光譜、高光譜、深度學習等技術進行原果精確識別與高效分選,對提高經(jīng)濟林產(chǎn)品的品質(zhì)和附加值具有重要意義?;谏鲜鰣D像識別技術能夠得到豐富的圖像信息和光譜信息,然而傳統(tǒng)的支持向量機 ( SVM)、連續(xù)投影算法(SPA)、偏最小二乘法(PLS)、神經(jīng)網(wǎng)絡(BP)、遺傳算法(GA)等已無法適應越來越龐大且復雜的數(shù)據(jù)量,其模型識別與預測能力性能也有待進一步提升。例如,使用 SPA 提取樣本特征建立 LS-SVM 模型,利用大規(guī)模訓練樣本對正常、黑斑、破裂核桃進行判別,存在訓練速度較慢、不適合多分類研究等問題[22]。例如,利用 BP 神經(jīng)網(wǎng)絡、偏最小二乘法、支持向量機的多源信息融合模型進行板栗分級,利用 PLS 模型進行核桃殼、核桃仁、分心木的識別與分選,均存在收斂速度慢、局部極小化、預測能力和訓練能力矛盾、樣本依賴性高等問題[23]。利用 GA 算法進行油茶果果殼與茶籽分選,存在過早收斂、效率低、不能全面表示優(yōu)化問題的約束等問題[24]。
針對上述問題,海潮[25]對 GoogleNet Inception-v3 模型的學習率、批次大小、迭代次數(shù)進行調(diào)節(jié)與優(yōu)化,實驗結果表明,該模型對于干條、黃皮、破頭、霉變 4 類缺陷以及正常棗的識別效果良好,準確率達到 98.65%,但訓練時間較長;因此又利用遷移學習在較少的數(shù)據(jù)集上實現(xiàn)較好的訓練效果,節(jié)省了大量訓練時間,準確率為 94.60%。Zhou 等[26]基于卷積網(wǎng)絡 VGG 模型,應用 SWA 優(yōu)化器和 w-softmax 損失函數(shù)對青梅進行多缺陷分類,實驗結果表明,正常青梅的識別率達到 95.65%,單個青梅圖像檢測時間為 84.69 ms。謝為俊等[27] 對 AlexNet 網(wǎng)絡進行優(yōu)化,選用批量歸一化(BN)作為模型歸一化方法,提高模型訓練收斂速度和模型的泛化性能;利用 Swish 函數(shù)可有效解決 ReLU 激活函數(shù)出現(xiàn)神經(jīng)元死亡的問題,從而提高模型準確率和訓練收斂速度;通過壓縮模型卷積層感受野和全連接層節(jié)點,可進一步提高訓練速度;實驗結果表明,該模型對油茶籽完整性的識別準確率達到 98.05%。王立揚等[28]通過改進經(jīng)典卷積神經(jīng)網(wǎng)絡 LeNet-5 模型以提高蘋果分級準確率,改用LeakyReLU 激勵函數(shù),并加入 Dropout層防止過擬合,實驗結果表明,測試集準確率達 98.37%,識別時間為 120 ms。通過上述研究,逐步提升了網(wǎng)絡模型的準確率,但識別時長仍不太理想。因此,Wang 等[29]基于藍莓高光譜數(shù)據(jù),利用殘差網(wǎng)絡 ResNet 和改進 ResNeXt 網(wǎng)絡對不同藍莓內(nèi)部品質(zhì)損傷進行分選,相比傳統(tǒng)機器學習方法,2 種深度學習網(wǎng)絡具有更好的分類性能,實驗結果表明,微調(diào)后每個測試樣本的分類時間僅為 5.2 和 6.5 ms,但 ResNet 和 ResNeXt 網(wǎng)絡的平均準確率和 F1僅為 88.44%、87.84%和 89.52%、89.05%。Altheri 等[30]根據(jù)紅棗成熟度、類型等構建紅棗果實實時分類模型,數(shù)據(jù)集包含 350 多個棗叢的 5 種不同成熟度紅棗,共 8 072 張圖像,使用 AlexNet、VGG-16 和改進 VGG-16 3 個 CNN 模型進行比對,實驗結果表明,模型分類準確率分別為 99.01%、97.25%和 98.59%,分類時間分別為 20.7、 20.6 和 35.9 ms,均能夠滿足工廠自動化分級的需求。
綜上所述,相比傳統(tǒng)算法,AlexNet、VGGNet、GoogleNet 和 ResNet 等 CNN 深度學習模型在網(wǎng)絡學習能力、特征表達能力、緩解模型退化和降低運算量等方面具有更好的性能,模型訓練泛化性能、收斂速度、準確率和識別時間均有很大提升,可滿足在線實時分選的要求。但卷積神經(jīng)網(wǎng)絡作為監(jiān)督學習的代表算法,存在樣本數(shù)量大且需要精準預標定、計算量大、訓練時間長等問題,且由于高光譜圖像維度較高、信息量大、參數(shù)多,對硬件要求苛刻,尚難以用于實際規(guī)?;瘧肹31]。
4 研究存在的不足及建議
卷積神經(jīng)網(wǎng)絡在提取目標的全局訓練特征和分類等方面具有明顯優(yōu)勢[32],基于深層卷積神經(jīng)網(wǎng)絡的目標檢測算法,通過圖像語義分割、實例分割、圖像標注等手段,具有泛化能力強、魯棒性好等特點[33]。因此,在經(jīng)濟林產(chǎn)品目標檢測和分選中的應用越來越廣泛,但也面臨著很多困難與挑戰(zhàn),還需要對深度學習理論進行不斷優(yōu)化與改善,為經(jīng)濟林產(chǎn)品加工產(chǎn)業(yè)的高效化、精準化、智能化發(fā)展提供重要技術支撐。
4.1 存在的不足
1)需要龐大的樣本集和精準的預標定。CNN 作為監(jiān)督學習的典型圖像分類算法,訓練樣本大,耗時較長,并需要通過頻繁迭代訓練提高網(wǎng)絡精度,且采用梯度下降算法很容易使訓練結果收斂于局部最小值而非全局最小值。因此,在算法模型的收斂速度、延展性及數(shù)據(jù)規(guī)模等方面仍有待進一步優(yōu)化提升。
2)網(wǎng)絡結構模型逐漸復雜化。由于需要基于近紅外光譜、高光譜技術提供的海量數(shù)據(jù)進行訓練、調(diào)參、尋優(yōu),R-CNN、Fast R-CNN 等兩階段目標檢測算法模型整體較大,存在模型復雜、層次深、訓練參數(shù)多、訓練時間長等缺點,無法在檢測速度、精度及模型大小方面實現(xiàn)較好的平衡;且為了保證算法的準確率和實時性,對計算機圖形處理器(GPU)、內(nèi)存等硬件要求更高,無法滿足小設備上的應用要求。
3)小目標或稠密目標的特征信息不完善。由于田間環(huán)境復雜,且油茶、紅棗、茶葉、林果等經(jīng)濟林產(chǎn)品體積較小,多呈聚集狀態(tài)。常規(guī)的二維圖像數(shù)據(jù)無法全面表述目標特征信息,在實際檢測過程中無法有效解決圖像遮擋、交疊、復雜背景顏色高度相似性等問題。
4.2 進一步研究建議
1)深度優(yōu)化監(jiān)督學習算法。例如,將有監(jiān)督學習轉化為半監(jiān)督或無監(jiān)督學習,無監(jiān)督學習算法既沒有訓練集,也無須預標定?;谏窠?jīng)科學研究,可堆棧多層,以貪婪式的方式逐層重復訓練,減少數(shù)據(jù)依賴性。
2)輕量化設計網(wǎng)絡框架模型。引入專門針對移動端設計的輕量化網(wǎng)絡架構,如 MobleNets、GhostNet 等新網(wǎng)絡,運用深度分離卷積代替?zhèn)鹘y(tǒng)卷積、線性映射生成更多的特征圖等方法,減少模型參數(shù)和計算量,縮短訓練時間,提升模型實用性。在硬件上,使用云計算方式進行深度學習訓練,降低運算成本。
3)構建多元化數(shù)據(jù)集。結合相應的 3D 技術,如深度相機、雙目相機、測距雷達等手段獲取更多的訓練樣本信息,建立多維信息數(shù)據(jù)集,有效補充目標物的三維特征,以實現(xiàn)對目標物體更為高效、快速的檢測與分選。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >