近日,中國科學(xué)院西安光機所光譜成像技術(shù)研究室王荃研究員團隊在計算機視覺領(lǐng)域的零樣本異常檢測與定位方向取得新進(jìn)展,相關(guān)成果被計算機視覺與模式識別大會(The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026)接收。論文第一作者為西安光機所2024級碩士研究生胡明,通訊作者為武漢大學(xué)中南醫(yī)院胡聰博士、西安光機所胡炳樑研究員以及王荃研究員,西安光機所為第一通訊單位。

隨著工業(yè)質(zhì)檢、醫(yī)學(xué)影像分析等應(yīng)用需求不斷增長,異常檢測技術(shù)日益受到關(guān)注。然而,實際場景中異常樣本往往稀缺甚至難以獲取,傳統(tǒng)依賴標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法面臨瓶頸。
基于視覺-語言模型的零樣本異常檢測方法,憑借大規(guī)模預(yù)訓(xùn)練知識,無需異常標(biāo)注即可實現(xiàn)檢測,但在細(xì)粒度異常檢測任務(wù)中,該方法仍面臨三大挑戰(zhàn):一是模型難以區(qū)分前景目標(biāo)與復(fù)雜背景,異常特征易與背景混雜,影響檢測精度;二是依賴單一文本表示,語義表達(dá)能力有限,難以為異常判別提供精細(xì)依據(jù);三是跨模態(tài)對齊過程中,圖像與文本的語義匹配存在不確定性,制約了模型性能提升。

圖 FB-CLIP整體結(jié)構(gòu)。(a) 多策略文本特征融合(MSTFF)生成任務(wù)感知的文本嵌入;(b) 多視角前景-背景增強(MVFBE)分離并增強前景與背景特征;(c) 背景抑制(Background Suppression)減少殘余背景干擾;(d) 語義一致性正則化(SCR)強化置信且具有判別力的視覺-文本對齊。
針對上述問題,研究團隊提出了新型框架——FB-CLIP(Foreground-Background Disentangled CLIP)。該框架從三個層面進(jìn)行創(chuàng)新:
在文本建模上,提出多策略文本特征融合方法,通過結(jié)合句子級表示、全局上下文信息及注意力加權(quán)特征,構(gòu)建更豐富的任務(wù)感知語義表示,提升模型對異常語義的理解能力;
在視覺建模上,設(shè)計多視角前景-背景分離機制,從語義、空間、結(jié)構(gòu)等維度解耦圖像特征,并借助背景抑制策略減少復(fù)雜場景中的干擾信息,使模型更精準(zhǔn)地聚焦異常區(qū)域;
在跨模態(tài)對齊上,引入語義一致性正則化約束,通過提升預(yù)測置信度并拉大正常與異常樣本的語義間隔,增強模型對異常的判別能力。
實驗結(jié)果表明,F(xiàn)B-CLIP在多個工業(yè)檢測和醫(yī)學(xué)影像數(shù)據(jù)集上均取得了優(yōu)異性能,尤其在細(xì)粒度異常定位任務(wù)中表現(xiàn)突出,整體性能達(dá)到國際領(lǐng)先水平。該方法無需異常樣本標(biāo)注,即可實現(xiàn)對復(fù)雜場景中微小異常的精準(zhǔn)檢測與定位,具有良好的實際應(yīng)用前景。
該成果有望應(yīng)用于醫(yī)學(xué)影像輔助診斷、工業(yè)缺陷檢測等領(lǐng)域。
西安光機所王荃研究員團隊長期深耕于計算機視覺與生物醫(yī)學(xué)成像、腦機智能等交叉方向研究,近年來在相關(guān)領(lǐng)域持續(xù)取得一系列重要進(jìn)展,相關(guān)成果發(fā)表于CVPR 2025、Pattern Recognition等。
IEEE/CVF計算機視覺與模式識別會議是計算機視覺領(lǐng)域最具影響力的國際學(xué)術(shù)會議之一,被中國計算機學(xué)會(CCF)評為A類會議。



