深圳大學未來媒體技術與計算研究所江健民教授基于近年來在腦視覺感知與認知的研究,開創(chuàng)了一種嶄新的腦臆想多媒體研究方向。在全球首次引入“臆想多媒體/Brain Media”的概念和形式,將使傳統(tǒng)的多媒體不僅能夠呈現(xiàn)人眼所看到的外部世界,同時還能夠呈現(xiàn)人腦內(nèi)部的臆想,包括人們對外來的憧憬,對過去的回憶,以及對人生的感悟等。為實現(xiàn)真正的‘讀心術’走出了基于計算機技術的第一步。相關成果近日發(fā)表在多媒體領域國際頂級雜志IEEE Transaction on Multimedia上面(全文鏈接:https://ieeexplore.ieee.org/document/9105088)。 同時于今年以深圳大學為唯一依托單位獲得國家基金委信息學部重點項目資助:“臆想多媒體的深度分析與可視呈現(xiàn)”,在2021-2025這五年內(nèi)將在目前對腦認知圖像分類研究的基礎上進一步升華到腦認知語義識別的科學研究。為實現(xiàn)基于計算機的讀心術及在人工智能環(huán)境下開發(fā)腦智的最前沿研究準備雄厚的基礎。該團隊于去年獲批建設廣東省高校重點實驗室:人工智能環(huán)境下的腦視覺感知實驗室。

圖1

圖2
如圖1所示,目前的腦科學研究主要采用定向腦激勵模式來完成對人腦相關反應的分析。如心理學領域常用的二維選擇性模式和腦科學領域常用的數(shù)字激勵及基于計算機圖型的激勵模式等。這種現(xiàn)象在人機交互領域涉及人腦的研究也比較普遍,如采用人腦控制機器或動物的行為等研究當中,即使涉及復雜的控制過程但實際的交互仍然是以多級二維選擇的方式來實現(xiàn)的。2015年美國斯坦福大學的科研團隊在全球率先使用目標圖像直接激勵人腦的方法(圖2),突破了傳統(tǒng)的腦科學研究僅采用簡單數(shù)字或計算機圖形激勵的模式,完成包含6個類別的腦電圖像自動分類研究并取得高達40.68%的準確率。2017年美國佛羅里達大學的科研團隊在此基礎上直接從ImageNet圖像庫內(nèi)提取40個類別的圖像用來激勵人腦產(chǎn)生相應的腦電信號(EEG)并向全球發(fā)布了第一個腦電圖像庫ImageNet-EEG。在同年計算機視覺及人工智能的頂級學術會議CVPR2017上報告了他們采用深度學習的手段對40個類別的圖像腦激勵取得了高達82.9%的分類準確率的科研成果(Spampinato C, Palazzo S, Kavasidis I, et al. “Deep Learning Human Mind for Automated Visual Classification”CVPR2017)。2018年美國康奈爾大學的科研團隊對此數(shù)據(jù)庫的產(chǎn)生方法提出了質(zhì)疑,并將相關的實驗結(jié)果及分析提交到T-PAMI雜志上發(fā)表,目前因為存在爭議仍在評審中。2019年深圳大學江健民教授團隊通過在圖像庫內(nèi)的預選圖像提取偽腦電信息及其映射的方法,提出一種雙模態(tài)深度學習框架,將分類的準確率提高到94.1%。之后又利用人腦不同區(qū)域?qū)Σ煌钚畔⒋嬖诿舾胁町惖奶厣岢鲆环N帶attention-gate的新型LSTM深度學習方法(圖3),將腦圖像感知分類進一步提高到98.4%。這意味著你在世界的任一地方看一幅圖像,只要將你看這幅圖像時的腦信號傳到深圳,深圳大學的科研人員就能夠以高達98.4%的概率知道你針對這幅圖像的腦思維活動并對其內(nèi)容做具體的可視化呈現(xiàn)(圖4)。

圖3
針對人腦思維的不確定性及其腦電信息采集的不穩(wěn)定性,深圳大學科研團隊進一步提出了具有腦特色的深度學習研究,并結(jié)合傳統(tǒng)的深度學習理論和方法取得了一系列的初步成果。包括能夠突破目前深度學習需要大量帶標簽訓練數(shù)據(jù)瓶頸的跨域?qū)W習方法,圖像視頻內(nèi)的顯著性檢測,以及新的三維場景重構(gòu)模型等。
