題目:高效視頻理解
主講人:常曉軍 教授
時間:9月20日9:00
地點:文理樓804
報告摘要:
探討視頻理解領(lǐng)域的前沿進(jìn)展,重點介紹三項關(guān)鍵工作。
一是介紹時空金字塔變壓器(Spatio-Temporal Pyramid Transformer,STPT)在動作檢測中的應(yīng)用,該方法創(chuàng)新性地結(jié)合了局部窗口和全局注意力機(jī)制,捕捉時空依賴關(guān)系,在顯著降低計算成本的同時實現(xiàn)了優(yōu)異的性能。
二是介紹用于視頻語義分割的遮罩傳播框架(Mask Propagation for Video Semantic Segmentation,MPVSS),該框架通過從稀疏關(guān)鍵幀傳播準(zhǔn)確的遮罩,提高了效率,在VSPW和Cityscapes等基準(zhǔn)測試上達(dá)到了最先進(jìn)的精度和效率。
三是討論用于長視頻理解的長視頻語言模型(LongVLM),該模型借助大語言模型(LLM)將長視頻分解為短片段,并將局部特征與全局語義相結(jié)合,生成全面而精確的響應(yīng)。這些工作展示了高效且強大的模型在視頻理解領(lǐng)域的潛力,為精度、效率和全面分析帶來了顯著提升。
個人簡介:
常曉軍,教授,中國科學(xué)技術(shù)大學(xué)的講席教授、國家級高層次人才,曾獲得澳大利亞研究委員會的早期職業(yè)研究獎。主要研究方向包括多模態(tài)學(xué)習(xí)、計算機(jī)視覺、綠色人工智能及其在社會公益中的應(yīng)用。先后主持了包括澳大利亞研究委員會在內(nèi)的十多個國家級項目。其研究成果已在國際頂級期刊(如T-PAMI、TIP)和CCF A類會議上發(fā)表超過150篇論文,谷歌學(xué)術(shù)引用次數(shù)超過18,000次,其中21篇論文被選為ESI高被引/熱點論文,2019至2023年連續(xù)被評為科睿唯安高被引學(xué)者。現(xiàn)擔(dān)任IEEE TCSVT、IEEE TNNLS、ACM TOMM等國際頂級期刊的副主編,以及CCF A類會議的領(lǐng)域主席。








