信息學(xué)院2024年學(xué)術(shù)報(bào)告

作者: 賈紉秋出處: 信息學(xué)院日期: 2024-09-19

題目：高效視頻理解

主講人：常曉軍教授

時(shí)間：9月20日9:00

地點(diǎn)：文理樓804

報(bào)告摘要：

探討視頻理解領(lǐng)域的前沿進(jìn)展，重點(diǎn)介紹三項(xiàng)關(guān)鍵工作。

一是介紹時(shí)空金字塔變壓器（Spatio-Temporal Pyramid Transformer，STPT）在動(dòng)作檢測(cè)中的應(yīng)用，該方法創(chuàng)新性地結(jié)合了局部窗口和全局注意力機(jī)制，捕捉時(shí)空依賴關(guān)系，在顯著降低計(jì)算成本的同時(shí)實(shí)現(xiàn)了優(yōu)異的性能。

二是介紹用于視頻語義分割的遮罩傳播框架（Mask Propagation for Video Semantic Segmentation，MPVSS），該框架通過從稀疏關(guān)鍵幀傳播準(zhǔn)確的遮罩，提高了效率，在VSPW和Cityscapes等基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)的精度和效率。

三是討論用于長(zhǎng)視頻理解的長(zhǎng)視頻語言模型（LongVLM），該模型借助大語言模型（LLM）將長(zhǎng)視頻分解為短片段，并將局部特征與全局語義相結(jié)合，生成全面而精確的響應(yīng)。這些工作展示了高效且強(qiáng)大的模型在視頻理解領(lǐng)域的潛力，為精度、效率和全面分析帶來了顯著提升。

個(gè)人簡(jiǎn)介：

常曉軍，教授，中國(guó)科學(xué)技術(shù)大學(xué)的講席教授、國(guó)家級(jí)高層次人才，曾獲得澳大利亞研究委員會(huì)的早期職業(yè)研究獎(jiǎng)。主要研究方向包括多模態(tài)學(xué)習(xí)、計(jì)算機(jī)視覺、綠色人工智能及其在社會(huì)公益中的應(yīng)用。先后主持了包括澳大利亞研究委員會(huì)在內(nèi)的十多個(gè)國(guó)家級(jí)項(xiàng)目。其研究成果已在國(guó)際頂級(jí)期刊（如T-PAMI、TIP）和CCF A類會(huì)議上發(fā)表超過150篇論文，谷歌學(xué)術(shù)引用次數(shù)超過18,000次，其中21篇論文被選為ESI高被引/熱點(diǎn)論文，2019至2023年連續(xù)被評(píng)為科睿唯安高被引學(xué)者。現(xiàn)擔(dān)任IEEE TCSVT、IEEE TNNLS、ACM TOMM等國(guó)際頂級(jí)期刊的副主編，以及CCF A類會(huì)議的領(lǐng)域主席。

關(guān)閉窗口