題目:高效視頻理解
主講人:常曉軍 教授
時(shí)間:9月20日9:00
地點(diǎn):文理樓804
報(bào)告摘要:
探討視頻理解領(lǐng)域的前沿進(jìn)展,重點(diǎn)介紹三項(xiàng)關(guān)鍵工作。
一是介紹時(shí)空金字塔變壓器(Spatio-Temporal Pyramid Transformer,STPT)在動(dòng)作檢測(cè)中的應(yīng)用,該方法創(chuàng)新性地結(jié)合了局部窗口和全局注意力機(jī)制,捕捉時(shí)空依賴關(guān)系,在顯著降低計(jì)算成本的同時(shí)實(shí)現(xiàn)了優(yōu)異的性能。
二是介紹用于視頻語義分割的遮罩傳播框架(Mask Propagation for Video Semantic Segmentation,MPVSS),該框架通過從稀疏關(guān)鍵幀傳播準(zhǔn)確的遮罩,提高了效率,在VSPW和Cityscapes等基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)的精度和效率。
三是討論用于長(zhǎng)視頻理解的長(zhǎng)視頻語言模型(LongVLM),該模型借助大語言模型(LLM)將長(zhǎng)視頻分解為短片段,并將局部特征與全局語義相結(jié)合,生成全面而精確的響應(yīng)。這些工作展示了高效且強(qiáng)大的模型在視頻理解領(lǐng)域的潛力,為精度、效率和全面分析帶來了顯著提升。
個(gè)人簡(jiǎn)介:
常曉軍,教授,中國(guó)科學(xué)技術(shù)大學(xué)的講席教授、國(guó)家級(jí)高層次人才,曾獲得澳大利亞研究委員會(huì)的早期職業(yè)研究獎(jiǎng)。主要研究方向包括多模態(tài)學(xué)習(xí)、計(jì)算機(jī)視覺、綠色人工智能及其在社會(huì)公益中的應(yīng)用。先后主持了包括澳大利亞研究委員會(huì)在內(nèi)的十多個(gè)國(guó)家級(jí)項(xiàng)目。其研究成果已在國(guó)際頂級(jí)期刊(如T-PAMI、TIP)和CCF A類會(huì)議上發(fā)表超過150篇論文,谷歌學(xué)術(shù)引用次數(shù)超過18,000次,其中21篇論文被選為ESI高被引/熱點(diǎn)論文,2019至2023年連續(xù)被評(píng)為科睿唯安高被引學(xué)者。現(xiàn)擔(dān)任IEEE TCSVT、IEEE TNNLS、ACM TOMM等國(guó)際頂級(jí)期刊的副主編,以及CCF A類會(huì)議的領(lǐng)域主席。


