近日,信息科學與工程學院王志軍教授農業系統集成團隊孫博老師作為第一作者在《NEUROCOMPUTING》上在線發表題為“Radial-based undersampling approach with adaptive undersampling ratio determination”的研究論文。
類不平衡問題是機器學習領域中的一項重要挑戰,指在收集到的訓練數據集中某一類別的樣例數量明顯少于其他類別的樣例數量,從而影響常見分類學習算法的泛化性能,特別是對攜帶重要信息的少數類不能很好地進行分類。例如,農業病蟲害數據中描述某種特殊病害的樣例(少數類樣例)通常顯著少于描述普通病害的樣例(多數類樣例),但若對少數類樣例錯誤分類將耽誤病蟲害的最佳治療時機并導致作物產量和質量的明顯降低。
為了有效改善分類算法在不平衡數據上的學習性能,團隊提出一種具有自適應欠采樣比例的徑向欠采樣方法RBU-AR。RBU-AR的主要創新之處在于根據數據的類重疊復雜性來確定合適的欠采樣比例,而不像大多現有欠采樣方法那樣采用默認值1或使用經驗試錯策略進行確定;此外,RBU-AR采用“相對類間勢”概念來客觀評估每個多數類樣例的效用,解決了“應該刪除哪些多數類樣例”的問題,進而降低了因去除有用多數類樣例而引起的信息丟失風險。在40個不平衡數據集上進行的實驗和相應的統計檢驗表明,類重疊度對學習算法的分類性能有很大影響,通常比類不平衡比例IR更為重要,并且RBU-AR算法表現出了較好的分類性能;此外,這項工作為利用類重疊數據復雜性信息來確定合適欠采樣數量也提供了一定的理論指導。
該研究得到了國家自然科學基金、山東省重大科技創新項目、山東省自然科學基金的資助。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0925231223006677
編 輯:萬 千
審 核:賈 波