近日,伟德betvlctor网页版楊曉飛副教授“自主智能無人系統”團隊在未來混合交通體系下的無人艇智能航行和安全避碰研究方向取得新進展。團隊研究成果“A Balanced Collision Avoidance Algorithm for USVs in Complex Environment: A Deep Reinforcement Learning Approach”和“Design and Field Test of Collision Avoidance Method With Prediction for USVs: A Deep Deterministic Policy Gradient Approach”接連被人工智能和智能交通領域的國際頂級期刊《IEEE Internet of Things Journal》和《IEEE Transactions on Intelligent Transportation Systems》發表,均為中科院一區期刊。兩篇論文的第一作者均為伟德betvlctor网页版2022級碩士研究生婁猛猛同學,楊曉飛副教授為論文唯一通訊作者,伟德betvlctor网页版均為第一完成單位,伟德betvlctor网页版2022級碩士研究生胡家寶同學,伟德betvlctor网页版朱志宇教授、安徽工業大學沈浩教授、南京理工大學向峥嵘教授和美國南卡羅來納大學張斌教授為論文的共同作者。
随着智能技術的發展,未來有人和無人船舶将長期共存、形成混合交通體系。在該體系下,無人船舶如何與有人船舶和諧共存和按照人類的航行規則進行安全航行是值得研究和探讨的問題,因此,實時安全避碰對于複雜環境中的水面無人艇(USV)至關重要。針對傳統方法難以保證控制決策安全性和實用性的平衡問題,團隊提出了一種基于互補原理的兩級激勵獎勵機制,并構建了基于深度強化學習的安全避碰算法框架。同時為了解決深度确定性策略梯度(DDPG)的稀疏獎勵問題,參考動态窗口算法(DWA)的軌迹評價函數來構建主要獎勵策略,并基于速度障礙(VO)構建次級激勵獎勵,以篩除潛在的碰撞風險。在提高訓練效率方面,團隊利用電子海圖(EC)和Unity3D構建了一個沉浸式仿真平台,并利用其開展算法仿真和驗證工作。此外,通過現場實驗測試了算法在多種遭遇場景的有效性。
此外,針對當前基于DRL的無人艇避碰研究大多依賴固定數量障礙物假設和忽略了碰撞預測重要性的問題,團隊提出了一種基于DDPG的新型“預測-決策”避碰模型。首先,設計和構造了一個輻射形狀态空間,使得DDPG方法可用于具有随機障礙物的時變場景,然後将VO與狀态空間相結合以實現碰撞預測,同時使用獎勵塑形技術設計獎勵函數,以提高安全性和訓練效率。虛拟仿真實驗和現場測試驗證了算法的有效性,顯示了團隊所提方法不僅使無人艇在未知環境中能夠采取安全避碰行動,而且具有較強的泛化能力。
《IEEE Transactions on Intelligent Transportation Systems》是智能交通領域國際頂級期刊(影響因子7.9),《IEEE Internet of Things Journal》是人工智能與物聯網領域國際頂級期刊(影響因子8.2),兩者均屬于中科院SCI一區TOP期刊。
論文鍊接:
① https://ieeexplore.ieee.org/document/10715732
② https://ieeexplore.ieee.org/document/10733753