亚洲国产欧美国产综合久久,人善交VIDE欧美,亚洲欧美日韩综合网导航

奪魁NeurIPS 2020電網調度大賽，百度PARL實現NeurIPS強化學習競賽三連冠

日期： 2020-11-17

來源：機器之心

關鍵詞： 人工智能 NeurIPS2020 電網調度競賽

　　受疫情影響，人工智能頂級學術會議 NeurIPS 2020 將通過線上的形式進行。隨著會議召開時間臨近，該會議承辦的競賽也陸續揭曉結果。今年新增的電網調度競賽（Learning To Run a Power Network Challenge）共包含兩個賽道：魯棒能力賽道和泛化能力賽道，經過三個月的激烈比拼，最終來自百度的 PARL 團隊拿下全部兩個賽道的冠軍。同時，這也是該團隊在 NeurIPS 上拿下的第三個強化學習賽事冠軍，實現三連冠的里程碑。

　　NeurIPS 2020 電網調度大賽主要是由 RTE（法國電網公司）、EPRI（美國電力研究協會）和 TenneT（德國 - 荷蘭電網公司）等能源企業聯合 INRIA（法國國家信息與自動化研究所）、谷歌研究、UCL 和卡塞爾大學等人工智能研究機構共同舉辦。賽事共吸引了來自全球的上百支隊伍，參賽選手中有來自各個地區的人工智能研究機構，還有來自清華大學、國家電網北美研究院等機構的電網領域專家。本次賽事的舉辦主旨是探索強化學習在能源調度領域的應用，希望結合強化學習技術實現電網傳輸的自動化控制，保障整個電網系統在各種突發狀況下都能穩定運行。

　　PARL 開源倉庫地址：https://github.com/PaddlePaddle/PARL

　　競賽任務

　　電能是現代化的重要標志之一，與我們每個人的日常生活息息相關。電網在不同地區，國家甚至大洲之間輸送電力，是配電的中堅力量，通過向工業和消費者提供可靠的電力來發揮重要的經濟和社會作用。但由于受突發狀況、自然災害和人為災害等不確定性事件的影響，電網系統需要大量的監控人員和電網專家，結合領域知識和歷史經驗，針對不同突發場景進行干預和維護。根據主辦方發布的競賽白皮書，電網系統平均每運行一小時便需要實施人工干預操作，不然可能導致局部甚至整個城市的停電。電網調度競賽的目的便是探索 AI 在復雜的電網調度場景上的智能決策能力。

微信圖片_20201117141131.png

　　電網事故示例和電網控制室。

　　本次電網調度競賽的總體任務目標是維持整個電網仿真系統的供需平衡，并應對各種突發事件。在電網仿真環境運行的每一個時刻，參賽選手需要根據觀測到的電網狀態（供電 / 用電數據、電網拓撲結構和電線負載等信息），選擇合適的動作（包括變電站拓撲修改和發電廠發電功率修改等）來保持電網的穩定運行。NeurIPS 2020 舉辦的電網調度賽事相比前兩屆的電網調度賽事具有更大的挑戰難度，不僅電網規模更大，動作空間也更復雜，而且根據電網的真實場景，分別設置了更具有現實意義的魯棒性（Robustness）和適應性（Adaptability）兩個挑戰賽道。兩個賽道的設置分別如下：

　　Track 1（賽道一）：采用中型電網（相當于三分之一的美國中西部電網），離散動作空間數量有 6 萬多個。該賽道中，每天電網的不同線路會因隨機的攻擊而斷開，以此模擬現實生活中電網系統受到不可預期的事故（例如被閃電擊中），對決策系統在各種突發事件下的魯棒性而言，是個很大的挑戰。

　　Track 2（賽道二）：采用大型電網（相當于整個美國中西部電網），離散動作空間數量高達 7 萬多個。該賽道中，發電廠的可再生能源比例是動態變化的（比如風能在夏季發電效率高，冬季則下降），為了保持整個電網的供需平衡，這個賽道對決策系統在不同能源比例下的自動適應能力有很高的要求。

微信圖片_20201117141752.png

　　電網調度系列賽事。

　　競賽結果

　　從官方榜單中可以看到，百度 PARL 團隊拿下了兩個賽道的冠軍，在比賽階段的公榜以及評估階段的私榜上都名列第一，體現了強大的技術能力，以及針對實際場景的技術實用性。

微信圖片_20201117141827.png

　　百度 PARL 拿下電網調度大賽雙料冠軍。

　　冠軍方案：融合專家知識的大規模進化神經網絡

　　在參賽過程中，百度 PARL 團隊注意到專家系統方案以及純強化學習方案很難解決這次的挑戰。傳統的專家系統解決方案主要是利用專家先驗知識進行候選動作的篩選，然后根據電網系統的預仿真（simulate）功能來評估不同動作給電網系統帶來的影響，這種方案需要有一定的專家經驗，并且存在搜索耗時長和無法考慮長遠收益等缺點。純強化學習方案雖然可以考慮長遠收益，但在大規模電網調度場景中，動作空間復雜，電網系統運行過程中不確定性大，這個方案存在探索難度大和價值函數訓練方差大等問題，很難在數萬個候選動作中直接選擇一個最優動作。

　　百度 PARL 團隊提出了一種融合專家系統和強化學習兩者優點的解決方案：融合專家知識的大規模進化神經網絡，該方案首先采用模仿學習（Imitation learning）來學習專家知識，得到一個用神經網絡表示的策略之后，通過進化算法迭代這個策略。需要注意的是，一般強化學習算法是每次采樣一個動作然后根據反饋（reward）進行更新，在該方案的進化算法中，每次會采樣多個動作（動作組合）進行優化。當選出動作組合之后，后續的策略依然可以拼接多種專家經驗，選出更優的動作。得益于進化算法的黑盒優化特點，整個策略可以直接把電網平穩運行時長作為反饋來更新策略。這個解決方案不僅可以克服強化學習選擇單一動作風險高的問題，還可以考慮電網系統的長期獎勵，有利于尋找維持電網系統穩定運行的最優解。

微信圖片_20201117141856.png

　　大規模進化算法圖示。

　　在大規模進化訓練過程中，百度利用 PARL 高性能并行框架同時在上千 CPU 上對近 500 萬參數的較大規模神經網絡進行進化學習。在此過程中，需要先對網絡參數進行不同的高斯噪聲擾動，然后將擾動后網絡作為專家系統新的動作打分模型，分別和電網系統進行交互，并計算噪聲擾動后網絡相比原始網絡在電網系統中的平穩運行時長增益，作為該采樣噪聲的獎勵；最后，整合不同噪聲方向的獎勵來決定下一輪網絡參數的進化方向。據悉，一個這樣的電網調度打分模型需要進行 60 萬個 episode 迭代，合計總的電網模擬時長一萬多年，包含 10 億多步探索。而這些僅僅需要 10 個小時左右的時間就能完成。

　　奪冠背后：飛槳強化學習框架 PARL 加持

　　PARL 是基于百度飛槳深度學習平臺（PaddlePaddle）自主研發的強化學習框架，匯聚了百度多年來在強化學習領域的技術深耕和產品應用經驗。PARL 采用模塊式的編碼設計，已復現的算法覆蓋了包括 Multi-gent、Model-based、Evolution Strategy 和 Distributed RL 等不同方向的主流強化學習算法。除了強可擴展性和高質量算法復現，PARL 框架更提供了高性能且便捷靈活的并行支持能力。開發者只需要通過數行代碼和命令就能搭建起集群，并行調度資源，低成本地實現數百倍的性能加速。正是基于這樣的能力，PARL 團隊連續拿下了 NeurIPS 2018/2019 仿生人 Learning To Run 挑戰和 NeurIPS 2020 L2RPN 挑戰三連冠。

微信圖片_20201117141926.png

　　PARL 框架概覽。

　　據悉，PARL 框架已經應用在信息流推薦、智能打車、智能機器人等多個行業領域，也將致力于把強化學習運用在能源調度、供應鏈和交通等更多場景，將強化學習獨有的決策能力賦予到各行各業。

　　開源鏈接：https://github.com/PaddlePaddle/PARL

　　競賽地址：https://l2rpn.chalearn.org/competitions

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

奪魁NeurIPS 2020電網調度大賽，百度PARL實現NeurIPS強化學習競賽三連冠

日期： 2020-11-17

來源： 機器之心

相關內容

來源：機器之心