《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 奪魁NeurIPS 2020電網(wǎng)調(diào)度大賽,百度PARL實現(xiàn)NeurIPS強化學習競賽三連冠

奪魁NeurIPS 2020電網(wǎng)調(diào)度大賽,百度PARL實現(xiàn)NeurIPS強化學習競賽三連冠

2020-11-17
來源: 機器之心

  受疫情影響,人工智能頂級學術會議 NeurIPS 2020 將通過線上的形式進行。隨著會議召開時間臨近,該會議承辦的競賽也陸續(xù)揭曉結果。今年新增的電網(wǎng)調(diào)度競賽(Learning To Run a Power Network Challenge)共包含兩個賽道:魯棒能力賽道和泛化能力賽道,經(jīng)過三個月的激烈比拼,最終來自百度的 PARL 團隊拿下全部兩個賽道的冠軍。同時,這也是該團隊在 NeurIPS 上拿下的第三個強化學習賽事冠軍,實現(xiàn)三連冠的里程碑。

  NeurIPS 2020 電網(wǎng)調(diào)度大賽主要是由 RTE(法國電網(wǎng)公司)、EPRI(美國電力研究協(xié)會)和 TenneT(德國 - 荷蘭電網(wǎng)公司)等能源企業(yè)聯(lián)合 INRIA(法國國家信息與自動化研究所)、谷歌研究、UCL 和卡塞爾大學等人工智能研究機構共同舉辦。賽事共吸引了來自全球的上百支隊伍,參賽選手中有來自各個地區(qū)的人工智能研究機構,還有來自清華大學、國家電網(wǎng)北美研究院等機構的電網(wǎng)領域?qū)<摇1敬钨愂碌呐e辦主旨是探索強化學習在能源調(diào)度領域的應用,希望結合強化學習技術實現(xiàn)電網(wǎng)傳輸?shù)淖詣踊刂疲U险麄€電網(wǎng)系統(tǒng)在各種突發(fā)狀況下都能穩(wěn)定運行。

  PARL 開源倉庫地址:https://github.com/PaddlePaddle/PARL

  競賽任務

  電能是現(xiàn)代化的重要標志之一,與我們每個人的日常生活息息相關。電網(wǎng)在不同地區(qū),國家甚至大洲之間輸送電力,是配電的中堅力量,通過向工業(yè)和消費者提供可靠的電力來發(fā)揮重要的經(jīng)濟和社會作用。但由于受突發(fā)狀況、自然災害和人為災害等不確定性事件的影響,電網(wǎng)系統(tǒng)需要大量的監(jiān)控人員和電網(wǎng)專家,結合領域知識和歷史經(jīng)驗,針對不同突發(fā)場景進行干預和維護。根據(jù)主辦方發(fā)布的競賽白皮書,電網(wǎng)系統(tǒng)平均每運行一小時便需要實施人工干預操作,不然可能導致局部甚至整個城市的停電。電網(wǎng)調(diào)度競賽的目的便是探索 AI 在復雜的電網(wǎng)調(diào)度場景上的智能決策能力。

微信圖片_20201117141131.png

  電網(wǎng)事故示例和電網(wǎng)控制室。

  本次電網(wǎng)調(diào)度競賽的總體任務目標是維持整個電網(wǎng)仿真系統(tǒng)的供需平衡,并應對各種突發(fā)事件。在電網(wǎng)仿真環(huán)境運行的每一個時刻,參賽選手需要根據(jù)觀測到的電網(wǎng)狀態(tài)(供電 / 用電數(shù)據(jù)、電網(wǎng)拓撲結構和電線負載等信息),選擇合適的動作(包括變電站拓撲修改和發(fā)電廠發(fā)電功率修改等)來保持電網(wǎng)的穩(wěn)定運行。NeurIPS 2020 舉辦的電網(wǎng)調(diào)度賽事相比前兩屆的電網(wǎng)調(diào)度賽事具有更大的挑戰(zhàn)難度,不僅電網(wǎng)規(guī)模更大,動作空間也更復雜,而且根據(jù)電網(wǎng)的真實場景,分別設置了更具有現(xiàn)實意義的魯棒性(Robustness)和適應性(Adaptability)兩個挑戰(zhàn)賽道。兩個賽道的設置分別如下:

  Track 1(賽道一):采用中型電網(wǎng)(相當于三分之一的美國中西部電網(wǎng)),離散動作空間數(shù)量有 6 萬多個。該賽道中,每天電網(wǎng)的不同線路會因隨機的攻擊而斷開,以此模擬現(xiàn)實生活中電網(wǎng)系統(tǒng)受到不可預期的事故(例如被閃電擊中),對決策系統(tǒng)在各種突發(fā)事件下的魯棒性而言,是個很大的挑戰(zhàn)。

  Track 2(賽道二):采用大型電網(wǎng)(相當于整個美國中西部電網(wǎng)),離散動作空間數(shù)量高達 7 萬多個。該賽道中,發(fā)電廠的可再生能源比例是動態(tài)變化的(比如風能在夏季發(fā)電效率高,冬季則下降),為了保持整個電網(wǎng)的供需平衡,這個賽道對決策系統(tǒng)在不同能源比例下的自動適應能力有很高的要求。

微信圖片_20201117141752.png

  電網(wǎng)調(diào)度系列賽事。

  競賽結果

  從官方榜單中可以看到,百度 PARL 團隊拿下了兩個賽道的冠軍,在比賽階段的公榜以及評估階段的私榜上都名列第一,體現(xiàn)了強大的技術能力,以及針對實際場景的技術實用性。

微信圖片_20201117141827.png

  百度 PARL 拿下電網(wǎng)調(diào)度大賽雙料冠軍。

  冠軍方案:融合專家知識的大規(guī)模進化神經(jīng)網(wǎng)絡

  在參賽過程中,百度 PARL 團隊注意到專家系統(tǒng)方案以及純強化學習方案很難解決這次的挑戰(zhàn)。傳統(tǒng)的專家系統(tǒng)解決方案主要是利用專家先驗知識進行候選動作的篩選,然后根據(jù)電網(wǎng)系統(tǒng)的預仿真(simulate)功能來評估不同動作給電網(wǎng)系統(tǒng)帶來的影響,這種方案需要有一定的專家經(jīng)驗,并且存在搜索耗時長和無法考慮長遠收益等缺點。純強化學習方案雖然可以考慮長遠收益,但在大規(guī)模電網(wǎng)調(diào)度場景中,動作空間復雜,電網(wǎng)系統(tǒng)運行過程中不確定性大,這個方案存在探索難度大和價值函數(shù)訓練方差大等問題,很難在數(shù)萬個候選動作中直接選擇一個最優(yōu)動作。

  百度 PARL 團隊提出了一種融合專家系統(tǒng)和強化學習兩者優(yōu)點的解決方案:融合專家知識的大規(guī)模進化神經(jīng)網(wǎng)絡,該方案首先采用模仿學習(Imitation learning)來學習專家知識,得到一個用神經(jīng)網(wǎng)絡表示的策略之后,通過進化算法迭代這個策略。需要注意的是,一般強化學習算法是每次采樣一個動作然后根據(jù)反饋(reward)進行更新,在該方案的進化算法中,每次會采樣多個動作(動作組合)進行優(yōu)化。當選出動作組合之后,后續(xù)的策略依然可以拼接多種專家經(jīng)驗,選出更優(yōu)的動作。得益于進化算法的黑盒優(yōu)化特點,整個策略可以直接把電網(wǎng)平穩(wěn)運行時長作為反饋來更新策略。這個解決方案不僅可以克服強化學習選擇單一動作風險高的問題,還可以考慮電網(wǎng)系統(tǒng)的長期獎勵,有利于尋找維持電網(wǎng)系統(tǒng)穩(wěn)定運行的最優(yōu)解。

微信圖片_20201117141856.png

  大規(guī)模進化算法圖示。

  在大規(guī)模進化訓練過程中,百度利用 PARL 高性能并行框架同時在上千 CPU 上對近 500 萬參數(shù)的較大規(guī)模神經(jīng)網(wǎng)絡進行進化學習。在此過程中,需要先對網(wǎng)絡參數(shù)進行不同的高斯噪聲擾動,然后將擾動后網(wǎng)絡作為專家系統(tǒng)新的動作打分模型,分別和電網(wǎng)系統(tǒng)進行交互,并計算噪聲擾動后網(wǎng)絡相比原始網(wǎng)絡在電網(wǎng)系統(tǒng)中的平穩(wěn)運行時長增益,作為該采樣噪聲的獎勵;最后,整合不同噪聲方向的獎勵來決定下一輪網(wǎng)絡參數(shù)的進化方向。據(jù)悉,一個這樣的電網(wǎng)調(diào)度打分模型需要進行 60 萬個 episode 迭代, 合計總的電網(wǎng)模擬時長一萬多年,包含 10 億多步探索。而這些僅僅需要 10 個小時左右的時間就能完成。

  奪冠背后:飛槳強化學習框架 PARL 加持

  PARL 是基于百度飛槳深度學習平臺(PaddlePaddle)自主研發(fā)的強化學習框架,匯聚了百度多年來在強化學習領域的技術深耕和產(chǎn)品應用經(jīng)驗。PARL 采用模塊式的編碼設計,已復現(xiàn)的算法覆蓋了包括 Multi-gent、Model-based、Evolution Strategy 和 Distributed RL 等不同方向的主流強化學習算法。除了強可擴展性和高質(zhì)量算法復現(xiàn),PARL 框架更提供了高性能且便捷靈活的并行支持能力。開發(fā)者只需要通過數(shù)行代碼和命令就能搭建起集群,并行調(diào)度資源,低成本地實現(xiàn)數(shù)百倍的性能加速。正是基于這樣的能力,PARL 團隊連續(xù)拿下了 NeurIPS 2018/2019 仿生人 Learning To Run 挑戰(zhàn)和 NeurIPS 2020 L2RPN 挑戰(zhàn)三連冠。

微信圖片_20201117141926.png微信圖片_20201117141926.png

  PARL 框架概覽。

  據(jù)悉,PARL 框架已經(jīng)應用在信息流推薦、智能打車、智能機器人等多個行業(yè)領域,也將致力于把強化學習運用在能源調(diào)度、供應鏈和交通等更多場景,將強化學習獨有的決策能力賦予到各行各業(yè)。

  開源鏈接:https://github.com/PaddlePaddle/PARL

  競賽地址:https://l2rpn.chalearn.org/competitions



本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲国产成人精品无码一区二区| 国产欧美精品区一区二区三区| 久久婷婷五月综合色奶水99啪| 狂野小农民在线播放观看| 国产成人av一区二区三区在线 | 天堂资源最新版在线官网| 久久精品国产成人| 精品午夜久久网成年网| 国产成人欧美一区二区三区| 99精品国产99久久久久久97| 日本强伦姧人妻一区二区| 亚洲成人免费网址| 精品无码国产自产拍在线观看 | 国产裸拍裸体视频在线观看| 中文字幕亚洲日韩无线码| 欧美性69式xxxx护士| 再深点灬舒服灬太大了np视频| 麻豆国产精品一二三在线观看| 在线a免费观看最新网站| 久久久久无码精品国产app| 欧美另类videosgratis妇| 免费看大美女大黄大色| 蕾丝av无码专区在线观看| 国产精品亚洲精品青青青| www.成年人| 拔播拔播华人永久免费| 亚洲av色无码乱码在线观看| 男人进的越深越爽动态图| 国产一区二区三区在线观看视频| 777成了人乱视频| 国色天香论坛视频高清在线| 中文乱码人妻系列一区二区| 最好看的免费观看视频| 亚洲精品国产精品乱码不卡√| 精品视频在线观看你懂的一区| 国产激情精品一区二区三区| aaaaaav| 扒开两腿中间缝流白浆在线看| 乡村乱妇一级毛片| 欧美日韩精品一区二区三区视频在线 | a级毛片高清免费视频在线播放|