文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.036
0 引言
隨著大數據、云計算、物聯網、移動互聯網等新一代信息通信技術的快速發展,智能終端產品層出不窮,新技術、新產品、新應用等不斷涌現。移動智能終端設備及應用通過豐富多樣的功能滿足人們各式各樣的需求,從各個方面改變著人們的日常工作與生活。
近年來,國家電網公司緊緊抓住新一代信息通信技術快速發展為智能電網生產方式及管理模式變革帶來的契機,積極推進智能電網建設,密切跟蹤新技術發展趨勢,開展關鍵技術攻關,面向“十三五”,充分發揮信息通信在智能電網中的核心技術作用,統籌推動智能電網技術變革和創新發展,未來要形成一大批成功應用、成效顯著的技術成果,為堅強智能電網持續創新發展奠定了堅實基礎。
隨著國民經濟的不斷發展和人民生活水平的日益提高,社會用電負荷也隨之快速增長,與此同時,對電網公司的供電可靠性和停電時間等重要指標也提出了更高的要求。特別是對于配網搶修工單的派發,要求及時快速、準確判斷。目前工單派發多數基于人工派單,或者系統向所有搶修隊派單由搶修隊搶單,工單的派發策略不夠合理,存在一定的主觀因素,這在一定程度上影響了派單的及時性以及后續搶修工作的完成效果。
1 技術架構
基于大數據產業鏈的定義,大數據的關鍵技術既包括數據分析技術等核心技術,也包括數據管理、數據處理、數據可視化等重要技術,技術架構圖如圖1所示。
數據抽取技術:對集成信息系統數據庫中的海量各類數據進行數據抽取,實時存入本系統數據倉庫中,數據主要用于分析,數據設計按照面向業務設計原則進行設計。本系統數據來源于PMS數據、95598工單數據、在線監測數據、線路巡視數據、輔助監控數據、歷史故障數據、線路監拍數據、實時負荷數據、APP使用數據等,經過數據抽取、數據清洗轉換、數據加載三個過程生成用于工單自動派發。數據是通過數據抽取工具從各集成系統中自動定期抽取,抽取的數據針對不同業務要求進行過濾,過濾掉臟數據和不完整數據形成可用于用電分析的數據。
數據分析技術:故障綜合預警預判,對大量需求數據進行數據準備、規律尋找和規律表示,挖掘的主要任務有數據關聯、聚類、分類等,以此實現各類故障的預測,為提高電網的運維檢修水平提供技術支持。
數據服務技術:為展示客戶端提供數據訪問服務,數據服務內嵌內存緩存數據庫,用于提高數據訪問性能。通過數據服務提供的多種分析數據輸出方式接口,為實時展現當前各類電網設備可能發生的故障情況提供支撐。
數據展現技術:數據的全方位、多角度展現。以熱力圖的方式,基于GIS展現電網設備故障風險。
系統安全:安全架構針對系統的具體業務特點,按照管理信息內、外網分離的安全要求建立起強健的信息安全防范體系,有效保護系統的信息安全,防范黑客和非法入侵者的攻擊。
系統應用的安全體系可分為技術層面的安全和管理層面的安全兩個部分。技術層面的安全設計主要包括應用安全、數據安全、系統安全、網絡安全、物理安全等,其中應用安全是業務安全防護體系的核心。管理層面的安全主要包括安全組織及人員保證、安全管理制度、安全技術規范、安全考核及監督等內容。
2 數據架構
大數據是體量巨大具有高價值的結構化、半結構化和非結構化數據。通過對大數據處理技術將這些數據轉化為業務需要的數據模型,發現大數據中的“信息”和知識,為行業內外提供大量的高附加值的內容增值服務。
大數據對數據特性、數據來源、數據獲取方式、數據獲取頻率等不同角度對數據進行分類、規劃、設計、部署,其數據架構如圖2所示。
3 故障預警預判模型
基于對歷史故障原因的深入分析,將故障分成大類,針對每類故障再劃分為子類,針對每個子類故障,根據支撐數據類型及維度的不同,選擇不同的機器學習方法計算其可能發生故障的概率,進而推算出可能發生故障的綜合概率以及最有可能發生故障的類型,實現對故障的預警預判。
3.1 故障因素分析
基于對歷史故障原因的分析,大致將故障分成如下5大類:電網設備自身故障、自然因素、外力因素、運維不當、其他因素。針對每類故障,同時將故障細分成小類:
針對電網設備自身故障,可以細分為架空導線故障、電纜故障、柱上設備故障、箱變故障、配電室故障、開關柜故障、環網柜故障、JP柜故障、電纜分支箱故障、桿塔故障、絕緣子故障、避雷器故障、其他設備故障。
針對自然因素,可以細分為雷擊、強風、洪水、地震、山體滑坡、雨雪冰凍。
針對外力因素,可以細分為盜竊、建設施工、車輛、外部火災、外部異物。
針對運維不當,可以細分為樹障、鳥害等小動物、消缺不及時、巡檢不到位、過負荷、過電壓。
3.2 分類建模
針對每一大類故障,分別建立對應的數據模型。
3.2.1 電網設備因素導致故障預測模型
針對設備故障,從設備實時監測數據、運行數據、設備制造廠商、設備運行年限、設備歷史故障次數等維度,針對歷史故障信息,建立電網設備自身故障預測模型。例如,針對環網柜設備,實時監測數據包括:溫度、濕度、局放、電纜溫度、母線樁頭溫度、避雷器放電次數、煙霧濃度等維度,運行數據包括電壓、電流等維度,設備制造廠商包括廠商名稱、設備批次等維度。
為了產生可視化的分類規則,避免了線性回歸事先假定的線性關系不符合實際造成較大誤差的情況,避免對函數形式事先進行假設而產生的假設誤差,使得產生的模型具有可解釋性,故采用樹形模式進行建模,同時,為了減少需要調整參數、提高分類速度、高效處理大樣本數據、實現特征因素的重要性估計、很好地處理類別變量、提高抗噪聲能力、提高泛化能力,使得模型對新樣本具有更強的適應性,在決策樹的基礎上,選擇隨機森林方法進行建模。
隨機森林回歸的基本思路是:首先利用自助抽樣法,從原始數據中抽取N個樣本,且每個樣本容量都與原始數據集相通;然后對N個樣本分別建立N課樹,得到N個結果,最后對這N個結果取平均值得到最終的預測結果。
電網設備自身故障隨機森林模型由N棵樹組成,{F1(X),F2(X),……,FN(X)},其中X={x1,x2,……,xM}是故障的M維特征向量。結果會產生B個預測結果。對于回歸問題預測值為所有以樹預測結果的平均。算法流程如下:
(1)原始數據含樣本量為32 859,應用bootstrap方式抽樣選擇500個樣本集,構建500棵決策樹。每次抽樣未被抽到的樣本構成OOB(out of bag)樣本作為隨機森林的驗證樣本。
(2)樣本中變量個數為15,每一棵決策樹每一個節點隨機選擇k個變量進行基尼指標計算,確定合適的變量得到合適的劃分。使用隨機森林做回歸時,通常取k=P/3。本模型每次劃分選擇5個變量。
(3)每一棵決策樹生長到最大,無需進行剪枝,重復上述步驟直到生成500棵決策樹。
通過上述步驟,建立得到電網設備自身故障隨機森林模型,將OOB樣本輸入隨機森林模型得到故障預測精度。
隨機森林可以給出變量重要性排序,據此得出營銷故障發生的重要預測變量。其次,通過依次刪除預測變量的方式計算方差解釋性差值,得到變量的重要性排序。刪除某個變量后解釋性差值變化越大,證明這個變量越重要;解釋性差值變化越小,證明這個變量越不重要。
預測變量如表1所示:
為提高準確性,隨機森林運行10次得到方差解釋性,如表2所示:
方差平均解釋性為85.12%。
逐個刪除變量方差解釋性如表3所示:
方差解釋性變化如表4所示:
因此,對故障的發生貢獻影響因素最大的三個變量分別為溫度、濕度和局放。
通過bootstrap抽樣,未被抽到的樣本組成了K個袋外數據,構成OOB樣本。將入袋樣本作為測試集,將袋外樣本作為驗證集,衡量預測精度。隨機森林每一次bootstrap抽樣,會產生不同的OOB樣本,不同的OOB樣本會得到不同的預測精度。為保證預測準確性,對10次bootstrap得到的袋外數據計算預測誤差并取平均,得出預測精度平均為79.3982%,滿足要求。
3.2.2 自然因素導致故障預測模型
在自然因素中,雷擊、強風、洪水、地震、山體滑坡、雨雪冰凍等,多與故障的產生呈現一定的線性關系,采用線性回歸方法對故障進行預測。選取特征X={x1,x2,……,xn}分別為:2小時內雷擊次數、平均風速、最大風速、洪水等級、地震等級、山體滑坡等級、覆冰厚度等,進行建模,預測值y為發生故障的概率。將自然因素特征X映射到故障發生概率y函數為:
選取71 982條歷史數據作為訓練集,用來訓練特征系數向量,損失函數為:
采用小批量隨機梯度下降(MSGD)方法,將損失函數最小化以得到特征系數向量,MSGD方法隨機采樣一個批量的樣本進行梯度計算,在保證算法收斂的同時,也提高了收斂速度。
選取一個batch大小為10的訓練樣本,每次迭代計算一小批樣本的誤差來進行梯度下降;
最終當兩次迭代的結果小于設定值,則完成求解,得出模型。
3.2.3 外力因素導致故障預測模型
外力因素為盜竊、建設施工、車輛、外部火災、外部異物等。選取特征值為是否發生盜竊、施工距離、電壓等級、車輛數量、是否發生外部火災、是否存在外部異物等。其中盜竊、車輛數量、外部火災、外部異物等參考歷史數據中的平均值,施工距離可以依靠設備附近監拍裝置圖像獲取。涉及特征量多為離散數據,選取決策樹方法進行建模。特征的選擇依靠信息增益比進行計算。
針對歷史數據,首先計算是否發生盜竊、施工距離、電壓等級、車輛數量、是否發生外部火災、是否存在外部異物等特征的信息增益:
其中信息增益為:
計算各特征的內部信息為:
計算通過信息增益比為:
通過比較得出信息增益比最大的特征,依據此特征進行劃分,劃分后再次計算其他特征的信息增益比,再進行劃分,直到信息增益比小于閾值,完成模型的訓練。
3.2.4 運維不當導致故障預測模型
運維不當因素包括樹障、鳥害等小動物、消缺不及時、巡檢不到位、過負荷、過電壓。選取特征值為周圍是否存在樹障、是否存在鳥害等小動物、缺陷發生時間、是否按計劃完成巡檢、負荷值、電壓值。同外力因素導致故障預測模型類似,選擇C4.5決策樹進行建模。
3.3 綜合建模
完成上述模型建立后,可獲取上述4類原因導致故障的概率,分別為P1、P2、P3、P4,根據歷史故障數據可以計算各類因素導致故障的權重,計為a1、a2、a3、a4,最終故障預判模型為:
故障發生概率P=a1×P1+a2×P2+a3×P3+a4×P4
4 技術實現路線
本系統技術實現路線如下:數據收集及存儲、數據分析、數據挖掘技術以及可視化展現4個部分。
4.1 數據收集與存儲
(1)電力系統數據
PMS系統中的數據主要包含電網設備信息、檢修計劃等,搶修人員根據搶修工單信息,獲取PMS中的電網設備及剛性計劃等,本系統對PMS系統中的數據不做存儲,僅進行實時調用。
95598數據主要包含:電話服務記錄、多媒體服務記錄、95598服務記錄、其他服務信息、語音記錄、客戶檔案信息、部門人員信息、公共信息共8類數據,其中95598服務記錄:主要包括業務受理信息、處理信息、流程信息等內容。以業務受理信息為例,按每天250條受理工單計算,年增91 250條記錄,容量約870 MB。
在線監測數據主要包含:架空導線、電纜、柱上設備、箱變、配電室、開關柜、環網柜、JP柜、電纜分支箱、桿塔、絕緣子、避雷器。本系統獲取各類設備的歷史及實時數據。共存儲57 GB數據。
巡視搶修信息的數據主要包含:巡視搶修工單信息,圖片、音視頻信息等。本系統保存所有巡視、搶修工單信息。按每月1.2 GB計算,年增長量為15 GB。
電網GIS平臺數據主要包含:地圖切片數據,路網數據,重要設備的CPS坐標信息。本系統對電網GIS平臺中的數據不做存儲,僅進行實時調用。
輔助監控數據主要包含變電站、環網柜等設備溫濕度、油色譜數據、微水、氣壓等數據。本系統獲取各類設備的歷史及實時數據。共存儲7.5 G信息。
歷史故障信息主要包括故障的基本信息、文本信息以及圖片、音視頻等數據。本系統一次性抽取400 G故障信息。
線路監拍數據為桿塔上監拍裝置拍攝的圖像信息。本系統獲取各類設備的歷史及實時數據。共存儲189 G信息。
實時負荷數據為開關的電壓、電流等數據。本系統獲取各類設備的歷史及實時數據。共存儲3.4 G信息。
APP使用數據主要包括APP的使用日志信息,按照每月500 M計算,年增長量為6 G。
(2)外部數據
氣象數據主要為網格化的氣象數據,包括溫度、濕度、風力、最高氣溫、最低氣溫、臺風預警、山火預警等。網格大小約為16平方公里。本系統對氣象數據不做存儲,僅進行實時調用。
路況信息主要為路徑導航數據、道路擁堵情況數據、臨時封堵與管制信息等。本系統對路況信息不做存儲,僅進行實時調用。
網絡輿情數據主要為主流社交媒體中電力相關的輿情信息。本系統對網絡輿情數據不做存儲,僅進行實時調用。
(3)數據收集
數據采集方法有數據復制、ETL、OGG、ESB等,可以根據實際業務選擇采集方法,采集所要分析的數據集。對數據存儲可以根據讀寫效率、存儲成本、存儲管理的不同運用選擇存儲方法,例如分布式關系數據庫、分布式文件存儲系統、分布式內存數據庫、分布式NoSql數據庫等。
4.2 數據分析
大數據分析是運用大數據分布式計算方式結合分析模型對初始數據進行數據分析。大數據處理的方式有基于實時計算的流計算、內存計算、CEP復雜事件處理計算以及非實時計算的Map/Reduce處理方式等,計算方式可以根據實際業務的需要來選擇。在數據分析過程中,首先對初始數據進行輕度加工,形成分析型數據,然后通過分析模型的應用,得到分析結果數據并形成價值服務數據,如圖4所示。
4.3 數據挖掘技術
(1)決策樹
決策樹(Decision Tree)是一種非常成熟的、普遍采用的數據挖掘技術。之所以稱為樹,是因為其建模過程類似一棵樹的成長過程,即從根部開始,到樹干,到分枝,再到細枝末節的分叉,最終生長出一片片的樹葉。在決策樹里,所分析的數據樣本先是集成為一個樹根,然后經過層層分枝,最終形成若干個結點,每個結點代表一個結論。決策樹算法之所以在數據分析挖掘應用中如此流行,主要原因在于決策樹的構造不需要任何領域的知識,很適合探索式的知識發掘,并且可以處理高維度的數據。在眾多的數據挖掘、統計分析算法中,決策樹最大的優點在于它所產生的一系列從樹根到樹枝(或樹葉)的規則,可以很容易地被分析師和業務人員理解,而且這些典型的規則甚至不用整理(或稍加整理),就是現成的可以應用的業務優化策略和業務優化路徑。另外,決策樹技術對數據的分布甚至缺失非常寬容,不容易受到極值的影響。
(2)聚類分析
聚類(Clustering)分析有一個通俗的解釋和比喻,那就是“物以類聚,人以群分”。針對幾個特定的業務指標,可以將觀察對象的群體按照相似性和相異性進行不同群組的劃分。經過劃分后,每個群組內部各對象間的相似度會很高,而在不同群組之間的對象彼此間將具有很高的相異度。
(3)關聯規則
關聯規則(Association Rule)是在數據庫和數據挖掘領域中被發明并被廣泛研究的一種重要模型,關聯規則數據挖掘的主要目的是找出數據集中的頻繁模式(Frequent Pattern),即多次重復出現的模式和并發關系(Cooccurrence Relationships),即同時出現的關系,頻繁和并發關系也稱作關聯(Association)。
(4)回歸分析
回歸(Regression)分析包括線性回歸(Linear Regression),這里主要是指多元線性回歸和邏輯斯蒂回歸(Logistic Regression)。其中,在客戶全面感知數據分析中更多使用的是邏輯斯蒂回歸,它又包括響應預測、分類劃分等內容。
多元線性回歸主要描述一個因變量如何隨著一批自變量的變化而變化,其回歸公式(回歸方程)就是因變量與自變量關系的數據反映。因變量的變化包括兩部分:系統性變化與隨機變化,其中,系統性變化是由自變量引起的(自變量可以解釋的),隨機變化是不能由自變量解釋的,通常也稱作殘值。
4.4 可視化展現
大數據應用基于準備數據,依據分析模型,分析統匯出結果,需要對分析結果進行可視化展現以及驗證。
數據可視化展現實現面向客戶、面向服務人員、面向管理人員、面向決策人員的大數據結果可視化展示。根據業務數據集的特征和潛在結構選擇合理的可視化模型,主要模型有多維可視化模型(散點圖、線形圖、柱形圖、餅形圖)、特殊的地形和層次可視化模型(地圖和樹型圖),以及混合模型(圖文說明圖、動態效果圖)等。可視化的技術有適合強交互多數據展示的Flex、強交互多動畫展示的Flash、強交互動態展示的Silver Light、強交互多圖文展示的Html5等。
數據可視化驗證可以從驗證業務數據集的邏輯轉換和驗證業務假設進行驗證,驗證其分析結果是否符合預期或者是否可以依據分析結果做出預判等。根據驗證結果也可以不斷調整和完善大數據應用中各個業務的分析模型。
參考文獻
[1] 施文波,俞君杰,李校驍,等.電力GIS系統的設計與實現[J].現代電子技術,2015,38(21):155-158.
[2] 張婷.GIS系統在供電局配電網中的應用探討[J].城市建設理論研究(電子版),2014,(7).
[3] 徐建.基于GIS的電力配網系統探討[J].低碳世界,2015,(26):90-91.
[4] 謝炯,額爾敦,李欣,等.電力生產GIS服務平臺的研究與設計[J].電力信息與通信技術,2013,11(9):85-89.
[5] 蔣錦霞,莊曉丹,梅峰,等.配網生產搶修指揮平臺設計及應用[J].電力信息化,2013,11(5):57-61.
[6] 姚楠,陳哲,劉玉林,等.基于GIS的電網氣象災害監測預警系統的研制[J].電力信息化,2013,11(3):41-45.
[7] 崔巍,王本德.電力搶修監控調度系統開發和應用[J].電力系統自動化,2002,26(19):64-67.
[8] 郭建成,錢靜,陳光,等.智能配電網調度控制系統技術方案[J].電力系統自動化,2015,(1):206-212.
[9] 翁穎鈞,朱仲英.地理信息系統技術在電力系統自動化中的應用[J].電力系統自動化,2003,27(18):74-78.
[10] 劉友波,劉洋,劉俊勇,等.基于Hadoop架構的電力系統連鎖故障分布式計算技術[J].電力系統自動化,2016,40(7):90-97.
[11] 夏可青,陳根軍,李力,等.基于多數據源融合的實時電網故障分析及實現[J].電力系統自動化,2013,(24):81-88.
[12] 陳春,王業平,崔毅敏,等.電網故障信息系統中的故障分析與判斷[J].電力系統自動化,2011,35(19):97-100.
[13] 林穎,郭志紅,陳玉峰,等.基于卷積遞歸網絡的電流互感器紅外故障圖像診斷[J].電力系統保護與控制,2015,(16):87-94.
[14] 李雨舒,李明珍.無人值班變電站遙控常見故障的分析與處理[J].電力系統保護與控制,2009,37(18):145-146.
[15] 李濤,吳冰,潘磊,等.應急指揮中心信息接入方法研究[J].電力信息化,2012,10(11):38-42.
[16] 張尚謨,王永紅,華侃,等.應急指揮中心多級音視頻互聯的研究及應用[J].電力信息化,2012,10(5):33-36.
[17] 李嘯東,渠毅,郝小龍,等.電網全景展現與運行指揮系統的應用[J].電力信息化,2012,10(1):90-94.
[18] 曾東,王法,許金明,等.基于輸電狀態監測平臺的巡檢系統研發及應用[J].電力信息化,2011,09(11):96-99.
作者信息:
劉周斌1,何 颋2,李沁園1,胡曉哲2,項 翔2,袁永軍2,王海峰2
(1.國網浙江省電力有限公司電力科學研究院,浙江 杭州310007;2.國網浙江杭州市富陽區供電有限公司,浙江 杭州311400)