cda

全國校區

您的位置:首頁 > 案例分享 > 電力竊漏電用戶識別案例

電力竊漏電用戶識別案例

2018-01-25

一、案例綜述
案例編號:
102003

案例名稱:
電力、熱力、燃氣及水生產和供應業——電力竊漏電用戶識別

作者姓名(或單位、或來源):
朱江

案例所屬行業:
D442 電力供應

案例所用軟件:
R

案例包含知識點:
拉格朗日插補,神經網絡,CART決策樹,ROC曲線

案例描述:
目標:防竊漏電,找出可能存在竊漏電的可疑用戶做進一步處理
傳統方法:定期巡檢、定期校驗電表、用戶舉報竊電
缺點:對人依賴性強,目標不明確,工作量大

目前常用方法:利用計量異常報警功能,電能量數據查詢功能,進行用戶用電情況的在線監督。采集的信息主要有:電量異常、負荷異常、終端報警、主站報警、線損異常等。根據報警事件發生前后客戶計量點有關的數據情況(電流、電壓、負荷),構建基于指標加權的用電異常分析模型。


缺點:終端誤報漏報過多,以致無法高效高速定位。指標權重拍腦門,需要專家的知識和經驗,主觀性可能會導致不準確。

分析過程:
要剔除不可能存在漏電的大用戶,如銀行、稅務、學校、工商。用電負荷隨著時間的變化才有價值,而終端報警存在誤報和漏報,而這些數據都能夠幫助總結用戶竊漏電的行為規律,即通過預處理提煉出描述用戶竊漏電特征的相關指標,最終得到建模使用的專家樣本數據集,然后開始建模等工作。主要步驟如下:

1.從電力計量自動化系統、營銷系統有選擇性地抽取部分大用戶用電負荷、終端報警及違約竊電處罰信息等原始數據。
2.剔除白名單用戶,即不可能存在漏電的用戶。描述性和探索性分析正常用戶和竊漏電用戶的用電特征。
3.處理樣本缺失值,通過經驗構建特征指標,形成專家數據集
4.構建竊漏電用戶識別模型
5.模型落地,在線監測用戶用電負荷及終端報警,調用模型實現實時診斷。
6.通過對診斷結果的評估,優化或者重構模型

數據預處理:
1.數據清洗:
剔除白名單用戶,這里把這些用戶歸為非居民類別
剔除節假日用電數據,根據業務經驗節假日用電量明顯偏低(大部分用戶為企業用戶)

2.缺失值處理
如果直接將缺失值剔除,會嚴重影響供出電量的計算結果,從而導致日線損率誤差很大,故本案例采用拉格朗日插值法對缺失值填補。
拉格朗日插補可以選取缺失值前后5個數據或者和鄰近缺失值之間的所有數據,組成一組,使用如下公式:

其中x為缺失值對應的序號,x_i為非缺失值y_i的序號,對全部缺失值依次填補,直到不存在缺失值。

3.數據變換
需要通過新的評價指標來表征竊漏電用戶的行為規律,故根據業務經驗和專業理論引出三個評價指標:電量趨勢下降指標、線損指標、告警類指標
電量趨勢下降指標:取統計當天及前后五天共11天的數據,通過線性擬合計算斜率,如果當天的斜率小于前一天的,則計數加1,可以據此計算敏感時期內的總計數。
線損指標:線損率具體查看相關電學知識,取當天及前五天線損均值,當天及后五天線損均值比較,如果增長率大于1%,則記為1,否則為0
告警類指標:取自終端報警次數總和

本案例共包含五個知識點:
1.拉格朗日插值法:使用拉格朗日填補法填補缺失值
2.數據清洗及轉換:通過作圖在時間維度上查看前后5天內的電量均值變化趨勢;計算電量下降趨勢指標;計算線損指標
3.數據劃分:劃分訓練樣本和測試樣本,方便比對模型的有效性
4.神經網絡建模:運用較為簡單的BP神經網絡建立分類模型
5.構建CART決策樹模型
6.模型評價:利用ROC曲線在測試集上評價模型

案例執行形式:
單人上機

二、案例知識點:
知識點1:
知識點名稱:拉格朗日插值法

知識點所屬工作角色:
缺失值處理

知識點背景:
處理缺失值的一種插補方式

知識點描述
采用拉格朗日多項式插補公式對缺失值進行插補

知識點關鍵詞:
拉格朗日多項式 缺失值插補

知識點所用軟件:
Rstudio

操作目的:
能夠自主編程實現拉格朗日插補

知識點素材(包括數據):
missing_data.xls

操作步驟:
1.啟動Rstudio
2.使用setwd()函數設置工作目錄,將數據文件拷貝至工作目錄下
3.加載xlsx包,讀取素材文件,.xls格式
4.根據拉格朗日插值法創建拉格朗日插值函數

5.創建自動替換數據框缺失值的函數,找到每個缺失值,并且讀取每個缺失值前后五個或者距離上個缺失值之間的數值,采用之前創建的拉格朗日插值函數填補。

6.對讀取到的數據應用上一步的函數處理,并且保存
 
處理前后對比如下:
   
操作結果:
數據前后對比如上圖
將R代碼文件保存為newdata.csv以備后續使用。

知識點小結:
拉格朗日插值法目前現成的函數都是用于擬合多項式,插值填補的話可以自己寫函數并且取自己覺得合適的前后數據處理

知識點2:
知識點名稱:數據清洗及轉換

知識點所屬工作角色:
數據清洗及轉換

知識點背景:
通過業務邏輯按照條件篩選數據,關鍵點在于按照條件篩選,以及理解業務邏輯,進而計算需要的指標

知識點描述
使用階躍函數按條件篩選數據
創建函數

知識點關鍵詞:
篩選變量 創建函數

知識點所用軟件:
Rstudio

操作目的:
篩選數據
按照業務邏輯生成新指標

知識點素材(包括數據):
用戶日用電量.xls

操作步驟:
1.讀取數據:用戶日用電量.xls
2.進行簡單的數據清洗,讀取行數
3.通過循環,用自建函數篩選觀測,計算日均電量,多日電量斜率,日均線損

4.作日均電量的點線圖,注意圖形參數的調整,加入回歸線,以及原始的電量數據
5.將圖形輸出到外部設備上,即輸出mat.png文件

 

得到圖形如上所示
使用上上步計算得到的數據計算電量趨勢下降指標、線損指標、并且結合對應的時間以區分
將得到的指標放在數據框內,并且輸出到文件pro.csv中
 
得到的文件部分內容如下


操作結果:
生成圖形觀察日均電量相對于原始電量的變化趨勢,從而判斷用戶是否為可以的竊漏電用戶
生成新指標,并且輸出新指標的表格

知識點小結:
主要涉及到通過階躍函數按照業務邏輯篩選觀測,按照業務邏輯構建新指標,輸出新指標的趨勢圖以及統計表格

知識點3:
知識點名稱:數據劃分

知識點所屬工作角色:
數據劃分

知識點背景:
數據劃分是在進行數據清洗和描述性分析后,在建模之前必備的一步,由于很多訓練模型很容易出現過擬合的狀況,所以需要通過獨立于訓練數據的測試數據來觀察模型實際應用在新數據上的效果。

知識點描述
數據劃分

知識點關鍵詞:
數據劃分 

知識點所用軟件:
Rstudio

操作目的:
對清洗后的數據進行數據劃分

知識點素材(包括數據):
model.csv

操作步驟:
1.讀取數據,創建符合七三比例的隨機數

2.根據創建的隨機數生成訓練集和測試集,并且寫入文件
 
操作結果:
生成兩個數據文件,訓練數據和測試數據

知識點小結:
本知識點只是對數據進行了簡單的分割,分成訓練數據和測試數據,有興趣的同學可以進一步使用交叉驗證進行進一步的模型選擇

知識點4:
知識點名稱:神經網絡建模

知識點所屬工作角色:
數據挖掘建模

知識點背景:
使用神經網絡構建分類模型

知識點描述
神經網絡建模

知識點關鍵詞:
BP神經網絡

知識點所用軟件:
Rstudio

操作目的:
熟悉使用BP神經網絡建模的基本過程

知識點素材(包括數據):
traindata.csv

操作步驟:
1.讀取數據,將預測列轉換為因子列
 
2.使用神經網絡建模

3.根據模型預測訓練集,計算混淆矩陣、準確率
 
4.將預測結果與訓練集橫向合并并且輸出到output.csv文件,將模型輸出到nnetmodel.RData文件

操作結果:
得到的混淆矩陣如下

得到的準確率是94.17


知識點小結:

神經網絡模型的關鍵在于參數的選擇,而參數涉及到隱層層數,每層節點數,學習率或者衰減率,最大迭代次數等等。而R中一些常見的神經網絡的包有自己的計算邏輯也需要進一步了解。

知識點5:
知識點名稱:構建CART決策樹模型

知識點所屬工作角色:
數據挖掘建模

知識點背景:
使用CART決策樹構建分類模型

知識點描述
CART決策樹

知識點關鍵詞:
CART決策樹

知識點所用軟件:
Rstudio

操作目的:
熟悉使用cart決策樹建模的基本過程

知識點素材(包括數據):
traindata.csv

操作步驟:
1.讀取數據,將預測列轉換為因子列

2.使用cart決策樹建模,總結模型并且畫出決策樹圖

 

3.根據模型預測訓練集,計算混淆矩陣、準確率

4.將預測結果與訓練集橫向合并并且輸出到output1.csv文件,將模型輸出到treemodel.RData文件

操作結果:
得到的混淆矩陣如下
 
得到的準確率是92.72

知識點小結:
決策樹只能做比較簡單的分類,復雜的分類在精確度要求高的時候需要用到隨機森林

知識點6:
知識點名稱:模型評價

知識點所屬工作角色:
模型評價

知識點背景:
模型評價:利用ROC曲線在測試集上評價模型

知識點描述
模型評價

知識點關鍵詞:
ROC曲線

知識點所用軟件:
Rstudio

操作目的:
熟悉使用ROC曲線評價模型

知識點素材(包括數據):
testdata.csv nnetmodel.RData treemodel.RData

操作步驟:
1.讀取數據,讀取兩個模型數據

2.在測試數據集上繪制神經網絡模型的ROC曲線

 

3.在測試數據集上繪制決策樹的ROC曲線

 

操作結果:
得到的ROC曲線如前所示,可見神經網絡ROC曲線下的面積更大,說明神經網絡分類模型的分類性能較好

知識點小結:
ROC曲線常用來在測試集上檢測用于分類的模型的好壞

完 謝謝觀看

分享
收藏

OK
3d彩经网免费预测