cda

全國校區

您的位置:首頁 > 案例分享 > 銀行數據寬表構建和描述分析

銀行數據寬表構建和描述分析

2018-07-04

一、案例綜述

案例編號:

102005

案例名稱:

銀行數據寬表構建和描述分析

作者姓名(或單位、或來源):

朱江

案例所屬行業:

J662 貨幣銀行服務

案例所用軟件:

R

案例包含知識點:

寬表構建 數據描述

案例描述:

案例描述部分主要有兩個內容,一是介紹客戶信息的基本概念和分類;二是案例數據的基本介紹和ER


一. 客戶信息

客戶信息的收集主要用于客戶分析,而客戶分析一般是由公司內部不同部門組成的跨領域的團隊實現的。客戶分析的目標是找到一個單一準確的視角來制定策略,從而最優化的獲取和保留客戶、定義高價值客戶。為了能夠更好的實現客戶分析,必須全方面的收集客戶信息,客戶信息主要分為以下四類。

? 描述信息:客戶的基本屬性信息,包括人口統計學的信息諸如性別、年齡、地理位置和收入,也包括自我描述類信息,對于產品的偏好和評價信息。從這些數據中可以細分出關于客戶的有用的特征和分類,例如早期采用者(在產品介紹期和成長期采用新產品,對后面的采用者影響很大)、性價比追求者或特定的顧客角色。這些信息可以來自買賣信息、注冊記錄、調查、回訪、情景訪談。這類信息一般易采集,但是質量難以保證。

? 行為信息:客戶的行為信息,即客戶在使用產品和服務的時候表現出來的一般的模式,包括購買行為、注冊、瀏覽以及使用不同的設備等。例如經調查發現一些特定產品分類(消費性電子產品、家具)的顧客,晚上傾向于使用平板電腦購買,而白天傾向于使用臺式機購買。行為信息的特點在于實時采集,需要整合匯總。

交互信息:客戶和網站的交互信息,包含網站或者軟件的點擊信息、導航路徑以及瀏覽行為。主要用途在于網站或軟件實用性能測試,例如通過模擬真實的交互得到點擊間隔對應的等級。收集數據的途徑有:A/B測試,谷歌分析師(Google Analytics),實驗室收集等。

? 態度信息:客戶偏感性的信息,例如偏好、選擇、愿望、品牌認可度及情懷等,可以通過調查問卷、特定關注群體的調查以及使用性測試等獲得。一些知名的調查問卷公司常用來量化行為和交互信息對態度信息的影響。這些態度可能會影響描述信息中的量化的某些自我描述信息。

下圖解釋了這些信息之間的關系。

 

客戶信息通常存儲在數據倉庫中,結合基于CRM數據挖掘方法論進行信息分析,與商業應用結合最終產生價值。

二. 案例介紹

本案例的數據源自某銀行的真實客戶與交易數據,主要涉及客戶的主記錄、賬號、交易、業務和信用卡數據等,即客戶的一些描述信息和行為信息。一共八張二維表,存儲在關系型數據庫中,這些表的信息如下。

表名

標簽

備注

主鍵

accounts

賬戶表

賬戶信息

account.id

card

信用卡表

賬戶的信用卡信息

card_id

clients

客戶信息表

客戶的特征信息

client_id

disp

權限分配表

客戶與賬戶的操作權限信息

disp_id

district

人口統計信息表

客戶所在地區的人口統計信息

A1

loans

貸款表

客戶的貸款信息表

loan_id

order

消費信息表

客戶的刷卡消費的信息

order_id

trans

交易表

客戶的交易信息

trans_id

這里使用實體聯系模型圖(Entity-relationship model,俗稱ER圖)來描述這些表的關系,這里沒有嚴格的引用標準的ER模型圖形符號,我們的目標在于能夠詳盡的說明各表的組成和相互之間的邏輯關系。

 

圖中共八個表格,其中深灰色帶下劃線的字段是主鍵。數據中包含的邏輯關系有:1. 一個人可以有多個賬戶,一個賬戶id可以對應多個客戶id,即可以多個人共同管理一個賬戶,賬戶與客戶的關系在權限分配信息表中顯示。2. 貸款和信用卡為銀行提供給客戶的服務。3. 一個賬戶可以有多張信用卡。4. 一個賬戶只能一筆貸款。

數據可以用于構建客戶違約貸款模型,即根據客戶的描述信息和行為信息預測新客戶是否會產生違約行為,為銀行客戶關系管理提供數據依據,從而有效的控制違約風險。于是這里就需要一個結構化的規整的寬表數據。用于數據清洗、描述及挖掘。

涉及到的數據處理有:1. 數據清洗,即根據業務知識將初始數據轉換成在邏輯上對目標變量有預測能力的衍生數據,形成寬表,且在時間上只考慮客戶最近兩年的行為信息。2. 依據貸款表的還款狀態定義客戶是否違約。3. 描述分析衍生變量和目標變量之間的關系,從而分析這些變量對目標變量的影響程度。


本案例共包含三個知識點

讀取數據,根據業務知識生成衍生變量,形成寬表

2 描述分析衍生變量和目標變量之間的關系

3 使用邏輯回歸預測是否違約

案例執行形式

單人上機


二、案例知識點:

知識點1

知識點名稱:讀取數據,形成寬表

知識點所屬工作角色:

數據導入,數據轉換

知識點背景:

使用R導入csv格式的文件,依據業務邏輯轉換目標變量,形成寬表

知識點描述

加載使用到的包,讀取多個文件,轉變目標變量

知識點關鍵詞:

R 讀取數據,數據轉換

知識點所用軟件:

Rstudio

操作目的:

R讀取csv文件,轉換目標變量

知識點素材(包括數據):

accounts.csv card.csv clients.csv disp.csv district.csv load_credit.csv loans.csv order.csv       trans.csv  

操作步驟:

操作步驟:

bank文件夾拷貝到工作路徑下,設置工作路徑

 

? 加載要用的數據包

 

讀取數據,一般情況下都要設置參數stringsAsFactors(字符自動轉為因子)為假

 

得到的讀取結果:

 

可見其中trans表包含的觀測最多,有105萬行

生成違約標識變量,根據loans表中變量status生成違約標識變量bad_good,這里使用ifelse函數。

 

? 客戶描述信息

客戶信息這里涉及到loansclientsdispdistrict 表,需要進行橫向連接操作,這里篩選賬戶權限為‘所有者’的客戶賬戶,根據相同字段進行簡單的四表相連。而當數據量較大時一般先在單一表內計算衍生字段再進行連接。先將四表橫向連接。

 

客戶描述信息基于base表進一步衍生,客戶貸款時的年齡可以由客戶出生日期與貸款的時間差產生,同事計算客戶居住地區的平均失業率、居住地區的平均犯罪率、人均GDP

 

選擇對自己有用的字段生成客戶基本信息表。

 

至此包含目標變量的客戶基本信息表info已經生成。得到的結果:

 

? 客戶行為信息

trans表中,amountbalance兩個字段格式需要處理成數值型。

 

這里選擇兩年作為一個時間段,即選取每一個客戶貸款前兩年的數據。即需要根據trans表中客戶的貸款時間找到每一個客戶最近的貸款時間,并以此選擇前兩年的數據。

 

根據tmp2表生成貸款前兩年每個客戶的平均賬戶余額、標準差、變異系數。

 

根據tmp2表生成貸款前兩年的出入賬比率。首先按照客戶賬號和借貸類型計算對應的總金額,然后計算出入賬比率。

 

生成客戶行為信息表。

 

? 寬表匯總

將客戶描述信息表與客戶行為信息表進行連接得到待分析的寬表。

 

最終得到的寬表data0682個客戶觀測,14個維度變量,變量匯總如下:

 

 

至此我們得到了最終用于描述性分析和進一步推斷分析使用的寬表。寬表中可見原始變量只有4個(包含標識變量),而衍生變量有10個,占了七成以上。在實際需求中,尤其是數據量較大的時候,需要生成一些衍生變量抽取數據中的關鍵信息。也可以根據業務邏輯需求生成特定的衍生變量。

? 保存表

 

操作結果:

如操作步驟中顯示生成新的衍生變量,匯總成新的寬表


知識點小結:

本知識點顯示了數據前期處理的完整流程,關鍵在于衍生變量邏輯上的選取和生成

知識點2

知識點名稱:數據描述

知識點所屬工作角色:

數據描述

知識點背景:

基本的數據描述分析包括描述性數據分析和探索性數據分析,描述性分析的目標主要在于描述數據集,而探索性分析的目標主要是在描述的基礎上發現新的關聯或者是未知的關系

知識點描述

描述性分析,探索性分析

知識點關鍵詞:

描述性分析 探索性分析 箱線圖 柱狀圖

知識點所用軟件:

Rstudio

操作目的:

? 進行部分描述性分析,觀察某些自變量與因變量之間的關系。因變量是否違約屬于分類變量,多用箱線圖和柱狀圖進行初步的觀察。

知識點素材(包括數據):

data_final.csv

操作步驟:

? 讀取數據,處理因變量使得易于理解

 

 

? 觀察因變量,對因變量是否違約進行探索,觀察變量分布情況。

 

 

? 探索因變量與連續變量

這里分析年齡和因變量之間的關系,探索不同年齡下客戶的違約行為是否有差異。

 

 

? 探索因變量與分類變量

 

 

操作結果:

以上例舉了常用的描述性分析的方法,用于初步觀察數據之間的關系。

知識點小結:

描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關系。 

知識點3

知識點名稱:3 使用邏輯回歸預測是否違約

知識點所屬工作角色:

回歸分析

知識點背景:

? 使用多元邏輯回歸進行推斷和預測分析

? 得到系數并且進行初步的觀察和解釋

? 通過逐步法和方差膨脹因子優化模型

知識點描述

邏輯回歸

知識點關鍵詞:

邏輯回歸 逐步法 方差膨脹因子

知識點所用軟件:

Rstudio

操作目的:

? 使用多元邏輯回歸進行推斷和預測分析

? 得到系數并且進行初步的觀察和解釋

? 通過逐步法和方差膨脹因子優化模型

知識點素材(包括數據):

data_final.csv


操作步驟:

? 讀取數據,去除缺失值

 

? 初步邏輯回歸

 

 

結果中只有一個顯著性變量,并不合理,可能是因為別的變量之間相互抵消減弱了對預測變量的影響,故接著用逐步法對模型進一步優化

進行逐步logsitic回歸

 

 

 

最終得到結果

 

可見其中對y有影響的變量是貸款金額,余額標準差,變異系數,出入賬比率

? 查看共線性

 

 

可見沒有多重共線性的影響

? 總結

從經過優化的回歸結果可以看出衍生變量對預測模型產生的重要作用

操作結果:

見操作步驟中的總結部分

知識點小結:

邏輯回歸中一般需要用逐步法對模型進行優化,并且需要注意多重共線性的檢驗。

完 謝謝觀看

分享
收藏

OK
3d彩经网免费预测