zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

方法下载数据 详细 简介 攻略 Dataset 使用
2023-09-14 09:04:44 时间

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

目录

GiveMeSomeCredit数据集的简介

1、数据集基本描述

2、EDA后总结

3、数据集基本形状

Give Me Some Credit数据集的下载

Give Me Some Credit数据集的使用方法


GiveMeSomeCredit数据集的简介

       银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。
       基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。

Serious

Dlqin

2yrs

Revolving

UtilizationOf

Unsecured

Lines

age

Number

Of

Time

30-59

Days

Past

Due

Not

Worse

DebtRatio

Monthly

Income

Number

OfOpen

Credit

Lines

And

Loans

Number

OfTimes

90Days

Late

Number

Real

Estate

Loans

Or

Lines

NumberOfTime60-89DaysPastDueNotWorseNumberOfDependents
110.7661266094520.8029821299120130602
200.9571510194000.121876201260040001
300.658180143810.085113375304221000
400.2338097763000.036049682330050000
500.90723944910.0249256956358870100
600.2131786827400.375606969350030101
700.3056824655705710NA80300
800.7544636483900.209940017350080000
900.11695064427046NA2000NA
1000.1891690525700.6062909012368490402
1100.6442259623000.30947621250050000
1200.018798125100.53152876650170202
1300.0103518574600.29835407512454130202
1410.9646725554030.3829647471370093112
1500.019656581760477060100
1600.5484580626400.2098917541136270102
1700.0610861187802058NA100200
1800.1662840795300.18827406880070000
1900.2218127714300.527887839328070102
2000.6027944112500.06586826333320000

1、数据集基本描述

Variable Name

Description/EDA

Type

EDA

11

SeriousDlqin2yrs

Person experienced 90 days past due delinquency or worse

逾期90天或更糟

Y/N

Serious Delinquent in 2 year,也就是2年内发生严重逾期,其中”严重“定义为逾期超过90天。
分析:定义为模型的label,一般逾期超过90天以上,客户标记为1(坏客户),其余标记为0(好客户)。例如你2018年1月1号开卡,每个月1号是还款日。例如你2019年4月1号是你的还款日,然后你在7月1号前都没还钱,那这时候逾期就超过90天了,你的数据标签就为1。

本数据集中,大约6%的样本违约。

1

age

Age of borrower in years

借款人年龄(以年为单位)

integer

可知有更多的年轻人违约,而且总体分布似乎还不错

2

MonthlyIncome

Monthly income

月收入

real

存在缺失值,29731(19.82%)

数值分布偏斜,我们可以考虑用中位数进行插补。

我们还可以考虑用正态分布值及其均值和标准差进行插补。

3

NumberOfDependents

Number of dependents in family excluding themselves (spouse, children etc.)

家庭受扶养人数(配偶、子女等除外)

integer

存在缺失值,3924 (2.61%)

我们可以考虑用它的众数进行插补,众数为零。

4

DebtRatio

Monthly debt payments, alimony,living costs divided by monthy gross income

每月的债务支付,赡养费,生活费除以每月的总收入

percentage

2.5%的客户的负债大约是他们所拥有资产的3490倍或更多;

对于月收入在2.5%的人来说,只有185人的月收入值是0或1;

这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。

5

NumberOfOpenCredit
LinesAndLoans

Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)

公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡)

integer

6

NumberRealEstate
LoansOrLines

Number of mortgage and real estate loans including home equity lines of credit

按揭和房地产贷款的数量,包括房屋净值信贷额度

integer

7

RevolvingUtilization
OfUnsecuredLines

Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits

除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和

percentage

定义为所欠款项总额与总信用额度之比率;
分析:值的分布是右偏的,考虑删除离群值;

处理逻辑:预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。

因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。

8

NumberOfTime30-59DaysPastDueNotWorse

Number of times borrower has been 30-59 days past due but no worse in the last 2 years.

借款人逾期30-59天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(13~96)次的样本

9

NumberOfTime60-89DaysPastDueNotWorse

Number of times borrower has been 60-89 days past due but no worse in the last 2 years.

借款人逾期60-89天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(11~96)次的样本

10

NumberOfTimes
90DaysLate

Number of times borrower has been 90 days or more past due.

借款人逾期90天或以上的次数。

integer

有趣的是,不存在逾期(17~96)次的样本
详见EDA分析后总结

2、EDA分析后总结

         通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的

NumberOfTime30-59DaysPastDueNotWorse

NumberOfTime60-89DaysPastDueNotWorse

NumberOfTimes90DaysLate

0     126018

1      16033

2       4598

3       1754

4        747

5        342

6        140

7         54

8         25

9         12

10         4

11         1

12         2

13         1

96         5

98       264

0     142396

1       5731

2       1118

3        318

4        105

5         34

6         16

7          9

8          2

9          1

11         1

96         5

98       264

0     141662

1       5243

2       1555

3        667

4        291

5        131

6         80

7         38

8         21

9         19

10         8

11         5

12         2

13         4

14         2

15         2

17         1

96         5

98       264

3、数据集基本形状

 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   Unnamed: 0                            150000 non-null  int64  
 1   SeriousDlqin2yrs                      150000 non-null  int64  
 2   RevolvingUtilizationOfUnsecuredLines  150000 non-null  float64
 3   age                                   150000 non-null  int64  
 4   NumberOfTime30-59DaysPastDueNotWorse  150000 non-null  int64  
 5   DebtRatio                             150000 non-null  float64
 6   MonthlyIncome                         120269 non-null  float64
 7   NumberOfOpenCreditLinesAndLoans       150000 non-null  int64  
 8   NumberOfTimes90DaysLate               150000 non-null  int64  
 9   NumberRealEstateLoansOrLines          150000 non-null  int64  
 10  NumberOfTime60-89DaysPastDueNotWorse  150000 non-null  int64  
 11  NumberOfDependents                    146076 non-null  float64
dtypes: float64(4), int64(8)
memory usage: 13.7 MB

Give Me Some Credit数据集的下载

数据集下载Give Me Some Credit | Kaggle


Give Me Some Credit数据集的使用方法

更新中……