Kann in der Kreditrisikoanalyse ermittelt werden, welche Indikatoren das Kreditrisiko für jedes Kundenunternehmen beeinfPython

Python-Programme
Anonymous
 Kann in der Kreditrisikoanalyse ermittelt werden, welche Indikatoren das Kreditrisiko für jedes Kundenunternehmen beeinf

Post by Anonymous »

Ich arbeite an der Kreditrisikoanalyse. Ich möchte das Risiko vorhersagen, dass jedes Unternehmen Schulden bei einem fiktiven Unternehmen entwickelt. Ich habe die Merkmalsbedeutung aus dem Modell erhalten, möchte aber wissen, ob es möglich ist, zu ermitteln, welche Indikatoren das gefundene Risiko für jedes Kundenunternehmen beeinflussen.
Zum Beispiel hat Kundenunternehmen X ein Risiko von 70 % und dieses Risiko hängt mit den Variablen Stadt, Alter und Anzahl der Mitarbeiter zusammen. Ein anderes Kundenunternehmen Y kann ein Risiko von 80 % haben, und das Risiko hängt mit den Variablen Stadt, Dienst und Durchschnittsgehalt zusammen.
Ich führe eine einfache Erstanalyse mit den folgenden Schritten durch, bei der das Modell mit 20 Indikatoren von Unternehmen trainiert wird, die bereits Schulden gemacht haben (Klassifizierung 1) und der gleichen Anzahl anderer Unternehmen, die keine Schulden gemacht haben (Klassifizierung 0). Das Modell wird angepasst und dann werden Vorhersagen für neue Unternehmen ohne Klassifizierung getroffen.

Code: Select all

# X base composed of encoded indicators
features = df_all_aux.columns.tolist()
X = df_all_aux[features[:-1]] # all features except "Classification"

# y base composed of the target: 1 if debt, 0 if no debt
y = df_all_aux['Classification']

#Define the model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

#Train the model using the training data
rf_classifier.fit(X, y)

#Predictions using the asset data
y_pred = rf_classifier.predict_proba(df_new_companies)

#Incorporating the data into the dataset
df_new_companies['Risk_0'] = y_pred[:, 0]  # Probability of being class 0
df_new_companies['Risk_1'] = y_pred[:, 1]  # Probability of being class 1

Der bereits codierte Datenrahmen df_all_aux hat die folgende Struktur:

Code: Select all

City    Age     Number_Employe    Service     Average_Salary     Classification ...

1       100              20000          3               2000                  1

2        85              15000          1               5200                  1

1       103              20100          1               5200                  1

4       100              19800          2               5000                  0

1       101              30000          2               3500                  0

3        92              18900          3               5100                  0
...

over 1000 rows and 20 columns

Code: Select all

df_new_companies
hat die gleiche Struktur, außer dass es eine Spalte mit der ID der Unternehmen enthält.
Ich habe bereits die Risikoprozentsätze, jetzt möchte ich nur noch wissen, welcher Indikator für jedes Unternehmen am meisten mit Risiko 1 verbunden ist.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post