Zum Beispiel hat Kundenunternehmen X ein Risiko von 70 % und dieses Risiko hängt mit den Variablen Stadt, Alter und Anzahl der Mitarbeiter zusammen. Ein anderes Kundenunternehmen Y kann ein Risiko von 80 % haben, und das Risiko hängt mit den Variablen Stadt, Dienst und Durchschnittsgehalt zusammen.
Ich führe eine einfache Erstanalyse mit den folgenden Schritten durch, bei der das Modell mit 20 Indikatoren von Unternehmen trainiert wird, die bereits Schulden gemacht haben (Klassifizierung 1) und der gleichen Anzahl anderer Unternehmen, die keine Schulden gemacht haben (Klassifizierung 0). Das Modell wird angepasst und dann werden Vorhersagen für neue Unternehmen ohne Klassifizierung getroffen.
Code: Select all
# X base composed of encoded indicators
features = df_all_aux.columns.tolist()
X = df_all_aux[features[:-1]] # all features except "Classification"
# y base composed of the target: 1 if debt, 0 if no debt
y = df_all_aux['Classification']
#Define the model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
#Train the model using the training data
rf_classifier.fit(X, y)
#Predictions using the asset data
y_pred = rf_classifier.predict_proba(df_new_companies)
#Incorporating the data into the dataset
df_new_companies['Risk_0'] = y_pred[:, 0] # Probability of being class 0
df_new_companies['Risk_1'] = y_pred[:, 1] # Probability of being class 1
Code: Select all
City Age Number_Employe Service Average_Salary Classification ...
1 100 20000 3 2000 1
2 85 15000 1 5200 1
1 103 20100 1 5200 1
4 100 19800 2 5000 0
1 101 30000 2 3500 0
3 92 18900 3 5100 0
...
over 1000 rows and 20 columns
Code: Select all
df_new_companiesIch habe bereits die Risikoprozentsätze, jetzt möchte ich nur noch wissen, welcher Indikator für jedes Unternehmen am meisten mit Risiko 1 verbunden ist.
Mobile version