11
Ιαν
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ
Ονοματεπώνυμο: Δημήτρης Νικολαΐδης
Αριθμός Μητρώου: 2013019061
Θέμα
Τίτλος στα Ελληνικά: Προσαρμοστικά μοντέλα πιστοληπτικής αξιολόγησης μέσω μεθόδων ταξινόμησης
Τίτλος στα Αγγλικά: Adaptive Credit Scoring using Local Classification Methods
Εξεταστική Επιτροπή:
Επιβλέπων: Καθηγητής Μιχάλης Δούμπος (Πολυτεχνείο Κρήτης)
Πρώτο Μέλος: Καθηγητής Κωνσταντίνος Ζοπουνίδης (Πολυτεχνείο Κρήτης)
Δεύτερο Μέλος: Καθηγητής Φώτιος Πασιούρας (Montpellier Business School)
Τρίτο Μέλος: Καθηγητής Ευάγγελος Γρηγορούδης (Πολυτεχνείο Κρήτης)
Τέταρτο Μέλος: Αναπληρωτής Καθηγητής Γιώργος Ατσαλάκης (Πολυτεχνείο Κρήτης)
Πέμπτο Μέλος: Καθηγητής Χρυσοβαλάντης Γαγάνης (Πανεπιστήμιο Κρήτης)
Έκτο Μέλος: Αναπληρωτής Καθηγητής Χρήστος Λεμονάκης (Ελληνικό Μεσογειακό Πανεπιστήμιο)
Περίληψη
Περίληψη Διατριβής στα Ελληνικά:
Το πρόβλημα της ασυμμετρίας της πληροφορίας (information asymmetry) έχει μελετηθεί εκτενώς όπως και οι συνέπειές του στο χρηματοπιστωτικό χώρο. Έτσι η ανταλλαγή πληροφοριών και δεδομένων οικονομικής συμπεριφοράς, μέσω μηχανισμών όπως τα γραφεία πίστης (Credit bureaus) λειτούργησε ως αντίβαρο στην ασυμμετρία αυτή και ως υποστηρικτικό εργαλείο στις πιστοδοτικές αποφάσεις. Από το τα τέλη του 19ου αιώνα που λειτούργησε το πρώτο γραφείο πίστης Dun & Bradstreet, αναπτύχθηκαν μεθοδολογίες για την υποστήριξη της πιστοληπτικής αξιολόγησης υποψηφίων δανειοληπτών. Η βασικότερη ίσως μεθοδολογία των γραφείων πίστης διεθνώς είναι η πιστοληπτική βαθμολόγηση (credit scoring) και συνίσταται στη χρήση στατιστικών και αλγοριθμικών μεθόδων που αποσκοπούν στο μετασχηματισμό των δεδομένων σε αριθμητικές μετρήσεις οι οποίες μπορούν να χρησιμοποιηθούν για την αυτοματοποιημένη "κατάρτιση προφίλ" υποψηφίων δανειοληπτών. Μεθοδολογικά η πιστοληπτική βαθμολόγηση αρχικά στηρίζονταν σε αμιγώς στατιστικές προσεγγίσεις (π.χ. λογιστική παλινδρόμηση, δέντρα αποφάσεων κλπ), ωστόσο η σχετικά πρόσφατη "έκρηξη" των μεθόδων μηχανικής μάθησης (machine learning) οδήγησε σε αντίστοιχη ανάπτυξη των σχετικών μεθόδων και υποδειγμάτων που χρησιμοποιούνται στην πιστωτική βαθμολόγηση.
Παρόλα αυτά η εφαρμογή αυτών των μεθόδων συναντά θεωρητικά αλλά και πρακτικά προβλήματα, το βασικότερο των οποίων είναι η πληθυσμιακή μετατόπιση (population drift): Όπως όλα τα μοντέλα εκτίμησης (Predictive models) έτσι και τα υποδείγματα πιστοληπτικής βαθμολόγησης αντιμετωπίζουν το πρόβλημα της πληθυσμιακής μετατόπισης (population drift), όταν οι στατιστικές κατανομές του υπό μοντελοποίηση πληθυσμού, αναπόφευκτα, μεταβάλλονται στο χρόνο. Αυτό το πρόβλημα αντιμετωπίζεται με τη διαρκή παρακολούθηση (Monitoring) των επιδόσεων των υποδειγμάτων (Performance measures) και με τις κατάλληλες προσαρμογές όταν απαιτείται. Λαμβάνοντας υπόψη το γεγονός ότι για την ανάπτυξή τέτοιων μοντέλων χρειάζονται δεδομένα κατ' ελάχιστο 2 ετών και προθέτοντας και τον απαιτούμενο χρόνο υλοποίησης και θέσης σε παραγωγική λειτουργία, σε πρακτικό επίπεδο εντείνεται ακόμα περισσότερο το πρόβλημα της πληθυσμιακής μετατόπισης.
Στην παρούσα διατριβή προτείνεται η αντιμετώπιση του προβλήματος της πληθυσμιακής μετατόπισης με αυτόματη και δυναμική προσαρμογή των υποδειγμάτων βαθμολόγησης (dynamic adaptation) με χρήση τοπικών μεθόδων ταξινόμησης (local classification). Συγκεκριμένα το προτεινόμενο σχήμα συνίσταται στον υπολογισμό της πιστοληπτικής βαθμολόγησης χρησιμοποιώντας μεθόδους Lazy learning για κάθε ένα εισερχόμενο αίτημα score (σημείο εισόδου ή query instance), χρησιμοποιώντας μόνο εκείνο το υποσύνολο των ομοειδών εγγραφών προς το εισερχόμενο σημείο (Instance selection, local region of competence). Η έννοια της ομοιότητας (similarity) καθορίζεται από την απόσταση (distance) με συγκεκριμένη μετρική (π.χ. ευκλείδια απόσταση) μεταξύ της εισερχόμενης εγγραφής και του n-διάστατου χώρου του συνόλου των εγγραφών (feature space), όπου είναι το πλήθος των διαφορετικών μεταβλητών (attributes ή characteristics), όπου n είναι το πλήθος των πεδίων κάθε εγγραφής. To υποσύνολο των ομοειδών εγγραφών κάθε εισερχόμενου σημείου προσδιορίζεται με τη μέθοδο των πλησιέστερων γειτόνων (kNN) . Έτσι κάθε γειτονιά χρησιμοποιείται ως σύνολο εκπαίδευσης (training set) ενός υποδείγματος πιστωτικής βαθμολόγησης αποκλειστικά για το συγκεκριμένο σημείο εισόδου.
Συγκρίνονται μεθοδολογίες στατιστικές και μηχανικής μάθησης (λογιστική παλινδρόμηση που λαμβάνεται και ως σημείο αναφοράς, Random Forests και Gradient Boosting Trees), χρησιμοποιώντας πραγματικά δεδομένα γραφείου πίστης για ένα βάθος 11 ετών (2009-2019) ανά τρίμηνο με συνολικά 3,520,000 εγγραφές και 125 διαφορετικές μεταβλητές. Για τον υπολογισμό των μέτρων επίδοσης (performance measures) χρησιμοποιήθηκαν τα AUC and H-Measure με κατάλληλες στατιστικές μεθοδολογίες σύγκρισης διαφορετικών ταξινομητών (classifiers): Friedman’s aligned ranks σε συνδυασμό με το post-hoc Nemenyi test.
Ειδικότερα διερευνήθηκαν οι εξής στατιστικές υποθέσεις:
H1: 'Έχουν καλύτερες επιδόσεις οι τοπικές μέθοδοι (local classification methods) σε σχέση με τις καθολικές (global);
H2: Υπάρχει σημαντικά στατιστική διαφοροποίηση μεταξύ των μεθόδων μάθησης και της λογιστικής παλινδρόμησης;
H3: Επηρεάζει η επιλογή των γειτόνων με βάση την ομοιότητα (KNN) τα αποτελέσματα;
Η διερεύνηση των ανωτέρω υποθέσεων καταδεικνύει ότι οι τοπικές μέθοδοι επιφέρουν κατά περίπτωση καλύτερα αποτελέσματα σε σχέση με τις καθολικές, ωστόσο η διαφορές είναι στατιστικά σημαντικές μόνο στην περίπτωση της λογιστικής παλινδρόμησης. Ιδιαίτερα ενδιαφέρον παρουσιάζει το γεγονός ότι, σε συμφωνία με τα ευρήματα της βιβλιογραφίας, οι μέθοδοι μηχανικής μάθησης που εφαρμόστηκαν είναι περίπου 6%-7% καλύτερες (με μετρική AUC) σε σχέση με την καθολική λογιστική παλινδρόμηση, ωστόσο η τοπική λογιστική παλινδρόμηση βρίσκεται περίπου στο ίδιο επίπεδο επιδόσεων με τις μεθόδους μηχανικής μάθησης. Τέλος η επιλογή γειτόνων με βάση την ομοιότητα ως προς το σημείο εισόδου αποδεικνύεται ότι φέρει σημαντική βελτίωση στην επίδοση, σε σχέση με την επιλογή τυχαίων σημείων χωρίς να λαμβάνεται υπόψη η γειτνίαση
Περίληψη Διατριβής στα Αγγλικά:
Despite the advances in machine learning methods which are also applied in credit scoring with overall positive results, there are still very important unresolved issues, pertaining not only to academia but to practitioners and the industry as well, such as model drift as an inevitable consequence of population drift and the strict regulatory obligations for transparency and interpretability of the automated profiling methods. We present a novel adaptive behavioral credit scoring scheme which uses online training for each incoming inquiry (a borrower) by identifying a specific region of competence to train a local model. We compare different classification algorithms i.e. logistic regression with state of the art machine learning methods (random forests and gradient boosting trees) that have shown promising results in the literature machine learning). Our data sample has been derived from a proprietary credit bureau database and spans a period of 11 consequent years with quarterly sampling frequency consisting of more than 3,520,000 record-month observations. Rigorous performance measures used in credit scoring literature and practice (such as AUROC and H-Measure) indicate that our approach deals effectively with population drift and that local models outperform their corresponding global ones in all cases. Furthermore, when using simple local classifiers such as logistic regression we can achieve comparable results with the global machine learning ones which are considered “black box” methods.
Ημερομηνία Εξέτασης
Ημέρα/Μήνας/Έτος: 11/01/2023
Ώρα: 11:00
Χώρος Εξέτασης
Σύνδεσμος (Link): https://tuc-gr.zoom.us/j/2962959517?pwd=OUZkb09RNlRlVXBxQWp3TDhPWUl1dz09
Αίθουσα: Αίθουσα Συνεδριάσεων ΜΠΔ
Κτίριο: Σχολή Μηχανικών Παραγωγής και Διοίκησης