Συντάχθηκε 15-05-2026 15:11
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 137Π-39,-38
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 19/05/2026 11:00
Λήξη: 19/05/2026 12:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Κωνσταντίνου Γούτσια
με θέμα
Ανάπτυξη Ελαφριού Πράκτορα Σκακιού για Επιθετικό Παιχνίδι με χρήση Ενισχυτικής Μάθησης
Developing a Lightweight Chess Agent for Aggressive Play using Reinforcement Learning
Εξεταστική Επιτροπή
Καθηγητής Θρασύβουλος Σπυρόπουλος (επιβλέπων)
Καθηγητής Μιχαήλ Λαγουδάκης
Καθηγητής Βασίλειος Σαμολαδάς
Περίληψη
Η τεχνητή νοημοσύνη στο σκάκι έχει εμφανίσει σημαντική πρόοδο τα τελευταία χρόνια, καθώς νέες προσεγγίσεις συνεχίζουν να ξεπερνούν τις προηγούμενες. Ενώ οι μηχανές που βασίζονται σε ευρετικές μεθόδους κυριαρχούσαν στον τομέα για πολλά χρόνια, μέθοδοι ενισχυτικής μάθησης (ΕΜ), όπως το AlphaZero, έχουν πρόσφατα αναδειχθεί ως ιδιαίτερα ισχυρές και αξιόπιστες εναλλακτικές προσεγγίσεις. Σε αυτό το πλαίσιο, η παρούσα διπλωματική εργασία παρουσιάζει έναν πράκτορα ενισχυτικής μάθησης εμπνευσμένο από το AlphaZero, ο οποίος μαθαίνει να παίζει σκάκι κυρίως μέσω αυτοπαιξίματος (self-play), βασιζόμενος σε ελάχιστα δεδομένα που προέρχονται από ανθρώπινες παρτίδες. Λόγω της υψηλής πολυπλοκότητας του παιχνιδιού, οι προσεγγίσεις που βασίζονται στην ενισχυτική μάθηση απαιτούν συνήθως σημαντικούς υπολογιστικούς πόρους. Στην εργασία αυτή, αρχικά αναπτύσσεται μια βασική υλοποίηση ενός πλαισίου αυτοπαιξίματος βασισμένου στη μέθοδο Monte Carlo Tree Search και αποδεικνύεται ότι ακόμη και με περιορισμένη υπολογιστική ισχύ είναι δυνατό να αναπαραχθεί η θεμελιώδης αρχή αυτοβελτίωσης που χαρακτηρίζει το AlphaZero. Στο δεύτερο μέρος της εργασίας παρουσιάζεται μια σειρά από βελτιστοποιήσεις σε διαφορετικά επίπεδα του συστήματος. Οι βελτιστοποιήσεις αυτές έχουν δύο κύριους στόχους: την επιτάχυνση της παραγωγής δεδομένων και τη βελτίωση της ποιότητάς τους, ώστε να απαιτείται συνολικά μικρότερος όγκος δεδομένων για την εκπαίδευση. Μέσω της βελτίωσης τόσο της υπολογιστικής αποδοτικότητας όσο και της αποτελεσματικότητας της διαδικασίας εκπαίδευσης, οι προτεινόμενες τροποποιήσεις μειώνουν το συνολικό υπολογιστικό κόστος της μάθησης. Τα πειραματικά αποτελέσματα δείχνουν ότι οι βελτιώσεις αυτές επιτρέπουν στο σύστημα να εκτελείται έως και 20 φορές ταχύτερα στο υλικό σύστημα που χρησιμοποιήθηκε για τα πειράματα.
Τέλος, διερευνώνται μέθοδοι για την κατεύθυνση του πράκτορα προς ένα πιο επιθετικό στυλ παιχνιδιού. Συνδυάζοντας ευρετικές τεχνικές με μεθόδους διαμόρφωσης της συνάρτησης ανταμοιβής (reward shaping), η διαδικασία εκπαίδευσης ενθαρρύνει επιθετικές και δυναμικές στρατηγικές παιχνιδιού. Τα πειραματικά αποτελέσματα δείχνουν ότι ο πράκτορας υιοθετεί σταδιακά ένα πιο επιθετικό στυλ καθώς προχωρά η εκπαίδευση, αποδεικνύοντας ότι η συμπεριφορά και το στυλ παιχνιδιού σε πράκτορες σκακιού που βασίζονται σε ενισχυτική μάθηση μπορούν να επηρεαστούν αποτελεσματικά μέσω στοχευμένων τροποποιήσεων στο πλαίσιο μάθησης.
Abstract
Chess artificial intelligence has advanced significantly in recent years, with new approaches continuously surpassing previous ones. While heuristic-based engines dominated the field for many years, reinforcement learning (RL) methods such as AlphaZero have recently emerged as powerful and reliable alternatives. Against this background, this thesis presents an AlphaZero-inspired reinforcement learning agent that learns to play chess primarily through self-play, relying on minimal human-generated data. Due to the complexity of chess, RL-based approaches typically require substantial computational resources. In this work, we first establish a baseline implementation of a Monte Carlo Tree Search-based self-play framework and demonstrate that, even with limited computational power, it is possible to reproduce the fundamental self-improvement principle underlying AlphaZero. The second part of this work focuses on a series of optimizations at different levels of the system. These optimizations pursue two main objectives: accelerating the generation of data and improving its quality so that less data is required overall. By improving computational efficiency and training effectiveness, the proposed modifications reduce the overall computational cost of the training process. Experimental results show that these improvements allow the system to run up to 20 times faster on the hardware configuration used in this study. Finally, we investigate methods for biasing the agent toward a more aggressive playing style. By combining heuristic guidance with reward shaping techniques, the training process encourages attacking and dynamic gameplay. The experimental results indicate that the agent progressively adopts a more aggressive strategy during training, demonstrating that stylistic behavior in RL-based chess agents can be effectively influenced through targeted modifications to the learning framework.