Συντάχθηκε 23-06-2026 11:55
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 09/07/2026 12:00
Λήξη: 09/07/2026 13:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Αθανασίου Κασσελά
με θέμα
Βαθιά Ενισχυτική Μάθηση σε Στρατηγικά Περιβάλλοντα Πραγματικού Χρόνου
Deep Reinforcement Learning in a Real Time Strategy Environment
Εξεταστική Επιτροπή
Καθηγητής Γεώργιος Χαλκιαδάκης (επιβλέπων)
Καθηγητής Μιχαήλ Λαγουδάκης
Καθηγητής Θρασύβουλος Σπυρόπουλος
Περίληψη
Τα παιχνίδια στρατηγικής σε πραγματικό χρόνο, όπως το StarCraft II, ανήκουν στα πιο δύσκολα περιβάλλοντα για την τεχνητή νοημοσύνη. Ο παίκτης πρέπει να μαζεύει πόρους, να χτίζει στρατό και να δίνει μάχες, όλα σε πραγματικό χρόνο, ενώ βλέπει μόνο το κομμάτι του χάρτη που έχουν ήδη επισκεφθεί οι δικές του μονάδες. Η παρούσα διπλωματική εργασία μελετά πώς ένας τεχνητός πράκτορας μπορεί να εκπαιδευτεί σε τέτοια παιχνίδια με τη βοήθεια της βαθιάς ενισχυτικής μάθησης, μιας τεχνικής στην οποία ο πράκτορας βελτιώνει τη συμπεριφορά του επιλέγοντας ενέργειες και αξιολογώντας την ανταμοιβή που λαμβάνει.
Υλοποιούμε δύο τέτοιους πράκτορες, έναν από καθεμία από τις δύο κύριες κατηγορίες της βαθιάς ενισχυτικής μάθησης και τους εκπαιδεύουμε υπό τις ίδιες συνθήκες σε τέσσερα σύντομα εκπαιδευτικά σενάρια του StarCraft II που έχει δημοσιεύσει η ερευνητική μονάδα γνωστής μεγάλης εταιρείας πληροφορικής. Για τη διασφάλιση μιας δίκαιης σύγκρισης, χρησιμοποιούμε μια πληρέστερη αναπαράσταση της κατάστασης του περιβάλλοντος, προσθέτουμε μια νέα δυνατότητα που επιτρέπει στον πράκτορα να επιλέγει ποια μονάδα θα ελέγξει και αποφεύγουμε τη διαμόρφωση της ανταμοιβής, ώστε οι πράκτορες να μαθαίνουν αποκλειστικά από την πρωτογενή βαθμολογία του παιχνιδιού.
Στα πιο εύκολα σενάρια οι πράκτορες σημειώνουν επιδόσεις συγκρίσιμες με άλλες μελέτες μικρής κλίμακας, καθώς επίσης χρησιμοποιούμε σημαντικά μικρότερο υπολογιστικό πόρο σε σχέση με μεγάλες ερευνητικές ομάδες. Στο πιο απαιτητικό σενάριο, όπου απαιτείται η ανάπτυξη οικονομίας και η παραγωγή στρατού από το μηδέν, οι πράκτορες δεν καταφέρνουν να αναπτύξουν μια αποτελεσματική στρατηγική, κάτι που επιβεβαιώνει τη γνωστή αδυναμία της μεθόδου όταν οι ανταμοιβές είναι σπάνιες και ο χρονικός ορίζοντας μεγάλος. Το τελευταίο κεφάλαιο συζητά τους περιορισμούς της υλοποίησής μας και προτείνει κατευθύνσεις για μελλοντική έρευνα, όπως ιεραρχικές μεθόδους, αναδρομική μνήμη και καλύτερα σήματα ανταμοιβής.
Abstract
Real-time strategy games such as StarCraft II are difficult testbeds for artificial intelligence because a player has to manage economy, production, movement, and combat at the same time. The player also acts under partial observability, seeing only the parts of the map that their own units have already visited. This thesis studies how an agent can learn to play in this environment, using Deep Reinforcement Learning, a learning paradigm in which the agent improves by interacting with the game and adapting its behaviour via employing Deep Neural Networks to evaluate its decision policy based on reward signals it receives from the environment.
We implement two agents from different families of Deep Reinforcement Learning: a Deep Q-Network agent and a synchronous Advantage Actor-Critic agent. Both are implemented in TensorFlow 2 and trained under the same conditions on four short PySC2 mini-games released with DeepMind’s StarCraft II research environment. To ensure a fair comparison, both agents use the same two-channel screen representation, the same action-argument factorisation, and the same decision rate. We also add a unit-selection head for the A2C agent and keep the reward signal unshaped, so both agents learn only from the scoring rules provided by PySC2.
On the easier scenarios the agents reach scores that are competitive with other small-scale studies on the same environment, despite the much smaller compute budget available for this project. On the hardest scenario, the agents do not learn an effective production policy. This result is consistent with a known limitation of flat approaches when rewards are rare and the time horizon is long. The final chapter discusses the limitations of our implementation and suggests future research directions, such as hierarchical methods, recurrent memory, and better reward signals.