Συντάχθηκε 14-11-2025 11:20
Ενημερώθηκε: -
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Π-36,141Π-37
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 02/12/2025 15:30
Λήξη: 02/12/2025 17:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Διδακτορικών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ
Ιάσονα Χρυσομάλλη
με θέμα
Βαθιά Ενισχυτική Μάθηση με Έμμεση Μίμηση
Deep Implicit Imitation Reinforcement Learning
Εξεταστική Επιτροπή
Καθηγητής Γεώργιος Χαλκιαδάκης (Επιβλέπων)
Καθηγητής Μιχαήλ Λαγουδάκης
Καθηγητής Θρασύβουλος Σπυρόπουλος
Καθηγητής Ιωάννης Παπαμιχαήλ
Ομότιμος Καθηγητής Μάρκος Παπαγεωργίου
Καθηγητής Γεώργιος Βούρος (Πανεπιστήμιο Πειραιά)
Associate Professor Alberto Castellini (University of Verona, Italy)
Περίληψη
Η μάθηση μέσω μίμησης επιτρέπει στους πράκτορες να αποκτούν σύνθετες συμπεριφορές μαθαίνοντας από επιδείξεις ειδικών/εμπειρογνωμόνων, προσφέροντας μια εναλλακτική λύση στην ενισχυτική μάθηση που στηρίζεται στην εξαντλητική (trial and error) μέθοδο. Ωστόσο, οι συμβατικές προσεγγίσεις μάθησης μέσω μίμησης αντιμετωπίζουν κρίσιμους πρακτικούς περιορισμούς που περιορίζουν την εφαρμογή τους στον πραγματικό κόσμο. Τέτοιοι περιορισμοί είναι: η απαίτηση για πλήρεις επιδείξεις κατάστασης με ρητές ετικέτες ενεργειών· η υπόθεση ότι οι επιδείξεις των εμπειρογνωμόνων αντιπροσωπεύουν βέλτιστη συμπεριφορά· και η υπόθεση της ομοιογένειας των ενεργειών μεταξύ εμπειρογνώμονα και εκπαιδευόμενου πράκτορα. Οι περιορισμοί αυτοί δημιουργούν σημαντικά εμπόδια για την μάθηση μέσω μίμησης σε σενάρια στα οποία: η καταγραφή ενεργειών είναι τεχνικά ανέφικτη· απαιτείται η διασφάλιση του απορρήτου των ενεργειών ή η εκμάθηση μέσω μίμησης ενεργειών είναι υπερβολικά δαπανηρή· είναι γνωστό ότι εμπειρογνώμονας δεν επιδεικνύει βέλτιστη συμπεριφορά, ή στα οποία η βέλτιστη απόδοση είναι απροσδιόριστη ή πιθανότατα ανέφικτη· και στα οποία ο εμπειρογνώμονας και ο εκπαιδευόμενος πράκτορας διαθέτουν θεμελιωδώς διαφορετικές δυνατότητες ενεργειών.
Με τα παραπάνω ως δεδομένα, η παρούσα διδακτορική διατριβή εισάγει ένα καινοτόμο πλαίσιο βαθιάς ενισχυτικής μάθησης μέσω έμμεσης μίμησης που αντιμετωπίζει αυτούς τους περιορισμούς. Συγκεκριμένα, το προτεινόμενο πλαίσιο επιτρέπει στους πράκτορες να μαθαίνουν από σύνολα δεδομένων εμπειρογνωμόνων που είναι πιθανώς υποβέλτιστα και τα οποία βασίζονται μόνο σε παρατηρήσεις καταστάσεων και όχι μέσω άμεσης διδασκαλίας ή παρατηρήσεων ενεργειών, ενώ παράλληλα επιτρέπει στους πράκτορες να ξεπερνούν την απόδοση του εμπειρογνώμονα μαθαίνοντας μέσω της συνεχούς τους αλληλεπίδρασης με το περιβάλλον.
Στην διατριβή μας προτείνονται ως μέρος του πλαισίου δύο νέοι αλγόριθμοι ενισχυτικής μάθησης: ο αλγόριθμος Deep Implicit Imitation Q-Network (DIIQN) για χρήση σε ομοιογενείς χώρους ενεργειών, και ο αλγόριθμος Heterogeneous Actions DIIQN (HA-DIIQN) για χρήση σε σενάρια όπου ο εμπειρογνώμονας και ο εκπαιδευόμενος διαθέτουν θεμελιωδώς διαφορετικές δυνατότητες ενεργειών.
Ο αλγόριθμος DIIQN επεκτείνει την κλασσική μέθοδο βαθιάς ενισχυτικής μάθησης Deep Q-Network (DQN) με μηχανισμούς για την ανακατασκευή των ενεργειών του εμπειρογνώμονα από παρατηρήσεις, τον εντοπισμό των πλέον σχετικών επιδείξεων εμπειρογνωμόνων, και τη δυναμική στάθμιση της καθοδήγησης από τον εμπειρογνώμονα έναντι της αυτόνομης μάθησης σε όλη τη διάρκεια της εκπαίδευσης.
Η μέθοδος HA-DIIQN από την άλλη, επεκτείνει τον αλγόριθμο DIIQN ώστε να μπορεί να λειτουργεί αποτελεσματικά σε ετερογενείς χώρους ενεργειών στους οποίους ο εμπειρογνώμονας και ο εκπαιδευόμενος διαθέτουν διαφορετικές δυνατότητες ενεργειών, σε σενάρια δηλαδή όπου η άμεση αναπαραγωγή των επιδείξεων εμπειρογνωμόνων είναι αδύνατη. Μέσω καινοτόμων διαδικασιών εντοπισμού μη εφικτότητας και “ανακάλυψης γεφυρών” που προτείνουμε, ο αλγόριθμος HA-DIIQN ανακαλύπτει εναλλακτικά εφικτά μονοπάτια που συνδέουν τις δυνατότητες του πράκτορα με τις κατευθύνσεις του εμπειρογνώμονα. ΄Ετσι, ο HA-DIIQN επιτρέπει τη μεταφορά γνώσης μεταξύ πρακτόρων με διαφορετικά συστήματα ελέγχου, παρέχοντας τη δυνατότητα διαχείρισης καταστάσεων στις οποίες οι συμβατικές μέθοδοι μάθησης μέσω μίμησης αποτυγχάνουν.
Μια βασική καινοτομία του προτεινόμενου στη διατριβή μας πλαισίου μας είναι ένας καινοτόμος μηχανισμός εμπιστοσύνης που προσαρμοστικά καθορίζει πότε ο εκπαιδευόμενος πρέπει να ακολουθεί την καθοδήγηση του εμπειρογνώμονα και πότε να βασίζεται σε εν δυνάμει χρησιμότερες ανακαλύψεις του ίδιου του πράκτορα, επιτρέποντας στο πλαίσιο να επιταχύνει την αρχική μάθηση διατηρώντας παράλληλα την αυτόνομη βελτίωση πέρα από τους περιορισμούς του εμπειρογνώμονα.
Εν συντομία, οι κύριες συνεισφορές της παρούσας διατριβής είναι οι ακόλουθες: (α) προτείνουμε το πρώτο model-free πλαίσιο βαθιάς ενισχυτικής μάθησης για έμμεση μάθηση μέσω μίμησης, (β) αξιοποιούμε το πλαίσιο αυτό για να επιταχύνουμε σημαντικά την εκπαίδευση DRL αλγορίθμων, (γ) εισάγουμε δύο νέους αλγόριθμους DRL που επιτρέπουν τη μάθηση μέσω έμμεσης μίμησης από υποβέλτιστους εμπειρογνώμονες, με τη δυνατότητα να τους υπερβαίνουν σε απόδοση, (δ) για πρώτη φορά στη βιβλιογραφία, ένας από τους αλγορίθμους μας επιτρέπει μεταφορά γνώσης μεταξύ ενός εμπειρογνώμονα και ενός εκπαιδευόμενου πράκτορα που διαθέτουν διαφορετικά σύνολα ενεργειών, δηλαδή λειτουργούν σε ετερογενείς χώρους ενεργειών, και (ε) δεικνύουμε πειραματικά την αποτελεσματικότητα του πλαισίου μας τόσο σε κλασικά περιβάλλοντα DRL, όσο και στο απαιτητικό πεδίο της αυτόνομης οδήγησης σε αυτοκινητόδρομους χωρίς λωρίδες κυκλοφορίας. Αξίζει να σημειωθεί ότι η εργασία μας αποτελεί ουσιαστικά το πρώτο πλαίσιο βαθιάς ενισχυτικής μάθησης για μάθηση μέσω έμμεσης μίμησης.
Πέρα από τη βασική καινοτομία, η παρούσα διατριβή συμβάλλει επίσης με μια νέα ταξινομία των μεθόδων μηχανικής μάθησης μέσω μίμησης, η οποία διαχωρίζει και οργανώνει το πεδίο σε τρεις κύριες κατηγορίες μεθόδων: άμεσης μίμησης, έμμεσης μίμησης, και αντίστροφης ενισχυτικής μάθησης. Η ταξινομία αυτή προσφέρει μια σαφή και δομημένη εικόνα για το πώς οι διαφορετικές προσεγγίσεις μηχανικής μάθησης μέσω μίμησης -και ειδικότερα οι πλέον σύγχρονες, αυτές που προτάθηκαν κατά την τελευταία δεκαετία- σχετίζονται μεταξύ τους.
Εκτελούμε ολοκληρωμένα πειράματα σε διάφορα περιβάλλοντα: παιγνίων (MinAtar suite), πλοήγησης (2D Maze, Point Maze), και αυτόνομων συστημάτων οδήγησης (lane-free traffic). Τα πειραματικά μας αποτελέσματα υποδεικνύουν πως το DIIQN παρουσιάζει βελτιώση έως 136% όσον αφορά επεισοδιακές αμοιβές και μειώση έως 67% στο χρόνο εκπαίδευσης σε σύγκριση με το τυπικό Deep Q-Network, ενώ παράλληλα ξεπερνά σε απόδοση αμοιβών καθιερωμένες μεθόδους έμμεσης μάθησης μέσω μίμησης (BCO, GAIfO, ORIL). Οι τελευταίες δεικνύεται ότι δεν μπορούν να ξεπεράσουν την απόδοση υποβέλτιστων εμπειρογνωμόνων—σε αντίθεση με τη μέθοδό μας, η οποία επιτυγχάνει κάτι τέτοιο συστηματικά.
Παράλληλα, κατά τον πειραματισμό μας σε ετερογενή περιβάλλοντα ενεργειών, τα αποτελέσματά μας δείχνουν πως ο αλγόριθμος HA-DIIQN αξιοποιεί με επιτυχία (ετερογενή) σύνολα δεδομένων εμπειρογνωμόνων που οι συμβατικές προσεγγίσεις αδυνατούν να αξιοποιήσουν. Πιο συγκεκριμένα, το HA-DIIQN επιτυγχάνει έως 64% ταχύτερη σύγκλιση στη βέλτιστη πολιτική σε σύγκριση με το τυπικό DQN, και έως 52% ταχύτερη σύγκλιση σε σχέση με το τυπικό DIIQN σε σενάρια με διαφορετικούς βαθμούς ετερογένειας του χώρου ενεργειών, ετερογένεια ενεργειών εκτεινόμενη από μερική επικάλυψη έως πλήρη ασυμβατότητα.
Επιπροσθέτως, διεκπεραιώσαμε μια διεξοδική ανάλυση ευαισθησίας παραμέτρων, η οποία επικυρώνει τη σταθερότητα και ευρωστία της προσέγγισής μας. Πιο συγκεκριμένα, επιβεβαιώνει ότι ο δυναμικός μηχανισμός εμπιστοσύνης μειώνει σημαντικά τη διακύμανση της εκπαίδευσης. Επίσης, η ανάλυση μας επιτρέπει να προτείνουμε συγκεκριμένες διαμορφώσεις τιμών υπερπαραμέτρων (οι οποίες αφορούν διαφορετικά μεγέθη συνόλων δεδομένων, όρια εμπιστοσύνης, και όρια που καθορίζουν τον απαιτούμενο βαθμό ομοιότητας μεταξύ των καταστάσεων του εμπειρογνώμονα και του εκπαιδευόμενου πράκτορα).
Οι πρακτικές συνέπειες της παρούσας διδακτορικής διατριβής είναι αξιόλογες. Αφενός, το προτεινόμενο πλαίσιο μας δεν απαιτεί ετικέτες ενεργειών από εμπειρογνώμονες, σε αντίθεση με τις περισσότερες παραδοσιακές μεθόδους μάθησης μέσω μίμησης. Αυτό συμβάλλει στη “βιωσιμότητα” της μάθησης μέσω μίμησης ως προσέγγιση μάθησης για σενάρια που περιλαμβάνουν ασαφή ή επιρρεπή σε σφάλματα ανθρώπινη παρατήρηση, εφαρμογές που απαιτούν συμμόρφωση με περιορισμούς απορρήτου, ή περιπτώσεις κατά τις οποίες οι διαθέσιμοι για μάθηση πόροι είναι περιορισμένοι.
Επιπλέον, το πλαίσιό μας προσφέρει την ικανότητα στον εκπαιδευόμενο να μαθαίνει από αλλά και να ξεπερνά σε απόδοση υποβέλτιστους εμπειρογνώμονες, μέσω της αξιοποίησης άμεσα διαθέσιμων επιδείξεων από ικανούς αλλά όχι τέλειους εμπειρογνώμονες αντί να απαιτείται δαπανηρή επαλήθευση μέσω βέλτιστων εμπειρογνωμόνων. Παράλληλα, η δυνατότητα χρήσης σε ετερογενείς χώρους ενεργειών επιτρέπει: τη μεταφορά γνώσης μεταξύ διαφορετικών πλατφορμών· τις μεταβάσεις από προσομοίωση σε πραγματικότητα· καθώς και αλλαγές στις δυνατότητες ενός συστήματος χωρίς να απαιτείται νέα συλλογή δεδομένων. Τέλος, η σημαντική μείωση του χρόνου εκπαίδευσης που παρατηρείται στα πειράματά μας, μπορεί να μεταφραστεί άμεσα σε μειωμένο υπολογιστικό κόστος, σε ταχύτερους κύκλους ανάπτυξης, καθώς και σε βελτιωμένη δυνατότητα υλοποίησης για εφαρμογές στον πραγματικό κόσμο οι οποίες δεν μπορούν να καταφύγουν στη χρήση μακροχρόνιων (ή ενδεχομένως επικίνδυνων) διαδικασιών εξερεύνησης κατά τη μάθηση.
Εν τέλει, ο εμπειρογνώμονας που είναι ο πλέον πολύτιμος δεν είναι ο βέλτιστος, αλλά ο πλέον προσιτός· και το καινοτόμο πλαίσιο βαθιάς ενισχυτικής μάθησης μέσω έμμεσης μίμησης το οποίο προτείνουμε, καθιστά επιτέλους την τεχνογνωσία ενός εμπειρογνώμονα πραγματικά προσιτή και άρα πολύτιμη.
Abstract
Imitation learning (IL) enables agents to acquire complex behaviours by learning from expert demonstrations, offering a compelling alternative to pure trial-and-error reinforcement learning. However, conventional imitation learning approaches face critical practical limitations that restrict their real-world applicability: the requirement for complete state-action demonstrations with explicit action labels; the assumption that expert demonstrations represent optimal behaviour; and the assumption of homogeneous expert and trainee agent action spaces. These constraints create substantial barriers in scenarios where action recording is technically infeasible, privacy-sensitive, or prohibitively expensive; where the expert is known to be suboptimal, or optimal performance is undefined or potentially unattainable; and where an expert agent and a trainee agent possess fundamentally different action capabilities.
Against this background, this thesis puts forward a novel deep implicit imitation reinforcement learning framework that fundamentally addresses these limitations. Specifically, our framework enables agents to learn from state observations-only, suboptimal expert datasets, while possessing the capacity to surpass expert performance through continuous environmental interaction.
Our framework gives rise to two novel deep reinforcement learning (DRL) algorithms: Deep Implicit Imitation Q-Network (DIIQN) for homogeneous action spaces, and Heterogeneous Actions DIIQN (HA-DIIQN) for scenarios where expert and agent possess fundamentally different action capabilities. DIIQN extends the classic Deep Q-Network (DQN) algorithm with mechanisms for reconstructing expert actions from observations, identifying relevant expert demonstrations, and dynamically weighing expert guidance against self-directed learning throughout training.
HA-DIIQN builds on DIIQN to tackle heterogeneous action settings, in which expert and agent possess different action sets—that is, to address scenarios where direct replication of expert demonstrations is impossible. Employing infeasibility identification and so-called “bridge discovery” procedures that we introduce, HA-DIIQN manages to identify alternative feasible pathways that effectively align agent capabilities to expert state trajectories. Thus, HA-DIIQN enables knowledge transfer across agents with different control schemes, allowing them to cope in situations in which conventional imitation learning methods fail entirely. A key component of our framework is a novel confidence mechanism that is used by both our algorithms to adaptively determine when to follow expert guidance and when to rely on the agent’s own superior discoveries, enabling the framework to accelerate initial learning while preserving autonomous improvement beyond expert limitations.
In a nutshell, our main contributions in this thesis are the following: (a) we put forward the first model-free DRL framework for implicit imitation learning; (b) we employ this framework to substantially accelerate the training of DRL methods; (c) we introduce two novel DRL algorithms that enable implicit imitation learning from suboptimal experts with the ability to surpass them; (d) interestingly, for the first time in the literature, one of our algorithms allows for knowledge transfer between and expert and a trainee agent that possess different action sets—i.e., operate in heterogeneous action spaces; and (e) we demonstrate our framework’s effectiveness in both classic DRL environments, and in the challenging autonomous driving in lane-free traffic domain. We note that ours is effectively the first deep reinforcement learning framework for implicit imitation learning.
Beyond methodological innovation, this thesis also contributes a novel taxonomy of imitation learning methods that organizes the field into three overarching paradigms: explicit imitation, implicit imitation, and inverse reinforcement learning. This taxonomy offers a clear and structured view of how different IL approaches, and in particular modern IL approaches that have appeared in the past decade, relate to one another.
We conduct a comprehensive experimental evaluation of our algorithms across diverse environments spanning game-playing (MinAtar suite), navigation (2D Maze, Point Maze), and autonomous driving (lane-free traffic). Our results indicate that DIIQN demonstrates up to 136% improvement in episodic returns, and up to 67% reduction in training time compared to standard Deep Q-Network (DQN), while consistently surpassing in terms of reward-gathering performance established implicit imitation learning methods (BCO, GAIfO, and ORIL). The latter are shown to not be able to exceed the performance of suboptimal experts, in contrast to our method which does so consistently.
At the same time, when operating in heterogeneous action settings, our results demonstrate that HA-DIIQN agents are able to successfully leverage (heterogeneous) expert datasets that are by and large of no worth to conventional imitation learning approaches. In particular, HA-DIIQN is shown to achieve up to 64% faster convergence to the optimal policy compared to standard DQN, and up to 52% faster convergence relative to standard DIIQN—across scenarios with varying degrees of action space heterogeneity, ranging from partial action sets overlap to exclusive actions sets disjunction.
Moreover, we conduct a thorough parameter sensitivity analysis that validates the stability and robustness of our approach. In particular, our analysis confirms that our dynamic confidence mechanism substantially reduces training variance Additionally, our analysis allows us to provide specific recommendations for appropriate hyperparameter configurations (regarding different expert data sizes, confidence thresholds, and thresholds determining the required similarity between states in the expert and trainee agent trajectories).
The practical implications of our PhD work are substantial. On the one hand, our framework does not require expert action labeling, unlike most traditional (“explicit’) imitation learning methods. This contributes to the “viability” of imitation learning as a learning paradigm for scenarios involving imprecise or error-prone human observation, or for applications that require the adherence to privacy requirements or to resource-limited budgets.
In addition, our framework offers the ability to learn from and surpass suboptimal experts, via leveraging readily available demonstrations from competent but imperfect demonstrators rather than requiring (the potentially expensive) verification by optimal experts. Moreover, the ability of our framework to tackle heterogeneous action spaces, creates the potential for cross-platform knowledge transfer across distinct hardware generations; for simulation-to-reality transitions; and for evolving system capabilities without requiring new dataset collection. Finally, the training time reductions demonstrated in our results, indicate the potential for reduced computational costs, faster deployment cycles, and improved feasibility for real-world applications that cannot afford the luxury of lengthy (or potentially dangerous) exploration processes.
In the end, the most valuable expert is not the optimal one, but the accessible one; and our novel deep implicit imitation reinforcement learning framework finally makes that expertise accessible and thus worth distilling from.
Meeting ID: 960 9596 1272
Password: 996484
Εισάγετε το όνομα χρήστη και το μυστικό κωδικό για να εισέλθετε στον ιστότοπο





