Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Μεταπτυχιακής Εργασίας κ. Στέργιου Πλατανιώτη, Σχολή ΗΜΜΥ
Αναγνώσεις: 159 / Συνδρομές: 0

  • Συντάχθηκε 20-10-2025 14:32 Πληροφορίες σύνταξης

    Ενημερώθηκε: 20-10-2025 14:40

    Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Π-36,141Π-37
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 31/10/2025 16:00
    Λήξη: 31/10/2025 17:00

     

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Μεταπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ

    Στέργιου Πλατανιώτη

    με θέμα
    Μέθοδοι Βαθιάς Εξερεύνησης και Αξιοποίησης Ποικιλότητας για Βαθιά Συνδυαστική Ενισχυτική Μάθηση
    Deep Exploration and Diversity Harnessing for Ensemble Deep Reinforcement Learning

    Εξεταστική Επιτροπή
    Καθηγητής Γεώργιος Χαλκιαδάκης (επιβλέπων)
    Καθηγητής Μιχαήλ Λαγουδάκης
    Καθηγητής Θρασύβουλος Σπυρόπουλος

    Περίληψη
    Η βαθιά συνδυαστική ενισχυτική μάθηση (deep ensemble reinforcement learning - ή, για συντομία, ensemble DRL) είναι μία πολύ δημοφιλής στις μέρες μας προσέγγιση ενισχυτικής μηχανικής μάθησης. Βασίζεται στην χρήση πολλαπλών νευρωνικών δικτύων τα οποία συναποτελούν ένα σύνολο (“ensemble”) το οποίο αξιοποιείται από κατάλληλα διαμορφωμένους αλγορίθμους ενισχυτικής μάθησης.
    Κάθε δίκτυο παράγει τη δική του πολιτική η οποία αντικατοπτρίζει την οπτική του για τη λύση, δημιουργώντας ένα σύνολο ποικιλόμορφων πολιτικών. Η ποικιλομορφία αυτή μπορεί να προέρχεται από τυχαία αρχικοποίηση παραμέτρων, διαφορετικά δεδομένα εκπαίδευσης, αρχιτεκτονικές παραλλαγές, ή αλγοριθμικές διαφορές. Ένα βασικό πλεονέκτημα που προσφέρει η συγκεκριμένη προσέγγιση, είναι η δυνατότητα αποτελεσματικού συνδυασμού των διακριτών εξόδων για την παραγωγή πιο ισχυρών πολιτικών και τη βελτίωση της συνολικής απόδοσης. Ένα άλλο πλεονέκτημα, είναι ότι προσφέρει ένα “φυσικό” μέσο ποσοτικοποίησης της αβεβαιότητας σχετικά με τη βέλτιστη πολιτική, μέσω της αξιοποίησης κατάλληλων μετρικών της ποικιλομορφίας που εμφανίζεται στις παραμέτρους των μοντέλων ή μεταξύ των εξόδων τους. Η εκτίμηση της αβεβαιότητας μπορεί να οδηγήσει σε εις βάθος εξερεύνηση, επιλέγοντας ενέργειες που προκαλούν υψηλή “διαφωνία” μεταξύ των μοντέλων.
    Στην παρούσα μεταπτυχιακή εργασία, εντοπίζουμε και μελετάμε αποτελεσματικούς τρόπους συνδυασμού των διαφορετικών απόψεων πολλαπλών μοντέλων βαθιάς ενισχυτικής μάθησης, ώστε να αξιοποιήσουμε την εγγενή ποικιλομορφία μεταξύ τους, και να λάβουμε πιο τεκμηριωμένες αποφάσεις. Συγκεκριμένα, αναπτύσσουμε τέσσερις καινοτόμους αλγορίθμους βαθιάς ενισχυτικής μάθησης, που χρησιμοποιούν ως βάση τον γνωστό ensemble DRL αλγόριθμο Bootstrapped DQN. Τρεις από αυτούς τους αλγορίθμους χρησιμοποιούν την έννοια του “κέρδους πληροφορίας”/“information gain” και την “(αναμενόμενη) αξία της πληροφορίας” / “(expected) value of information”, είτε κατά την επιλογή ενέργειας είτε κατά την εκπαίδευση του μοντέλου. Η τέταρτη μέθοδός μας είναι εμπνευσμένη από τη θεωρία της κοινωνικής επιλογής (social choice theory) και ενσωματώνει έναν γνωστό μηχανισμό ψηφοφορίας για τη βελτίωση της λήψης αποφάσεων. Παρέχουμε μία εκτενή πειραματική αξιολόγηση των αλγορίθμων μας σε τρία δημοφιλή περιβάλλοντα αξιολόγησης, διερευνώντας την ικανότητά τους για εξερεύνηση του χώρου αποφάσεων, την αποδοτικότητά τους όσον αφορά την αξιοποίηση των απαιτούμενων για την εκπαίδευση τους δειγμάτων, την ασυμπτωτική τους απόδοση - και, γενικότερα, τη συνολική τους ικανότητα να εκμεταλλεύονται την αβεβαιότητα και την ποικιλομορφία για τη μεγιστοποίηση των ανταμοιβών που μπορούν να συλλέξουν. Τα πειραματικά μας αποτελέσματα δεικνύουν την ικανότητα των αλγορίθμων μας για υψηλότερες ανταμοιβές σε σχέση με αυτές που επιτυγχάνουν ανταγωνιστικές μέθοδοι με τις οποίες τους συγκρίνουμε. Επιπλέον, μας παρείχαν τη δυνατότητα να συνάγουμε πολύτιμες πληροφορίες σχετικά με τα προτερήματα και τους περιορισμούς της κάθε μεθόδου. Τέλος, μας επέτρεψαν να σκιαγραφήσουμε ενδιαφέρουσες μελλοντικές κατευθύνσεις εργασίας σε αυτόν τον υψηλού ενδιαφέροντος και δυναμικά εξελισσόμενο ερευνητικό τομέα.

    Abstract
    Ensemble deep reinforcement learning is a popular paradigm that employs multiple neural networks which form an ensemble.
    Each network produces its own policy that reflects its perspective on the solution, giving rise to a set of diverse policies—diversity that may originate from random parameter initialization, different training data, architectural variations, or algorithmic differences. The objective is to efficiently blend the distinct outputs to produce more robust policies and improve aggregated performance. Another key advantage is that it offers a natural means of quantifying policy-related uncertainty via the diversity exhibited in the models’ parameters or between their outputs. These uncertainty estimates can guide deep exploration by selecting actions which cause high “disagreement” between the models.
    In this thesis we identify and study effective ways of combining the perceived different opinions of multiple deep reinforcement learning (DRL) models, to harness the inherent diversity between them and make more informed decisions. Specifically, we develop four novel DRL algorithms that use the Bootstrapped DQN framework as their backbone. Three of these algorithms utilize the notion of information gain and the (expected) value of information, either during action-selection or during model updates. Our fourth method is inspired by social choice theory and incorporates a popular voting mechanism to improve decision-making. We provide an extensive experimental evaluation of our algorithms in three popular benchmark settings, assessing their exploration abilities; their sample efficiency; their asymptotic performance; and, in general, their overall ability to exploit uncertainty and diversity towards reward maximization. Apart from increased performance, our findings provide valuable insights about the strengths and limitations of each method; and allow us to outline interesting future work directions in this vibrant research field. 

    Meeting ID: 981 5371 7894
    Password: 537979

     


© Πολυτεχνείο Κρήτης 2012