Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας κας Αλεξάνδρας Γκαραγκάνη - Σχολή ΗΜΜΥ
Αναγνώσεις: 248 / Συνδρομές: 0

  • Συντάχθηκε 03-06-2026 12:57 Πληροφορίες σύνταξης

    Ενημερώθηκε: -

    Τόπος:
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 05/06/2026 12:30
    Λήξη: 05/06/2026 13:30

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΓΚΑΡΑΓΚΑΝΗ ΑΛΕΞΑΝΔΡΑΣ

    με θέμα

    Βελτιστοποίηση Φιλικών προς το Δίκτυο Συστάσεων με Χρήση Ενισχυτικής Μάθησης για Χρήστες με Μνήμη
    Using Reinforcement Learning to Optimize Network-friendly Recommendations for Users with Memory

    Εξεταστική Επιτροπή

    Καθηγητής Θρασύβουλος Σπυρόπουλος (επιβλέπων)
    Καθηγητής Μιχαήλ Ζερβάκης
    Καθηγητής Μιχαήλ Λαγουδάκης

    Περίληψη

    Η ελαχιστοποίηση του κόστους μετάδοσης περιεχομένου από το δίκτυο, διατηρώντας παράλληλα την ικανοποίηση του χρήστη αποτελεί πρόκληση για τις σύγχρονες πλατφόρμες περιεχομένου. Οι υπάρχουσες υλοποιήσεις Συστημάτων Συστάσεων Φιλικά προς το Δίκτυο αντιμετωπίζουν αυτήν την πρόκληση κατευθύνοντας τους χρήστες προς αποθηκευμένο, χαμηλού κόστους περιεχόμενο. Είναι γεγονός ωστόσο, ότι η συντριπτική πλειοψηφία τους υποθέτει ένα στατικό μοντέλο χρήστη, στο οποίο η πιθανότητα αποδοχής μιας σύστασης παραμένει αμετάβλητη καθ΄ όλη τη διάρκεια μιας συνεδρίας. Αυτή η απλοποίηση δεν είναι ρεαλιστική, ένας χρήστης που λαμβάνει επανειλημμένα συστάσεις χαμηλής ποιότητας θα χάσει τελικά την εμπιστοσύνη του στο σύστημα, πιθανόν αγνοώντας τις συστάσεις και καταφεύγοντας σε αναζήτηση ακριβού περιεχομένου μέσω της μπάρας αναζήτησης. Αυτό λοιπόν το πρόβλημα κληθήκαμε να αντιμετωπίσουμε στην παρούσα διπλωματική εργασία, επεκτείνοντας το πλαίσιο των Markov Decision Processes (MDP) για Συστάσεις Φιλικές προς το Δίκτυο. Μοντελοποιήσαμε την εμπιστοσύνη του χρήστη ως μεταβλητή κατάστασης που εξελίσσεται κατά τη διάρκεια μιας συνεδρίας με βάση την ποιότητα των συστάσεων εξετάζοντας δύο μοντέλα. Το πρώτο είναι το μοντέλο Σταθερής Εμπιστοσύνης, που χρησιμεύει ως βάση σύγκρισης. Το δεύτερο, πρόκειται για ένα απλό μοντέλο Μεταβαλλόμενης Εμπιστοσύνης, στο οποίο η πιθανότητα προσοχής του χρήστη αυξάνεται μετά από συστάσεις υψηλής σχετικότητας και μειώνεται με συστάσεις χαμηλής. Το τελευταίο μοντέλο εφαρμόζει μια νέα στρατηγική, όπου η βέλτιστη πολιτική συστήνει ακριβά αλλά υψηλής σχετικότητας αντικείμενα στην αρχή μιας συνεδρίας για να χτίσει εμπιστοσύνη, δημιουργώντας έναν χρήστη που δυναμικά αυξάνει την εμπιστοσύνη του στο Σύστημα Συστάσεων. Για μεγάλους καταλόγους περιεχομένου που οι επιλυτές MDP δεν μπορούν να διαχειριστούν υπολογιστικά, προτείνουμε μια προσέγγιση Q-Learning χωρίς μοντέλο, που προσεγγίζει τη βέλτιστη πολιτική. Επικυρώνουμε την εγκυρότητα του μοντέλου μας μέσω προσομοιώσεων σε συνθετικούς καταλόγους, καθώς και σε πραγματικούς, στις οποίες εφαρμόζουμε διάφορα σύνολα παραμέτρων για να αποτυπώσουμε διαφορετικές συμπεριφορές.

    Abstract 

    Minimizing the network cost of content delivery while maintaining user satisfaction is a challenge for content platforms. Existing work on Network-Friendly Recommendation Systems (NF-RS) address this by moving users toward cached content, but the majority assumes a static user model, where the probability of accepting a recommendation remains constant through a session. This is unrealistic because a user who repeatedly receives low-quality cached recommendations will lose trust in the system and eventually ignore it, resorting to expensive content retrieved from the search bar. In this thesis, we extend the Markov Decision Process (MDP) framework for Network-Friendly Recommendations by modeling trust as a variable that evolves during a session based on the quality of recommendations. We consider two models: a Fixed-Trust model, our baseline, and an Adaptive-Trust model, where the user’s attention probability rises after high-utility suggestions and falls after poor ones. The latter model introduces the invest and exploit strategy, where the optimal far-sighted policy recommends costly but high-utility items early in a session to build trust, creating a user that is able to increase her confidence to our Recommender System. For large content catalogs the exact MDP solvers could not computationally handle, we propose a model-free Q-Learning approach that approximates the optimal policy. We validate our framework through extensive simulations over synthetic and real-world catalog topologies, on which we apply a number of different parameter sets to capture different behaviors.
     



© Πολυτεχνείο Κρήτης 2012