Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας κας Χρυσηίδας Μανουδάκη - Σχολή ΗΜΜΥ
Αναγνώσεις: 204 / Συνδρομές: 0

  • Συντάχθηκε 24-02-2026 10:27 Πληροφορίες σύνταξης

    Ενημερώθηκε: -

    Τόπος:
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 25/02/2026 17:00
    Λήξη: 25/02/2026 18:00

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Χρυσηίδας Μανουδάκη

    με θέμα
    Αυτοματοποίηση Εξαγωγής Πληροφορίας από Emails με χρήση Μεγάλων Γλωσσικών Μοντέλων
    Automating Information Extraction from Emails using Large Language Models

    Εξεταστική Επιτροπή
    Καθηγητής Μιχαήλ Γ. Λαγουδάκης (Σχολή ΗΜΜΥ, Επιβλέπων)
    Καθηγητής Θρασύβουλος Σπυρόπουλος (Σχολή ΗΜΜΥ)
    Δρ. Βασίλειος Διακολουκάς (Σχολή ΗΜΜΥ)

    Περίληψη
    Στον επιχειρηματικό κόσμο, η διαχείριση μεγάλων όγκων αδόμητων δεδομένων, ειδικά στις επικοινωνίες μέσω ηλεκτρονικού ταχυδρομείου, επηρεάζει σημαντικά την αποδοτικότητα στην ανάκτηση πληροφοριών. Στην παρούσα διπλωματική εργασία, σχεδιάζουμε και υλοποιούμε ένα ισχυρό σύστημα για την επεξεργασία και την εξαγωγή δομημένων δεδομένων από πολύγλωσσα νήματα ηλεκτρονικού ταχυδρομείου στον τομέα της εφοδιαστικής αλυσίδας και των μεταφορών, χρησιμοποιώντας Μεγάλα Γλωσσικά Μοντέλα (LLMs). Η ερευνητική μεθοδολογία είναι δομημένη σε τρεις φάσεις: την προεπεξεργασία δεδομένων, την αρχιτεκτονική ανάκτησης πληροφοριών και την ενσωμάτωση συστήματος πρακτόρων. Αρχικά, αναπτύσσεται μια ροή προεπεξεργασίας για τη διαχείριση ενθόρυβων δεδομένων. Αυτή η ροή χρησιμοποιεί Κανονικές Εκφράσεις (Regular Expressions) και εκκαθάριση βασισμένη σε LLM για τη μετάφραση του περιεχομένου στα Αγγλικά, την κατάτμηση των νημάτων και την αφαίρεση άσχετων μεταδεδομένων. Στη συνέχεια, πραγματοποιείται σημασιολογική απαλοιφή διπλότυπων (semantic deduplication) με χρήση διανυσματικών βάσεων δεδομένων. Παράλληλα, εξετάζονται αποδοτικές στρατηγικές συμπερασμού, ώστε να διασφαλιστεί η χαμηλή καθυστέρηση που απαιτούν οι εφαρμογές πραγματικού χρόνου. Η δεύτερη φάση της εργασίας περιλαμβάνει τη διερεύνηση και σύγκριση τριών συστημάτων Retrieval-Augmented Generation (RAG): ένα βασικό RAG που χρησιμοποιεί διανυσματικές βάσεις δεδομένων, μια προσέγγιση GraphRAG που αξιοποιεί γράφους γνώσης (Knowledge Graphs) για τη χαρτογράφηση σύνθετων σχέσεων μεταξύ οντοτήτων, και την πλατφόρμα LightRAG, η οποία χρησιμοποιεί ένα μοντέλο ανάκτησης πληροφορίας δύο επιπέδων. Τέλος, αυτά τα στοιχεία ενσωματώνονται σε μια εποπτική πολυ-πρακτορική αρχιτεκτονική (supervisor multi-agent architecture), η οποία είναι προσβάσιμη μέσω μιας φιλικής προς τον χρήστη διεπαφής chatbot. Ο επόπτης ενορχηστρώνει εξειδικευμένους πράκτορες που εκτελούν την προεπεξεργασία, τη διαχείριση του γραφήματος και την επίλυση σύνθετων ερωτημάτων, προκειμένου να ικανοποιήσουν αιτήματα σε φυσική γλώσσα. Τα αποτελέσματά μας δείχνουν ότι στις περισσότερες περιπτώσεις το προτεινόμενο σύστημα ήταν σε θέση να καταγράψει τα βασικά σημεία των επικοινωνιών μέσω ηλεκτρονικού ταχυδρομείου και να δημιουργήσει ουσιαστικές απαντήσεις σε μια σειρά ερωτήσεων. Συνολικά, η παρούσα εργασία παρουσιάζει ένα επεκτάσιμο και αξιόπιστο σύστημα που συνδυάζει γραφήματα γνώσης και πράκτορες με ικανότητα συλλογισμού για τη βελτίωση της ακρίβειας και της αξιοπιστίας κατά την εξαγωγή σύνθετων λογιστικών δεδομένων από μη δομημένο κείμενο.

    Abstract
    In the corporate world, managing large volumes of unstructured data, especially in email communications, significantly impacts efficiency in information retrieval. In this diploma thesis, we design and implement a robust system for processing and extracting structured data from multilingual email threads within the logistics and transportation domain using Large Language Models (LLMs). The research methodology is structured around three phases: data preprocessing, information retrieval architecture, and agentic system integration. First, a preprocessing pipeline is developed to handle noisy data. This pipeline uses Regular Expressions and LLM-based cleansing to translate content to English, segment threads, and remove irrelevant metadata. Then, semantic deduplication is performed using vector databases. Concurrently, efficient inference strategies are examined to ensure low latency required by real-time applications. The second phase of the thesis involves investigating and comparing three Retrieval-Augmented Generation (RAG) workflows: a baseline RAG using vector databases; a GraphRAG approach that leverages knowledge graphs (KGs) to map complex entity relationships; and the LightRAG framework, which employs a dual-level retrieval paradigm. Finally, these components are integrated into a supervisor multi-agent architecture, which is accessible via a user-friendly chatbot interface. The supervisor orchestrates specialized agents that perform preprocessing, graph management, and complex query resolutions to fulfill natural language requests. Our results indicate that in most cases the proposed system was able to capture the core points of the email communications and generate meaningful replies to a range of queries. Overall, this thesis presents a scalable and reliable framework that combines knowledge graphs and agent reasoning to improve the accuracy and reliability of extracting complex logistics data from unstructured text.

    Meeting ID: 94442725167  
    Password: 874634



© Πολυτεχνείο Κρήτης 2012