Συντάχθηκε 07-10-2025 11:32
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 08/10/2025 15:00
Λήξη: 08/10/2025 16:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Ευαγγέλου Αθανασάκη
με θέμα
Βελτιστοποίηση Επιχειρησιακών Ροών Εργασίας μέσω Αυτοματοποιημένης Εξαγωγής Πληροφορίας από Αρχεία PDF με χρήση Μεγάλων Γλωσσικών Μοντέλων
Optimization of Enterprise Workflows through Automated Information Extraction from PDF Files using Large Language Models
Εξεταστική Επιτροπή
Καθηγητής Μιχαήλ Γ. Λαγουδάκης (Σχολή ΗΜΜΥ, Επιβλέπων)
Καθηγητής Θρασύβουλος Σπυρόπουλος (Σχολή ΗΜΜΥ)
Δρ. Βασίλειος Διακολουκάς (Σχολή ΗΜΜΥ)
Περίληψη
Οι μεγάλοι όγκοι αρχείων που διακινούνται στις σύγχρονες επιχειρησιακές ροές έχουν ωθήσει την ανάπτυξη μεθόδων που βασίζονται σε τεχνικές Τεχνητής Νοημοσύνης για αυτοματοποιημένη εξαγωγή, ανάκτηση και σύνοψη πληροφοριών. Στην παρούσα διπλωματική εργασία μελετώνται και υλοποιούνται μέθοδοι επεξεργασίας και εξαγωγής δεδομένων από ημιδομημένα έγγραφα PDF με χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Models – LLMs). Η εργασία αναπτύσσεται σε δύο διακριτά μέρη. Στο πρώτο μέρος, το πεδίο μελέτης επικεντρώνεται στην ανάκτηση πληροφοριών από αναλύσεις Ελληνικών εδαφών, οι οποίες χαρακτηρίζονται από ετερογένεια στη δομή και τη μορφοποίησή τους. Εξετάζονται διάφορες τεχνικές εξαγωγής κειμένου, τόσο από εγγενώς ψηφιακά, όσο και από σκαναρισμένα, έγγραφα με χρήση Οπτικής Αναγνώρισης Χαρακτήρων (Optical Character Recognition – OCR). Στη συνέχεια, εξετάζεται η συνεισφορά επιμέρους υπομονάδων της ροής επεξεργασίας, όπως post-processing για διόρθωση λαθών κατά την εξαγωγή του κειμένου και μετάφραση από Ελληνικά σε Αγγλικά, στην ακρίβεια και την αποδοτικότητα της συνολικής δομής. Στη συνέχεια, συγκρίνονται διάφορες τεχνικές ανάκτησης πληροφορίας, όπως η προσέγγιση πλήρων συμφραζομένων (full-context prompting) και η ανάκτηση υποβοηθούμενη από γνώση (Retrieval-Augmented Generation – RAG), με στόχο την αξιολόγηση της αποδοτικότητας κάθε ροής επεξεργασίας. Στο δεύτερο μέρος, η μεθοδολογία γενικεύεται, ώστε να μπορεί να εφαρμοστεί σε έγγραφα PDF από κάθε πεδίο εφαρμογής. Για τον σκοπό αυτόν αναπτύσσονται τρείς πράκτορες (agents): Ο Πράκτορας Ανίχνευσης Πεδίων εντοπίζει υποψήφια πεδία, ο Πράκτορας Μετα-Επεξεργασίας φιλτράρει και κανονικοποιεί τα αποτελέσματα, ενώ ο Πράκτορας Δημιουργίας Prompts κατασκευάζει δυναμικά prompts για τη φάση ανάκτησης πληροφορίας. Εξετάζονται διαφορετικές αρχιτεκτονικές που δημιουργούνται από αυτούς τους πράκτορες για την εξαγωγή των ονομάτων των πεδίων που μπορούν να ανακτηθούν από το έγγραφο. Στην συνέχεια, αξιολογείται εκ νέου η αποδοτικότητα της καλύτερης μεθόδου ανάκτησης πληροφορίας που προέκυψε από το πρώτο μέρος, καθώς και παραλλαγές της προσέγγισης πλήρων συμφραζομένων. H προτεινόμενη προσέγγιση επιτρέπει την αυτόματη, προσαρμοστική και αποδοτική εξαγωγή πληροφορίας από ποικίλα κείμενα προερχόμενα από διαφορετικούς τομείς. Συνολικά, η εργασία συμβάλλει τόσο στην αξιολόγηση και βελτίωση διαφορετικών ροών επεξεργασίας για την εξαγωγή δεδομένων από αναλύσεις Ελληνικών εδαφών, όσο και στην ανάπτυξη μίας γενικής και επεκτάσιμης σε κάθε τομέα, πολυπρακτορικής αρχιτεκτονικής. Η προτεινόμενη υποδομή μπορεί να εφαρμοστεί σε ποικίλα πεδία εφαρμογής, ενισχύοντας την αυτοματοποίηση και την ακρίβεια στην εξαγωγή πληροφοριών από αρχεία PDF.
Abstract
The large volumes of files circulated in today’s enterprise workflows have prompted the development of methods based on Artificial Intelligence (AI) techniques for automated information extraction, retrieval, and summarization. In this diploma thesis, methods for processing and extracting data from semi-structured Portable Document Format (PDF) documents are studied and implemented using Large Language Models (LLMs). The project is divided into two distinct parts. In the first part, the study focuses on information retrieval from Greek soil analyses, which are characterized by their heterogeneous structure and formatting. Various text extraction techniques are examined, both from natively digital and scanned documents using Optical Character Recognition (OCR). The contribution of individual sub-modules in the processing pipeline, such as post-processing for text extraction error correction and translation from Greek to English, is then investigated to the accuracy and efficiency of the overall structure. Various information retrieval techniques are then compared, including the full-context prompting approach and Retrieval-Augmented Generation (RAG), with the goal of evaluating the efficiency of each processing flow. In the second part, the methodology is generalized to be applicable to PDF documents from any domain. To this end, three agents are developed: The Field Detection Agent identifies candidate fields, the Post-Processing Agent filters and normalizes the results, and the Prompt Builder Agent dynamically constructs prompts for the information retrieval phase. Different architectures created by these agents are examined for extracting the names of fields that can be retrieved from the document. The efficiency and accuracy of the best information retrieval method from the first part is then re-evaluated, along with a variation of the full-context prompting approach. The proposed approach allows for automatic, adaptive, and efficient information extraction from a variety of texts. Overall, the thesis contributes to both the evaluation and improvement of different processing flows for data extraction from Greek soil analyses and the development of a general and scalable multi-agent architecture for any domain. The proposed framework can be applied to various fields, enhancing the automation and accuracy of information extraction from PDF files.
Meeting ID: 98611300947
Password: 258009