Συντάχθηκε 12-05-2026 12:01
Τόπος: Γ3 - Κτίριο Γ3, Γ3.0.13
Έναρξη: 22/05/2026 14:00
Λήξη: 22/05/2026 15:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Μηχανικών Παραγωγής και Διοίκησης
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Ημερομηνία: Παρασκευή, 22 Μαΐου 2026, 14:00
Αίθουσα: Γ3.0.13-1
Ονοματεπώνυμο: ΞΕΝΟΦΩΝΤΟΣ ΑΝΔΡΕΑΣ
Θέμα: Χρήση και αξιολόγηση μεγάλων γλωσσικών μοντέλων για την απάντηση ερωτήσεων σε σύνολα δεδομένων
Title: Application and Evaluation of Large Language Models for Question Answering on Structured Data
Εξεταστική Επιτροπή
- ΦΑΦΑΛΙΟΣ ΠΑΥΛΟΣ, Επίκουρος Καθηγητής (επιβλέπων)
- ΣΙΣΚΟΣ ΕΛΕΥΘΕΡΙΟΣ, Επίκουρος Καθηγητής
- ΚΩΣΤΗΣ ΑΓΓΕΛΟΣ, Επίκουρος Καθηγητής
Περίληψη
Σε αυτήν τη διπλωματική εργασία εξετάζεται η αποτελεσματικότητα των μεγάλων γλωσσικών μοντέλων στην απάντηση ερωτήσεων πάνω σε σύνολα δεδομένων. Πιο συγκεκριμένα, μελετήθηκε η απόδοση γνωστών γλωσσικών μοντέλων, όπως το ChatGPT, σε δύο διαφορετικά σενάρια: α) απευθείας απάντηση σε ερώτηση με είσοδο ένα αρχείο δεδομένων σε μορφή CSV ή Excel, β) παραγωγή SQL ερωτήματος για την απάντηση της ερώτησης με είσοδο το σχήμα της σχεσιακής βάσης δεδομένων. Η αξιολόγηση περιλαμβάνει τέσσερα μεγάλα εμπορικά μοντέλα (ChatGPT, Gemini, Grok, Claude) και δύο μικρότερα ελαφριά μοντέλα ανοιχτού κώδικα (Phi 3 Mini, Mistral 7B) και δύο διαφορετικά σύνολα δεδομένων (δεδομένα ερωτηματολογίου, δεδομένα πωλήσεων). Οι ερωτήσεις ταξινομούνται ανάλογα με τον βαθμό πολυπλοκότητας ή δυσκολίας (εύκολες, μέτριες, δύσκολες και πολύ δύσκολες). Τα αποτελέσματα δείχνουν ότι τα μεγάλα εμπορικά μοντέλα πέτυχαν εξαιρετικά υψηλή ακρίβεια (98,4%–99,2%), με ελάχιστες διαφορές μεταξύ τους, ενώ τα ελαφριά μοντέλα πέτυχαν μόλις 30,1%–31,2%. Η διαφορά ήταν ιδιαίτερα μεγάλη στο σενάριο απευθείας απάντησης, όπου τα ελαφριά μοντέλα πέτυχαν σχεδόν μηδενική ακρίβεια (0%–6%), αφού παρήγαγαν κώδικα Python αντί απαντήσεων. Αξιοπρόσεκτα η μηχανική προτροπών (prompt engineering) είχε ελάχιστη επίδραση στα μεγάλα μοντέλα (±3,1%), ενώ η δυσκολία του ερωτήματος δεν αποτέλεσε πρόκληση γι' αυτά. Η μελέτη συμβάλλει στην κατανόηση των δυνατοτήτων και περιορισμών των LLMs στην ανάλυση δομημένων δεδομένων.
Abstract
This diploma thesis examines the effectiveness of Large Language Models in generating precise answers to questions based on data sets. To be more specific, the output of the well-known LLMs (ChatGPT etc.) is studied in two different scenarios: a) directly answering a question using a data file provided in CSV or Excel format, b) generating an SQL query that answers the question based on the schema of the relational database. The evaluation includes four Large Language Models (ChatGPT, Gemini, Grok, Claude) and two lightweight open-source models (Phi 3 Mini, Mistral 7B) and two different data sets (such as questionnaire data, sales data, etc.). Questions are categorized according to their level of complexity (easy, medium, hard, and extra hard). Results show that large commercial models achieved near-perfect accuracy (98,4%–99,2%), with minimal differences among them, while lightweight models achieved only 30,1%–31,2%. The gap was particularly dramatic in the direct Q&A scenario, where lightweight models achieved near-zero accuracy (0%– 6%), as they generated Python code instead of answers. Notably, prompt engineering had minimal impact on large models (±3,1%), and query difficulty did not pose a challenge for them. The study contributes to understanding the capabilities and limitations of LLMs in structured data analysis.