Συντάχθηκε 10-06-2026 11:55
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 25/06/2026 14:00
Λήξη: 25/06/2026 15:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Ιωάννας Μαρίνου
με θέμα
Χρήση Μεγάλων Γλωσσικών Μοντέλων για Ανάπτυξη Γεννήτριας Συνόλων Δεδομένων για Οικοσυστήματα Έξυπνων Δικτύων με Ηλεκτρικά Οχήματα
An LLM-Based Dataset Generator for Smart Grid Ecosystems Populated with Electric Vehicles
Εξεταστική Επιτροπή
Καθηγητής Γεώργιος Χαλκιαδάκης (επιβλέπων)
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς
Καθηγητής Φώτιος Κανέλλος (ΠΚ, Σχολή ΜΠΔ)
Περίληψη
Τα ρεαλιστικά σύνολα δεδομένων διαδρομών και φόρτισης ηλεκτρικών οχημάτων (EV) είναι απαραίτητα για τον σχεδιασμό ευφυών δικτύων ενέργειας, ωστόσο τα πραγματικά δεδομένα παραμένουν δυσεύρετα, εξαρτόμενα από την τοποθεσία και δύσκολα γενικεύσιμα. Στην παρούσα εργασία, παρουσιάζουμε ένα πολυπρακτορικό σύστημα που αξιοποιεί Μεγάλα Γλωσσικά Μοντέλα (LLMs) για τη δημιουργία συνθετικών συνόλων δεδομένων EV χρησιμοποιώντας τις ελάχιστες δυνατές πληροφορίες ως είσοδο και χωρίς πρόσβαση σε πραγματικά δεδομένα για εκπαίδευση. Το πλαίσιο αποτελείται από τέσσερις εξειδικευμένους πράκτορες οργανωμένους σε μια σειριακή δομή επεξεργασίας: έρευνα σεναρίου μέσω αναζήτησης στο διαδίκτυο, σχεδιασμό αρχετύπων συμπεριφοράς, κατανομή πληθυσμού και σταδιακή παραγωγή γεγονότων. Κάθε στάδιο είναι συνδεδεμένο με έναν ντετερμινιστικό βρόχο επικύρωσης και ανατροφοδότησης. Αξιολογούμε το πλαίσιο σε τρία γεωγραφικά πλαίσια και με τρία διαφορετικά LLMs χρησιμοποιώντας συσχετίσεις Spearman, Ολική Απόσταση Μεταβολής (TVD) και απόσταση Manhattan, διαπιστώνοντας ότι και οι τέσσερις συσχετίσεις Spearman είναι θετικές και στατιστικά σημαντικές (ρ ∈ [0.572, 0.835], p < 0.01) και ότι τα παραγόμενα δεδομένα επιτυγχάνουν 75% κατανεμητική επικάλυψη με πραγματικές παρατηρήσεις (TVD 0.249). Σε 38 πειράματα εντοπίζουμε κατανεμητικές αποκλίσεις και θεμελιώνουμε ένα κεντρικό συμπέρασμα: οι προτροπές και ο σχεδιασμός αρχετύπων διέπουν αποτελεσματικά τον χρονισμό των διαδρομών, υστερούν όμως ως προς την κατανομή του αριθμού τους και αποτυγχάνουν σε μεγάλο βαθμό να ελέγξουν τις κατανομές φόρτισης, τόσο ως προς τον χρονισμό όσο και ως προς τη συχνότητα. Καταλήγουμε ότι η παραγωγή μέσω LLM συμπληρώνει τις στατιστικές μεθόδους, αλλά δεν τις αντικαθιστά, προσφέροντας προσαρμοστικότητα σε περιπτώσεις όπου δεν υπάρχουν διαθέσιμα πραγματικά δεδομένα.
Abstract
Realistic electric vehicle (EV) trip and charging datasets are essential for smart grid planning, yet real-world data remains scarce, location-specific, and difficult to generalise. In this work, we present a multiagent framework that employs Large Language Models (LLMs) to generate synthetic EV datasets from minimal input, without access to ground-truth training data. The framework consists of four specialised agents arranged in a staged pipeline - scenario research via web search, behavioural archetype design, population distribution assignment, and incremental event generation - each coupled with a deterministic validation feedback loop. We evaluate our framework across three geographic contexts and three LLMs using Spearman rank correlations, Total Variation Distance (TVD), and Manhattan distance, finding that all four Spearman correlations are positive and statistically significant (ρ ∈ [0.572, 0.835], p < 0.01) and that the generated data achieves 75% distributional overlap with real-world observations (TVD 0.249). In 38 experiments we identify distributional biases that resist prompt engineering, and establish a central finding: prompts and archetype design together effectively govern trip timing, but fall short for trip-count distribution and largely fail to control charging distributions, both timing and frequency. We conclude that LLM-based generation complements, rather than replaces, statistical methods, offering scenario adaptability where ground-truth data is unavailable.