Συντάχθηκε 10-06-2026 10:15
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 18/06/2026 16:00
Λήξη: 18/06/2026 17:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Αθανασίου Μπούτα
με θέμα
ETL σε Ροές Δεδομένων χρησιμοποιώντας το Apache Flink
Streaming ETL using Apache Flink
Εξεταστική Επιτροπή
Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων)
Καθηγητής Μίνως Γαροφαλάκης
Επίκουρος Καθηγητής Νικόλαος Γιατράκος
Περίληψη
Η παρούσα διπλωματική εργασία παρουσιάζει την ανάπτυξη ενός συστήματος ETL για την επεξεργασία και αποθήκευση δεδομένων που προέρχονται από ένα δίκτυο αισθητήρων, σε πραγματικό χρόνο. Στο σύστημα που αναπτύχθηκε οι χρήστες μπορούν να αποστείλουν ερωτήματα(Queries) σε μορφή Json αρχείου ως προς την εισερχόμενη ροή. H ανάπτυξη έγινε με την χρήση της κατανεμημένης μηχανής Flink. Τα ερωτήματα κατατίθενται μέσω ενός REST API που αναπτύχθηκε σχετικά, ενώ υποστηρίζονται μετασχηματισμοί συνάθροισης αλλά και μετασχηματισμοί σε single elements. Το σύστημα μας προσφέρει την δυνατότητα πολλαπλών υποβολών αρχείων χωρίς να χρειάζεται να επανεκκινήσει το job. Η αξιολόγηση του συστήματος μας πραγματοποιήθηκε στον SoftNet Cluster του Πολυτεχνείου Κρήτης. Εκεί μελετήθηκε σε batch προσέγγιση, η επίδραση των επιπέδων παραλληλισμού του Flink, η επίδρασή του πλήθους των δεδομένων εισόδου αλλά και του αριθμού των αρχείων που υποβάλλονται από τους χρήστες. Τα αποτελέσματα επιβεβαιώνουν ότι η επεξεργασία παραμένει σταθερή ανά εγγραφή ανεξαρτήτως του όγκου των δεδομένων, ενώ ο χρόνος επεξεργασίας μειώνεται με την αύξηση των επιπέδων του παραλληλισμού.
Abstract
This thesis presents the development of an ETL system for the real-time processing and storage of data originating from a sensor network. The developed system enables users to submit queries in the form of JSON files over the incoming data stream. The implementation was carried out using the distributed processing engine Apache Flink. Queries are submitted through a dedicated REST API, while the system supports both aggregation transformations and single-element transformations. Furthermore, the system provides the capability of handling multiple query file submissions without requiring a job restart. The evaluation of the system was conducted on the SoftNet Cluster of the Technical University of Crete. Using a batch-processing approach, we investigated the impact of Flink's parallelism levels, the volume of input data, and the number of query files submitted by users. The results confirm that the processing cost per record remains stable regardless of data volume, while the overall processing time decreases as the level of parallelism increases.