Συντάχθηκε 27-11-2025 11:51
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 02/12/2025 09:00
Λήξη: 02/12/2025 10:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Ιωάννη Τασιόπουλου
με θέμα
Υλοποίηση Συνόψεων Χωρικών Ροών Δεδομένων στο Apache Flink
Implementing Synopses for Summarizing Spatial Data Streams at Apache Flink
Εξεταστική Επιτροπή
Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων)
Καθηγητής Μίνως Γαροφαλάκης
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς
Περίληψη
Σε έναν κόσμο όπου τα δεδομένα είναι διαθέσιμα σε ολοένα αυξανόμενη ποσότητα και ταχύτητα, η επεξεργασία και ανάλυση τους είναι μείζονος σημασίας. Αυτό είναι απαραίτητο να γίνεται με τρόπο χωρικά και χρονικά αποδοτικό. Για το σκοπό αυτό έχουν δημιουργηθεί οι δομές δεδομένων που ονομάζονται συνόψεις, οι οποίες επιτρέπουν την εξαγωγή ωφέλιμης πληροφορίας από τεράστιες ροές δεδομένων, και την κατά προσέγγιση απάντηση σε επερωτήματα, όπως πλήθος, συχνότητα, ποσοστημόρια, συσχετίσεις κ.α. Στην παρούσα διπλωματική υλοποιείται, στο κατανεμημένο περιβάλλον του Apache Flink, η σύνοψη SpatialSketch και η επέκτασή της DynSketch, που χρησιμοποιούνται για να συνοψίσουν χωρικές ροές δεδομένων. Αυτές περιλαμβάνουν πληροφορία και συντεταγμένες, ή κάποιου άλλου τύπου χωρικές παραμέτρους που σχετίζονται με αυτήν. Αξιοποιώντας τις δυνατότητες του Apache Flink μεγιστοποιείται η ροή δεδομένων και ελαχιστοποιείται η καθυστέρηση. Ενδεικτικά, στα πειράματα που διεξήχθησαν για την αξιολόγηση του χρόνου απόκρισης σε επερώτηματα, επετεύχθη διατήρηση του 95ου ποσοστημορίου χρόνου απάντησης κάτω από 100 μsec. Επιπλέον, χρησιμοποιήθηκε η πλατφόρμα Grafana για την ολοκληρωμένη εποπτεία της εφαρμογής. Το εργαλείο αυτό επιτρέπει τη δημιουργία δυναμικά μεταβαλλόμενων οπτικοποιήσεων σε πραγματικό χρόνο, διευκολύνοντας έτσι την ανάλυση των δεδομένων που λαμβάνονται και των ερωτημάτων που εκτελούνται.
Abstract
In a world where data are available in an ever increasing volume and speed, their process and analysis is of utmost importance. This is necessary to be accomplished in a space and time efficient manner. For this purpose, data structures called synopses have been created, allowing the extraction of useful information from huge amounts of data and the approximate answer to queries related to cardinality, frequency, quantiles, correlation, etc. This thesis implements, in the distributed environment of Apache Flink, the SpatialSketch and its extension DynSketch, which are used to summarize spatial data streams. These include information accompanied by related coordinates or some other type of spatial attributes. Leveraging the potential that Apache Flink offers, data throughput can be maximized while minimizing latency. Indicatively, experiments conducted for measuring the estimation time of queries, have managed to maintain the 95th percentile under 100 μsec. Moreover, Grafana was used to provide a comprehensive overview of the application. It enables the creation of dynamic, real-time visualizations, facilitating the interpretation of the received data and the issued queries.
Meeting ID: 918 1519 0495
Password: 221573