08
Φεβ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Αντωνίου Σκεύη
με θέμα
Αντιστρέψιμες Συνόψεις Δεδομένων και η Επίδρασή τους στην Εξόρυξη Γνώσης από Δεδομένα Αισθητήρων
Reversible Data Summaries and their Effect on Mining Sensor Data
Εξεταστική Επιτροπή
Επίκουρος Καθηγητής Νικόλαος Γιατράκος (επιβλέπων)
Καθηγητής Αντώνιος Δεληγιαννάκης
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς
Περίληψη
Σκοπός αυτής της διπλωματικής εργασίας είναι η έρευνα της επίδρασης των αντιστρέψιμων συνόψεων δεδομένων για την εξόρυξη γνώσης από δεδομένα αισθητήρων. Η μελέτη εξετάζει τέσσερις εγκεκριμένες μεθόδους συμπίεσης δεδομένων, την Discrete Fourier Transform (DFT), την Discrete Cosine Transform (DCT), την Discrete Wavelet Transform (DWT) και την Piecewise Aggregate Approximation (PAA), σε συνδυασμό με μια μέθοδο η οποία αναπτύχθηκε στα πλαίσια της εργασίας και η λειτουργία της βασίζεται στην χρήση Random Hypeplane Projection.
Στο πλαίσιο αυτής της έρευνας, εφαρμόζουμε τις παραπάνω τεχνικές συμπίεσης σε δύο σύνολα δεδομένων που περιλαμβάνουν μετρήσεις αισθητήρων. Χρησιμοποιούμε κυλιόμενα παράθυρα διαφόρων μεγεθών και αξιοποιούμε μια σειρά από τεχνικές εξόρυξης δεδομένων. Πιο συγκεκριμένα, χρησιμοποιήσαμε μεθόδους συσταδοποίησης όπως οι K-Means και DBSCAN (Density-Based Spatial Clustering of Applications with Noise), αλγόριθμους παλινδρόμησης όπως η Γραμμική και η Λογιστική Παλινδρόμηση, και διάφορες προσεγγίσεις στατιστικής ταξινόμησης όπως οι K-NN (K-Nearest Neighbors), SVM (Support Vector Machines) και ένα Νευρωνικό Δίκτυο. Εφαρμόζουμε αυτές τις τεχνικές τόσο στα ακατέργαστα όσο και στα συμπιεσμένα σύνολα δεδομένων, εξασφαλίζοντας έτσι μια σφαιρική ανάλυση των δεδομένων. Η μελέτη στοχεύει στο να αξιολογήσει την δυνατότητα κάθε μεθόδου συμπίεσης να διατηρεί την ακρίβεια των αποτελεσμάτων σε σύγκριση με τα αρχικά, ασυμπίεστα, δεδομένα. Με την άμεση σύγκριση αυτών των μεθόδων, μπορούμε να εξάγουμε αποτελέσματα σχετικά με την αποτελεσματικότητά τους στη διατήρηση κρίσιμων πληροφοριών για σκοπούς εξόρυξης δεδομένων.
Επιπροσθέτως, με την προσομοίωση ενός δικτύου αισθητήρων, χρησιμοποιώντας τον προσομοιωτή TOSSIM (TinyOS Simulation), η μελέτη ερευνά την επίδραση των τεχνικών συμπίεσης σε πραγματικές συνθήκες αξιολογώντας πώς η συμπίεση δεδομένων επηρεάζει τον αριθμό των bits καθώς και την ενεργειακή κατανάλωση που απαιτούνται για τη μετάδοση ενός συνόλου δεδομένων. Μέσω της μελέτης αυτών των αποτελεσμάτων, η εργασία συμβάλλει στην καλύτερη κατανόηση της επίδρασης των τεχνικών συμπίεσης στην επέκταση της διάρκειας ζωής των δικτύων αισθητήρων, ένα σημαντικό παράγοντα για βιώσιμες και αποτελεσματικές αναπτύξεις πόρων, όχι μόνο στον τομέα των αισθητήρων, αλλά και σε ευρύτερα πλαίσια του Διαδικτύου των Πραγμάτων (Internet of Things).
Αυτή η λεπτομερής ανάλυση έχει δύο στόχους: πρώτον, την σύγκριση της απόδοσης διαφορετικών μεθόδων συμπίεσης, και δεύτερον, να παρέχει πρακτικές γνώσεις ως προς τη χρήση τους σε πραγματικά δίκτυα αισθητήρων.
Abstract
This thesis investigates the effect of reversible data summary methods in the context of mining sensor data streams. The study explores four well-established methods, namely Discrete Fourier Transform (DFT), Discrete Cosine Transform (DCT), Discrete Wavelet Transform (DWT), and Piecewise Aggregate Approximation (PAA), alongside a novel Reversible Random Hyperplane Projection method developed within the scope of this thesis.
As part of this research, we apply the aforementioned compression techniques to two datasets that contain sensor measurements. We employ tumbling windows of varying sizes and leverage an array of data mining techniques. These include diverse clustering methods such as K-Means and DBSCAN (Density-Based Spatial Clustering of Applications with Noise), regression algorithms like Linear and Logistic Regression, and various classification approaches such as K-NN (K-Nearest Neighbors), SVM (Support Vector Machines) and a Neural Network. We apply these techniques to both raw and compressed datasets, ensuring a comprehensive analysis of the data. The study aims to assess how well each compression method retains the accuracy of results compared to the original, raw, data. By directly comparing these methods, we gain insights into their effectiveness in retaining crucial information for data mining purposes within the compressed representations.
Additionally, the study explores real-world network effects of the involved compression techniques by simulating a sensor network using TOSSIM. This simulation evaluates how data compression affects the number of bits needed to transmit a dataset and the resulting power savings. By gaining insights from these results, the research contributes to understanding how compression techniques could increase the lifetime of sensor networks, an important factor for sustainable and efficient deployments of resources, not only in sensor, but also in broader Internet of Things (IoT) settings.
This detailed analysis has two goals: firstly, to compare how different data compression methods perform, and secondly, to provide practical insights for using them in real-world sensor networks.