Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

26
Αυγ

Παρουσίαση Διπλωματικής Εργασίας κας Κατάρα Σωτηρίας-Μαρίας - Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας  
ΤοποθεσίαΗ παρουσίαση θα γίνει με τηλεδιάσκεψη
Ώρα26/08/2021 10:00 - 11:00

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΣΩΤΗΡΙΑ-ΜΑΡΙΑ ΚΑΤΑΡΑ

θέμα
Αποδοτική Πρόβλεψη Εξέλιξης Παράλληλων Καρκινικών Προσομοιώσεων στο Apache Flink
Efficient Forecasting of Multiple Concurrent Cancer Simulations with Apache Flink

Εξεταστική Επιτροπή
Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων)
Καθηγητής Μίνως Γαροφαλάκης
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς

Περίληψη
Η αλματώδης ανάπτυξη των υπολογιστικών συστημάτων, τόσο σταθερών όσο και κινητών, σε συνάρτηση με την ολοένα και μεγαλύτερη διείσδυση των ασύρματων και των ενσύρματων δικτύων έχουν ως συνέπεια την δημιουργία πολύ μεγάλων όγκων δεδομένων σε καθημερινή βάση. Η μελέτη των δεδομένων αυτών, επιτρέπει στους επιστήμονες τον εντοπισμό τάσεων και μοτίβων που μπορούν να χρησιμοποιηθούν για μελλοντικό όφελος. Ένας πολύ σημαντικός τομέας εφαρμογής των μελετών αυτών είναι στην Βιοπληροφορική και συγκεκριμένα στην πρόβλεψη της συμπεριφοράς ετερογενών πολυκυτταρικών συστημάτων, παρέχοντας τη δυνατότητα έγκαιρης λήψης αποφάσεων.  Στόχος αυτής της διπλωματικής εργασίας είναι ο εντοπισμός των όμοιων χρονικών στιγμών ενός συνόλου παράλληλων προσομοιώσεων καρκινικών κυττάρων, με σκοπό την εξαγωγή κατάλληλων πληροφοριών που θα χρησιμοποιηθούν στην πρόβλεψη της συμπεριφοράς αυτών. Η εκπλήρωση του στόχου αυτού συναντά δύο πολύ σημαντικές προκλήσεις.  Η υψηλή διαστασιμότητα των δεδομένων σε συνδυασμό με την δαπανηρή από άποψη χρόνου και μνήμης σύγκριση όλων των χρονικών στιγμών των χιλίων τετρακοσίων προσομοιώσεων απαιτούν την εφαρμογή ενός αλγόριθμου, του οποίου η λειτουργικότητα θα συνδυάζει την επίλυση των δύο αυτών πολύ σημαντικών προκλήσεων. Ο αλγόριθμος Random Hyperplane Projection του Locality Sensitive Hashing μπορεί να διευθετήσει και τις δύο προκλήσεις εφαρμόζοντας μείωση των διαστάσεων των δεδομένων σε μικρότερες, διατηρώντας παράλληλα την διαφορετικότητα αυτών, ενώ ταυτόχρονα αναλαμβάνει την ομαδοποίηση παρόμοιων αντικειμένων σε ίδιες ομάδες με μεγάλη πιθανότητα, μέσω της χρήσης κατάλληλων συναρτήσεων κατακερματισμού. Ζωτικής σημασίας είναι η κλιμακωσιμότητα της τεχνικής του αλγόριθμου που θα χρησιμοποιήσουμε, ώστε να επιτευχθεί η βέλτιστη χρονική απόδοση ως προς την εξαγωγή αποτελεσμάτων, παρά την αύξηση του όγκου των εισερχόμενων δεδομένων. Το ζητούμενο αυτό σε συνδυασμό με την ανάγκη για μείωση της χωρικής πολυπλοκότητας οδηγεί στην ανάπτυξη του αλγόριθμου σε μία μηχανή διατήρησης συνόψεων δεδομένων (Synopses Data Engine), η οποία είναι χτισμένη στο Apache Flink και έχει ως στόχο την υποστήριξη μεγάλης ποικιλίας συνόψεων και την προσθήκη νέων λειτουργιών κατά τον χρόνο εκτέλεσης παράλληλα και κατανεμημένα, παρέχοντας με αυτό τον τρόπο την λειτουργικότητα synopsis-as-a-service. Της εκτέλεσης του αλγόριθμου έπεται η ανάπτυξη ενός μαθηματικού μοντέλου πρόβλεψης με την μέθοδο της πολλαπλής γραμμικής παλινδρόμησης με σκοπό την πρόβλεψη της συμπεριφοράς στοιχείων του πολυκυτταρικού συστήματος. Η απόδοση του συστήματος ελέγχθηκε τοπικά και απομακρυσμένα - κατανεμημένα, αποδίδοντας θετικά αποτελέσματα.

Abstract 
The rapid growth of computer systems, both fixed and mobile, in relation with the growing penetration of wireless and wired networks have resulted in the creation of very large volumes of data on a daily basis. Studying this data allows scientists to identify trends and patterns that can be used for future benefit. A very important field of application of these studies is in Bioinformatics and specifically in the prediction of the behaviour of heterogeneous multicellular systems, providing the possibility of timely decision making. The aim of this diploma thesis is to identify the similar time points of a set of concurrent cancer cell simulations, in order to extract appropriate information that will be used to predict their behaviour.  Achieving this goal faces two very important challenges.  The high dimensionality of the data combined with the time-consuming and memory-costly comparison of all one thousand four hundred simulations of time require the application of an algorithm, the functionality of which will combine the solution of these two very important challenges. The Random Hyperplane Projection form of the Locality Sensitive Hashing algorithm can solve both challenges by reducing the size of the data to smaller ones, while maintaining their diversity, while at the same time undertaking the grouping of similar objects in the same groups with high probability, through the use of appropriate hash functions. Very important is the scalability of the algorithm technique we will use, in order to achieve the optimal time efficiency in terms of exporting results, despite the increase in the volume of incoming data. This, in combination with the need of reduction spatial complexity leads to the development of the algorithm in a Synopses Data Engine, which is built on Apache Flink and aims to support a wide variety of synopses and add new ones, at runtime, in parallel and distributed way, thus providing the synopsis-as-a- service functionality. The execution of the algorithm is followed by the development of a forecasting mathematical model with the method of multiple linear regression in order to predict the behaviour of elements of the multicellular system. The performance of the system was tested locally and remotely - distributed, yielding positive results.


Meeting ID: 282 103 7415
Password: 221573

© Πολυτεχνείο Κρήτης 2012