BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//TUC//Events//EN
CALSCALE:GREGORIAN
BEGIN:VTIMEZONE
TZID:Europe/Athens
TZNAME:EEST
DTSTART:19700329T030000
RRULE:FREQ=YEARLY;BYDAY=-1SU;BYMONTH=3
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0300
TZNAME:EET
DTSTART:19701025T040000
RRULE:FREQ=YEARLY;BYDAY=-1SU;BYMONTH=10
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
CREATED:20230711T075338Z
LAST-MODIFIED:20230711T075338Z
DTSTAMP:20240511T122037Z
UID:1715419237@tuc.gr
SUMMARY:Παρουσίαση Διπλωματικής Εργασίας κ. 
 Μιχάλη Αναστασίου - Σχολή ΗΜΜΥ
LOCATION:
DESCRIPTION:https://www.tuc.gr/el/to-polytechnei
 o/ilektronikes-ypiresies/imerologio/
 imerologio-ekdiloseon-1?tx_tucevents
 2_tuceventsdisplay%5Baction%5D=show&
 tx_tucevents2_tuceventsdisplay%5Bcon
 troller%5D=Event&tx_tucevents2_tucev
 entsdisplay%5Bevent%5D=6329&cHash=e5
 b356cc492ad464dd26933d9f2d74ef\nΠΟΛΥ
 ΤΕΧΝΕΙΟ ΚΡΗΤΗΣ\n Σχολή Ηλεκτρολόγων 
 Μηχανικών και Μηχανικών Υπολογιστών\
 n Πρόγραμμα Προπτυχιακών Σπουδών\n Π
 ΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ\n Μι
 χάλη Αναστασίου\n με θέμα\n Εύρεση Σ
 υσχετισμένων Γνωρισμάτων σε Σετ Δεδο
 μένων στο Flink\n Finding Correlated
  Attributes in Datasets at Flink\n Ε
 ξεταστική Επιτροπή\n Αντώνιος Δεληγι
 αννάκης (επιβλέπων), Καθηγητής\n Μίν
 ως Γαροφαλάκης, Καθηγητής\n Βασίλειο
 ς Σαμολαδάς, Αναπληρωτής Καθηγητής\n
  Περίληψη\n Η ταχεία ανάπτυξη της τε
 χνολογίας επιφέρει τεράστιο όγκο δεδ
 ομένων σε καθημερινή βάση. Πρόκειται
  για δεδομένα, των οποίων ο όγκος εί
 ναι δέκα φορές μεγαλύτερος σε σχέση 
 με τον αντίστοιχο πριν από 5 χρόνια.
  Άρα, δικαίως, η σύγχρονη εποχή χαρα
 κτηρίζεται και ως εποχή των μεγάλων 
 Δεδομένων (Big Data). Η μελέτη αυτών
  των δεδομένων είναι απαραίτητη τόσο
  σε ακαδημαϊκό επίπεδο όσο και στις 
 διάφορες βιομηχανίες, αφού μέσω αυτή
 ς μπορούν να εξαχθούν συμπεράσματα π
 ολύ πιο εύκολα. Στόχος αυτής της διπ
 λωματικής είναι η εύρεση συσχετισμέν
 ων δεδομένων σε πραγματικό χρόνο με 
 σκοπό την εξαγωγή δεδομένων, που μπο
 ρούν να χρησιμοποιηθούν για την πρόβ
 λεψη ομοιότητας. Καθώς υπάρχει τεράσ
 τιος όγκος δεδομένων, η παρούσα διπλ
 ωματική εργασία επεξεργάζεται κατανε
 μημένα και παράλληλα χιλιάδες ροές δ
 εδομένων με σκοπό την εύρεση των k π
 ιο όμοιων ροών. Ο υπολογισμός ομοιότ
 ητας χιλιάδων ροών δεδομένων με μεγά
 λο μέγεθος θα ήταν πάρα πολύ δαπανηρ
 ός, για αυτό έπρεπε να εφαρμοστεί έν
 ας αλγόριθμος για δειγματοληψία των 
 δεδομένων με απώτερο σκοπό την σμίκρ
 υνση τους χωρίς τον κίνδυνο, όμως, α
 πώλειας πληροφορίας. Ο αλγόριθμος αυ
 τός αναπτύχθηκε στην πλατφόρμα διατή
 ρησης συνόψεων δεδομένων (Synopses D
 ata Engine). Η πλατφόρμα αύτη είναι 
 κτισμένη στο framework Apache Flink,
  και έχει ως κύρια λειτουργία την υπ
 οστήριξη διάφορων συνόψεων, οι οποίε
 ς λειτουργούν παράλληλα και κατανεμη
 μένα σε πραγματικό χρόνο εκτέλεσης. 
 Έπειτα από την ολοκλήρωση του αλγορί
 θμου για την σύνοψη, ακολούθησε το μ
 αθηματικό μοντέλο για την εύρεση την
  ομοιότητας ανάμεσα στις συνόψεις. Τ
 ο μαθηματικό μοντέλο αποτελείται από
  το Pearson Correlation συνυπολογίζο
 ντας το τυπικό σφάλμα της δειγματολη
 ψίας χρησιμοποιώντας τον μετασχηματι
 σμό Fisher Z. Για την αποτελεσματικό
 τητα και ορθότητα του συστήματος σχε
 διάστηκε, αρχικά, τοπικά όπου έγιναν
  πειράματα και επαληθεύτηκε η σωστή 
 λειτουργία. Έπειτα, ελέγχθηκε απομακ
 ρυσμένα και κατανεμημένα, όπου έγινα
 ν τα τελικά πειράματα, πετυχαίνοντας
  θετικά και ικανοποιητικά αποτελέσμα
 τα.\n Abstract \n The rapid developm
 ent of technology has brought about 
 a huge amount of data on a daily bas
 is. This is data whose volume is ten
  times greater than it was 5 years a
 go. So the modern era is rightly des
 cribed as the era of Big Data. The s
 tudy of this data is essential both 
 at the academic level and in various
  industries, since by studying this 
 data, one can draw conclusions much 
 easier. The aim of this thesis is to
  find correlated data in real-time i
 n order to extract data that can be 
 used to predict similarity. Due to t
 he fact that, as mentioned before, t
 here is a huge amount of data this t
 hesis processes distributed and para
 llel thousands of data streams in or
 der to find the k most similar strea
 ms. Computing the similarity of thou
 sands of data streams with a large s
 ize would be too costly to implement
  an algorithm for sampling the data 
 with the ultimate goal of reducing t
 he data size but without the risk of
  information loss. This algorithm wa
 s developed within the Synopses Data
  Engine. This platform is built on t
 op of the Apache Flink framework, an
 d its main function is to support se
 veral synopses running in parallel a
 nd distributed in real time. After c
 ompleting the algorithm for the syno
 psis, the mathematical model for fin
 ding the similarity between the syno
 pses was followed. The mathematical 
 model consists of Pearson Correlatio
 n plus the standard error of samplin
 g using the Fisher Z transformation.
  For the efficiency and correctness 
 of the system was initially designed
  locally where experiments were cond
 ucted and verified. It was then test
 ed remotely and distributed where fi
 nal experiments were conducted, achi
 eving positive and satisfactory resu
 lts.\n Meeting ID: 928 1444 7205\n P
 assword: 221573\n
STATUS:CONFIRMED
ORGANIZER;RSVP=FALSE;CN=TUC;CUTYPE=TUC:mailto:webmaster@tuc.gr
DTSTART:20230717T093000
DTEND:20230717T103000
TRANSP:OPAQUE
CLASS:DEFAULT
END:VEVENT
END:VCALENDAR