Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin
Προβολή ημερολογίου Προβολή ημερολογίου
Προβολή λίστας Προβολή λίστας
iCal - Εκδηλώσεις μήνα iCal - Εκδηλώσεις μήνα
iCal - Εκδηλώσεις 6 μηνών iCal - Εκδηλώσεις 6 μηνών
RSS - Εκδηλώσεις μήνα RSS - Εκδηλώσεις μήνα
RSS - Εκδηλώσεις 6 μηνών RSS - Εκδηλώσεις 6 μηνών

03
Μαρ

Παρουσίαση Διπλωματικής Εργασίας κ. Παπαδόπουλος Αργύρης- Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας   ΗΜΜΥ  
ΤοποθεσίαΗ παρουσίαση θα γίνει με τηλεδιάσκεψη
Ώρα03/03/2022 12:00 - 13:00

Περιγραφή:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΠΑΠΑΔΟΠΟΥΛΟΣ ΑΡΓΥΡΗΣ

Θέμα:
Δημιουργία Μουσικής με Χρήση Νευρωνικών Δικτύων
Generating Music with Deep Neural Networks

Εξεταστική Επιτροπή:
Αν. Καθηγητής Μιχαήλ Λαγουδάκης (επιβλέπων)
Αν. Καθηγητής Γεώργιος Χαλκιαδάκης
Καθηγητής Ευρυπίδης Πετράκης

 

Περίληψη
Η Μηχανική Μάθηση έχει χρησιμοποιηθεί σε πολλές εφαρμογές τα τελευταία χρόνια και έχει δώσει εντυπωσιακά αποτελέσματα. Είναι ενδιαφέρον ότι πέρα από τα γνωστά προβλήματα ακαδημαϊκού, ερευνητικού ή εμπορικού ενδιαφέροντος, οι τεχνικές μηχανικής μάθησης βρίσκουν όλο και περισσότερο τον δρόμο τους στον χώρο των τεχνών, με την έννοια της παραγωγικής μοντελοποίησης (generative modeling). Στην παρούσα διπλωματική εργασία, διερευνούμε πώς τα βαθιά νευρωνικά δίκτυα μπορούν να χρησιμοποιηθούν για την αυτόματη δημιουργία μουσικών ακολουθιών. Ο στόχος αυτής της εργασίας είναι η κατασκευή μοντέλων που μπορούν να μάθουν τα βασικά μοτίβα ενός συνόλου δεδομένων εισόδου (που αντιστοιχεί σε κάποιο είδος μουσικής) και να προσπαθήσουν να αναπαραγάγουν αυτά τα μοτίβα ενσωματωμένα σε νέα, πρωτότυπα δείγματα, με την υπόθεση ότι η μοντελοποίηση και η δειγματοληψία μπορεί να είναι πιο αποτελεσματική σε αναπαραστάσεις δισδιάστατων εικόνων. Για το σκοπό αυτό, χρησιμοποιούμε γνωστά μοντέλα μηχανικής μάθησης, συγκεκριμένα Variational Autoencoders (VAE) και Generative Adversarial Networks (GAN), και προτείνουμε τις δικές μας βαθιές αρχιτεκτονικές δικτύων που διατηρούν απλότητα και χαμηλές απαιτήσεις υπολογιστικής ισχύος και χρόνου. Τα μοντέλα που υλοποιήθηκαν εκπαιδεύονται χρησιμοποιώντας σύνολα δεδομένων αρχείων MIDI, που περιέχουν μελωδίες από διαφορετικά είδη μουσικής, τα οποία αρχικά μετατρέπονται σε δισδιάστατες εικόνες κατά την προεπεξεργασία. Μετά την εκπαίδευση σε επίπεδο εικόνας, τα εκπαιδευμένα μοντέλα παράγουν νέες εικόνες παρόμοιου είδους, οι οποίες αποκωδικοποιούνται σε μελωδίες MIDI, ακολουθώντας μια αντίστροφη διαδικασία, και συνεπώς σε μουσική. Τα αρχεία MIDI είναι ιδανικά για τους σκοπούς μας λόγω της διακριτής φύσης τους, η οποία διευκολύνει τη μετατροπή σε εικόνες εμπρός και πίσω. Κατά τη διάρκεια αυτής της εργασίας, εστιάσαμε σε ζητήματα επεξεργασίας δεδομένων, δηλαδή στον τρόπο διαμόρφωσης και στοίχισης δεδομένων, ώστε να βοηθά τα μοντέλα παραγωγής να μαθαίνουν ευκολότερα και γρηγορότερα. Προσφέρουμε επίσης μια σύγκριση των διαφορετικών μοντέλων και εξάγουμε συμπεράσματα σχετικά με την αποτελεσματικότητά τους. Οι μουσικές μελωδίες που παράγονται φαίνεται να προσομοιάζουν σε βασικά χαρακτηριστικά των αρχικών μελωδιών, αλλά μόνο σε λίγες περιπτώσεις το αποτέλεσμα ήταν πραγματικά ενδιαφέρον, όσον αφορά τη θεωρία της μουσικής. Η προτεινόμενη προσέγγιση θα μπορούσε ενδεχομένως να βοηθήσει τους μουσικούς να βελτιώσουν και να εξερευνήσουν πρωτότυπες μελωδίες με βάση τα προτιμώμενα είδη μουσικής. Επιπλέον, η εργασία μας μπορεί να χρησιμοποιηθεί ως πρότυπο για άλλα προβλήματα μηχανικής μάθησης, που δεν σχετίζονται απαραίτητα με τη μουσική, τα οποία μπορεί να διευκολυνθούν, εάν διερευνηθούν μέσω αναπαραστάσεων εικόνων, όπως προτείναμε. Αν και τα αποτελέσματά μας δεν παράγουν ακόμα μουσική καταναλωτικής ποιότητας, η δουλειά μας αντιπροσωπεύει ένα πρώτο βήμα προς την κατεύθυνση της αυτοματοποιημένης παραγωγής μουσικής και της υπολογιστικής δημιουργικότητας γενικότερα.

Abstract
Machine Learning has been used in many applications in recent years and has produced impressive results. Interestingly, beyond well-known problems of academic, research or commercial interest, machine learning techniques are finding more and more their way into the area of arts, in the sense of generative modeling. In this thesis, we explore how deep neural networks can be used to automatically generate musical sequences. The goal of this work is to construct models that are able to learn the basic patterns of an input dataset (corresponding to a specific music genre) and try to replicate these patterns embedded into new, original samples, under the assumption that modeling and sampling may be more effective in two-dimensional image representations. To this end, we utilize well-known machine learning generative models, namely Variational Autoencoders (VAEs) and Generative Adversarial Networks (GANs), and propose our own deep network architectures maintaining simplicity and low computational power and time requirements. The implemented models are trained using datasets of MIDI files, containing tunes from different music genres, which are first converted to two-dimensional images during preprocessing. After training at image level, the trained models generate new images of a similar kind, which are decoded back to MIDI tunes, following a reverse procedure, and thus to music. MIDI files are ideal for our purposes due to their discrete nature, which facilitates the conversion to images back and forth. In the course of this work, we focused on data engineering issues, namely how to shape and form data in a way that helps our generative models learn easier and faster. We also offer a comparison of the different models and infer results on their effectiveness. The produced music tunes seem to resemble basic features of the original ones, but only in a few cases the outcome was truly interesting in terms of music theory. The proposed approach could potentially help musicians improve and explore original tunes based on preferred genres or types of music. Furthermore, our work can be used as a model for other learning tasks, not necessarily related to music, which may be facilitated, if explored through image representations, as we proposed. While our results do not generate consumer-grade music yet, our work represents a first step in the direction of automated music generation and computational creativity in general.

 

Meeting ID: 95952041673
Password
: 772983

Προσθήκη στο ημερολόγιό μου
© Πολυτεχνείο Κρήτης 2012