Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας κας Μαρίας Βλαχάκου - Σχολή ΗΜΜΥ
Αναγνώσεις: 151 / Συνδρομές: 0

  • Συντάχθηκε 24-02-2026 10:44 Πληροφορίες σύνταξης

    Ενημερώθηκε: 24-02-2026 11:35

    Τόπος:
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 24/02/2026 15:00
    Λήξη: 24/02/2026 16:00

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Μαρίας Βλαχάκου

    με θέμα
    Τμηματοποίηση Κάλυψης Εδάφους Εικόνων Υψηλής Ανάλυσης με χρήση Βαθιάς Μάθησης
    Land Cover Segmentation of High-Resolution Images using Deep Learning

    Εξεταστική Επιτροπή
    Καθηγητής Μιχαήλ Ζερβάκης (επιβλέπων)
    Καθηγητής Ευριπίδης Πετράκης
    Καθηγητής Ανδρέας Σαβάκης (Σχολή ΗΜΜΥ, RIT)

    Περίληψη
    Οι τηλεπισκοπικές εικόνες υψηλής χωρικής ανάλυσης χρησιμοποιούνται ευρέως για τη χαρτογράφηση κάλυψης γης και βρίσκουν εφαρμογή σε τομείς όπως ο πολεοδομικός σχεδιασμός, η περιβαλλοντική παρακολούθηση, η γεωργία και η διαχείριση φυσικών καταστροφών. Τα τελευταία χρόνια, η διαθεσιμότητα αεροφωτογραφιών και δορυφορικών εικόνων πολύ υψηλής ανάλυσης έχει αυξηθεί σημαντικά. Παρά την τεχνολογική πρόοδο, η ακριβής ταξινόμηση κάλυψης γης παραμένει απαιτητική, λόγω της μεγάλης χωρικής ετερογένειας, της φασματικής ομοιότητας μεταξύ διαφορετικών κατηγοριών, της έντονης ανισορροπίας κλάσεων και των πολύπλοκων ορίων αντικειμένων, ιδιαίτερα σε αστικές και μικτές περιοχές. Τα παραδοσιακά pixel-based και object-based μοντέλα συχνά δυσκολεύονται να ανταποκριθούν σε αυτές τις προκλήσεις.
    Η παρούσα εργασία διερευνά τη χρήση μεθόδων βαθιάς μάθησης για την ταξινόμηση κάλυψης γης σε αεροφωτογραφίες υψηλής ανάλυσης, με έμφαση στη σημασιολογική τμηματοποίηση (semantic segmentation) μέσω αρχιτεκτονικής encoder–decoder. Το προτεινόμενο μοντέλο συνδυάζει ένα βαθύ residual δίκτυο ως encoder με έναν decoder τύπου U-Net, επιτρέποντας την ταυτόχρονη αξιοποίηση σημασιολογικής πληροφορίας πολλαπλών κλιμάκων και τη διατήρηση λεπτομερειών στο χώρο. 
    Τα πειράματα πραγματοποιήθηκαν στο σύνολο δεδομένων LandCover.ai, το οποίο περιλαμβάνει αεροφωτογραφίες RGB υψηλής ανάλυσης. Αν και το αρχικό σύνολο δεδομένων περιλαμβάνει πέντε κατηγορίες (background, building, woodland, water και roads), στην παρούσα εργασία χρησιμοποιήθηκε μια αναδιαμορφωμένη εκδοχή τριών κατηγοριών. Συγκεκριμένα, οι κατηγορίες building και roads συγχωνεύθηκαν με την κατηγορία background, προκειμένου να αντιμετωπιστεί η έντονη ανισορροπία κλάσεων και η χαμηλή απόδοση που παρατηρήθηκε σε κατηγορίες με μικρή χωρική εκπροσώπηση και υψηλή δομική πολυπλοκότητα.
    Για τη βελτίωση της εκπαίδευσης χρησιμοποιήθηκε συνδυαστική συνάρτηση απώλειας (Focal loss και Dice loss), καθώς και τεχνικές εμπλουτισμού δεδομένων και στρατηγική One-Cycle Learning Rate. Τα αποτελέσματα δείχνουν σταθερή και συνεπή απόδοση τόσο στο σύνολο επικύρωσης (validation set) όσο και στο σύνολο δοκιμής (test set), με μέση τιμή Intersection over Union (IoU) περίπου 87% στη διαμόρφωση τριών κατηγοριών. Υψηλή ακρίβεια παρατηρείται για τις κατηγορίες background, woodland και water.
    Συνολικά, τα ευρήματα επιβεβαιώνουν ότι οι αρχιτεκτονικές encoder–decoder αποτελούν μια αξιόπιστη λύση για την ταξινόμηση κάλυψης γης σε εικόνες υψηλής ανάλυσης, ενώ παράλληλα αναδεικνύουν τη σημασία της ισορροπίας κλάσεων και της σωστής διαμόρφωσης του προβλήματος στη συνολική απόδοση του μοντέλου.

    Abstract 
    High-resolution remote sensing imagery is widely used for land cover mapping and has found application in several fields, such as urban planning, environmental monitoring, agriculture, and disaster management. Over the last years, the availability of very-high-resolution aerial and satellite images has increased considerably. Nevertheless, accurate land cover classification remains a difficult problem. This is mainly due to the high spatial variability of the scene, similarities in spectral characteristics between different land cover types, strong class imbalance, and the presence of complex object boundaries. These issues are particularly met in urban and heterogeneous areas. For these reasons, traditional pixel-based and object-based classification methods often fail to provide satisfactory results.
    This thesis investigates the use of deep learning methods for land cover classification in high-resolution aerial imagery, with a specific focus on semantic segmentation approaches based on encoder–decoder architectures. The adopted model consists of a deep residual network used as an encoder and a decoder inspired by the U-Net architecture. This design allows the extraction of semantic information at different spatial scales, while still preserving local spatial details that are important for accurate segmentation. The experiments are conducted on the LandCover.ai dataset, which is a publicly available dataset of high-resolution RGB aerial images. The dataset includes five land cover classes, namely background, building, woodland, water and roads, but a reduced three-class configuration is adopted in this study. Specifically, the building and road categories are merged with the background class to mitigate severe class imbalance, relatively small spatial extent, structural complexity, and their uneven distribution in the dataset. In order to improve the segmentation of object boundaries, a combined loss function based on Focal loss and Dice loss is employed. Additionally, data augmentation techniques and a one-cycle learning rate scheduling strategy are applied during training.
    The results obtained from the experiments show that the proposed approach performs consistently on both the validation and test datasets. The achieved mean Intersection over Union (IoU) is approximately 87% under the reduced three-class configuration. High segmentation accuracy is observed for background, woodland and water classes. Both quantitative results and visual inspection of the segmentation outputs indicate that the encoder–decoder architecture is able to capture global contextual information as well as local spatial characteristics. Overall, the findings confirm that deep encoder–decoder models provide a reliable solution for high-resolution land cover classification, while also indicating the importance of class distribution considerations in semantic segmentation performance evaluation. At the same time, the results highlight the need for further investigation on issues related to scalability, transferability, and domain adaptation in practical remote sensing applications.
     
    Meeting ID: 999 2049 3813
    Password: 506928

     


© Πολυτεχνείο Κρήτης 2012