Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

SINGLE ARTICLE VIEW

Παρουσίαση διατριβής – Κουλιέρης Γεώργιος Αλέξανδρος

Θέμα διδακτορικής διατριβής: Context-aware Gaze Prediction applied to Game Level Design, Level-of-Detail and Stereo Manipulation.

 

Παρουσίαση: 9 Σεπτεμβρίου 2015, 12:00πμ, Κεντρικό Αμφιθέατρο Κτιρίου Επιστημών, Πολυτεχνείο Κρήτης.

 

Εξεταστική Επιτροπή:

Αναπληρώτρια Καθηγήτρια Αικατερίνη Μανιά, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης (Επιβλέπουσα).

Καθηγητής Σταύρος Χριστοδουλάκης, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης.

Καθηγητής Douglas Cunningham, Technical University Cottbus, Γερμανία.

Καθηγητής Κωνσταντίνος Μπάλλας, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης.

Καθηγητής Μιχαήλ Ζερβάκης, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης.

Αναπλ. Καθηγητής Μιχαήλ Λαγουδάκης, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης.

Αναπλ. Καθηγήτρια Ann McNamara, Texas A&M, Ηνωμένες Πολιτείες Αμερικής.

 

 

Περίληψη

Η πρόβλεψη της οπτικής προσοχής ενός χρήστη μπορεί να βελτιώσει σημαντικά πολλές πτυχές των γραφικών για ηλεκτρονικούς υπολογιστές και βιντεοπαιχνίδια. Για παράδειγμα, η σύνθεση ψηφιακής εικόνας μπορεί να επιταχυνθεί με τη μείωση των πολύπλοκων υπολογισμών για τις περιοχές που δεν θα δει ο χρήστης και οι αλγόριθμοι Level-of-Detail (LOD) μπορούν να επιταχυνθούν. Τα τρέχοντα μοντέλα πρόβλεψης βλέμματος συχνά αποτυγχάνουν να προβλέψουν με ακρίβεια τα βλέμματα των χρηστών κάτι που οφείλεται κυρίως στο γεγονός ότι περιλαμβάνουν περιορισμένη ή ακόμη και καμία πληροφορία σχετικά με το γενικότερο πλαίσιο μιας σκηνής και συνήθως βασίζονται σε χαμηλού επιπέδου οπτικά χαρακτηριστικά της εικόνας, όπως φωτεινότητα, αντίθεση και κίνηση ή προκαθορισμένους περιορισμούς σχετικά με την εκτελούμενη εργασία (task) για να προβλέψουν το βλέμμα του χρήστη. Αυτά τα χαρακτηριστικά δεν προβλέπουν την προσοχή αξιόπιστα, ιδιαίτερα όταν κάποιος αλληλεπιδρά με μια διαδραστική συνθετική σκηνή, π.χ. σε ένα video game. Σε τέτοιες περιπτώσεις, ο χρήστης έχει τον έλεγχο της κάμερας και συχνά συνειδητά αγνοεί χαμηλού επιπέδου χαρακτηριστικά εικόνας για να περιηγηθεί στη σκηνή ή να εκτελέσει μια εργασία. Αυτή η διατριβή παρουσιάζει δύο νέα μοντέλα πρόβλεψης προσοχής που λαμβάνουν υπόψιν το γενικότερο πλαίσιο μιας σκηνής (context) για την πρόβλεψη της προσοχής. Τα μοντέλα παρέχουν πιο ακριβείς προβλέψεις σε σχέση με τα state-of-the-art μοντέλα προσοχής που βασίζονται σε χαμηλού επιπέδου χαρακτηριστικά. Και τα δύο μοντέλα που παρουσιάζονται λαμβάνουν υπόψιν κρίσιμα χαρακτηριστικά υψηλού επιπέδου (high level saliency factors) και γενικότερου πλαισίου σκηνής, όπως τοπολογία αντικειμένων και το πως αυτά σχετίζονται με εκτελούμενες εργασίες σε διαδραστικά περιβάλλοντα. Η ανάπτυξη των μοντέλων ήταν μία πρόκληση, δεδομένου ότι ποιοτικά χαρακτηριστικά μιας σκηνής, όπως η τοπολογία αντικειμένων και οι σχέσεις των αντικειμένων με εκτελούμενες εργασίες έπρεπε να ποσοτικοποιηθούν με μαθηματικό τρόπο ώστε να υπολογιστούν πιθανότητες παρατήρησης για κάθε αντικείμενο με βάση υποκειμενικά χαρακτηριστικά. Έχουμε ενσωματώσει αυτά τα προγνωστικά μοντέλα ως μέρος ενός εργαλείου σχεδίασης επιπέδων για βιντεοπαιχνίδια για την έμμεση προσαρμογή της δυσκολίας ενός παιχνιδιού (game balancing) βασισμένοι στην πρόβλεψη βλέμματος. Έπειτα ως μέρος ενός LOD διαχειριστή απόδοσης για οπτικά εφέ συνθετικής εικόνας σε κινητές συσκευές με βάση την προβλεπόμενη προσοχής και ως μέρος ενός συστήματος διαχείρισης στερεοσκοπικών παραμέτρων (stereo grading) με βάση το βλέμμα.

Το πρώτο μοντέλο είναι ένα αυτοματοποιημένο μοντέλο πρόβλεψης βασισμένο σε υψηλού επιπέδου χαρακτηριστικά εικόνας που ενσωματώνει έξι υποθέσεις από την γνωστική επιστήμη σε σχέση με τις σχέσεις αντικειμένων-γενικότερο πλαίσιο το οποίο μπορεί να προσαρμοστεί σε διάφορες εκτελούμενες εργασίες. Επεκτείναμε το Μοντέλο Διαφορικής Στάθμισης (Differential Weighting Model - DWM) του Eckstein ενσωματώνοντας αυτές τις έξι υποθέσεις. Στη συνέχεια προβήκαμε σε πειράματα παρακολούθησης ακολουθίας ματιού (eye tracking) τα οποία επιβεβαίωσαν ότι τα χαρακτηριστικά αυτά καθοδηγούν την προσοχή σε συγκεκριμένα αντικείμενα σε μια σκηνή/παιχνίδι και έπειτα υπολογίσαμε τις κατάλληλες παραμέτρους για να αρχικοποιήσουμε το μοντέλο αυτό. Έπειτα παρουσιάζουμε ένα σύστημα βασισμένο σε GPU το οποίο εκτιμά σε πραγματικό χρόνο την πιθανότητα ενός αντικειμένου να τραβήξει την προσοχή. Ενσωματώσαμε αυτό το εργαλείο σε ένα επεξεργαστή επιπέδων βιντεοπαιχνιδιών ώστε να ρυθμίζεται αυτόματα το επίπεδο δυσκολίας του παιχνιδιού με βάση τη σημαντικότητα αντικειμένων, προσφέροντας ένα νέο τρόπο για να διευκολύνουμε το σχεδιασμό βιντεοπαιχνιδιών. Στη συνέχεια αναπτύσσουμε έναν διαχειριστή LOD που υποβαθμίζει την ποιότητα των γραφικών στις περιοχές που αναμένεται να περάσουν απαρατήρητες από έναν χρήστη για την εξοικονόμηση υπολογιστικών πόρων. Το σύστημά μας (C-LOD) διατηρεί ένα σταθερό ρυθμό καρέ σε κινητές συσκευές ρυθμίζοντας δυναμικά την ποιότητα των οπτικών εφέ για αντικείμενα που δεν θα τραβήξουν την προσοχή. Εκτελέσαμε ένα πείραμα επιβεβαίωσης όπου διαπιστώνουμε πως με την ενσωμάτωση του C-LOD, περίπλοκα εφέ όπως το parallax occlusion mapping που συνήθως παραλείπονται σε κινητές συσκευές μπορούν τώρα να χρησιμοποιηθούν, χωρίς να επιβαρύνεται η απόδοση της GPU και, ταυτόχρονα, εξοικονομώντας την ενέργεια της μπαταρίας.

Στη συνέχεια αναπτύσσουμε το δεύτερο μοντέλο μας, αντιμετωπίζοντας την πρόκληση της ανάπτυξης ενός προγνωστικού μοντέλου ακολουθίας βλέμματος πραγματικού χρόνου εξειδικευμένο σε βιντεοπαιχνίδια. Η βασική μας παρατήρηση ήταν ότι οι ενέργειες των παικτών σε ένα παιχνίδι έχουν υψηλό βαθμό συσχέτισης με την παρούσα κατάσταση του παιχνιδιού, όπως αυτή κωδικοποιείται από τις μεταβλητές στον κώδικα του παιχνιδιού. Με βάση αυτό, εκπαιδεύσαμε έναν ταξινομητή (classifier training) να μάθει αυτές τις συσχετίσεις χρησιμοποιώντας ακολουθία βλέμματος χρήστη που παρείχε τα βασικά δεδομένα ως προς το που κοιτάει ένας χρήστης καθώς παίζει ένα συγκεκριμένο παιχνίδι. Έπειτα ο εκπαιδευμένος ταξινομητής χρησιμοποιείται κατά την εκτέλεση του παιχνιδιού ώστε να προβλέψει την κατηγορία του παρατηρούμενου αντικειμένου -  και ως εκ τούτου το βλέμμα - με βάση την τρέχουσα κατάσταση των μεταβλητών του παιχνιδιού. Αξιολογήσαμε την ποιότητα του μοντέλου πρόβλεψης βλέμματος αριθμητικά και πειραματικά, αποδεικνύοντας ότι προβλέπει το βλέμμα με μεγαλύτερη ακρίβεια από ό,τι οι προηγούμενες προσεγγίσεις που βασίζονται σε χαμηλού επιπέδου χαρακτηριστικά εικόνας. Δεδομένου ότι τα άνετα, υψηλής ποιότητας 3D στερεοσκοπικά γραφικά σε εφαρμογές πραγματικού χρόνου είναι μια μοντέρνα απαίτηση χρησιμοποιούμε αυτήν την πρόβλεψη για να προτείνουμε μια δυναμική μέθοδο τοπικού (local) χειρισμού ανισοτήτων (disparity mapping) 3D η οποία παρέχει πλούσιo και άνετo βάθος σε αντίθεση με τις προηγούμενες μεθόδους γενικής (global) διαχείρισης ανισοτήτων που υποφέρουν από ακραία συμπιεσμένα βάθη (cardboarding).

 

Abstract

The prediction of visual attention can significantly improve many aspects of computer graphics and games. For example, image synthesis can be accelerated by reducing complex computations on non-attended scene regions and Level-of-Detail rendering improved. Current gaze prediction models often fail to accurately predict user fixations mostly due to the fact that they include limited or even no information about the context of the scene; they commonly rely on low level image features such as luminance, contrast and motion or pre-determined task restrictions on attention to predict user gaze. These features do not drive user attention reliably when interacting with an interactive synthetic scene, e.g in a video game. In such cases the user is in control of the view-port often consciously ignoring low level salient features in order to navigate the scene or perform a task. This dissertation contributes two novel predictive scene context-based models of attention that yield more accurate attention predictions than those derived from state-of-the-art low level image saliency methods. Both models presented take into account critical high level scene context features such as object topology and task-related object function that influence fixation guidance when gazing at interactive content. Developing the models was a challenging problem, since qualitative features such as object topology, inter-object relationships and tasks had to be quantified and formally considered in order to generate probabilities of object attendance based on subjective features. We incorporate these predictors as part of a game level designing system, adjusting game difficulty based on gaze prediction, subsequently as part of a Level-of-Detail manager rendering complex visual effects on mobile platforms based on predicted saliency and, finally, as part of a gaze-aware stereo 3D disparity manipulation method. 
The first model is an automated high level saliency predictor that incorporates six hypotheses from perception and cognitive science relative to object-context relationships which can be adapted to different tasks. We extended Eckstein's Differential Weighting Model by incorporating these six hypotheses. We then conducted a formal eye-tracking experiment which confirmed that object saliency guides attention to specific objects in a game scene and determined appropriate parameters for this model. We present a GPU based system architecture that estimates the probabilities of objects to be attended in real-time. We embedded this tool in a game level editor to automatically adjust game level difficulty based on object saliency, offering a novel way to facilitate game design. We then develop an attention-based Level-of-Detail manager that downgrades the quality of areas that are expected to go unnoticed by an observer to economize on computational resources. Our system (C-LOD) maintains a constant frame rate on mobile devices by dynamically re-adjusting material quality on secondary visual features (e.g. subsurface scattering) of non-attended objects. In a proof of concept study we establish that by incorporating C-LOD, complex effects such as parallax occlusion mapping usually omitted in mobile devices can now be employed, without overloading GPU capability and, at the same time, conserving battery power. 
We then develop our second model, addressing the challenge of developing a gaze predictor in the demanding context of real-time, heavily task-oriented applications such as games. Our key observation is that player actions are highly correlated with the present state of a game, encoded by game variables. Based on this, we train a classifier to learn these correlations using an eye-tracker which provides the ground-truth object being looked at. The classifier is used at runtime to predict object category -- and thus gaze -- during game play, based on the current state of game variables. We evaluate the quality of our gaze predictor numerically and experimentally, showing that it predicts gaze more accurately than previous image-based approaches. Given that comfortable, high-quality 3D stereo viewing is becoming a requirement for interactive applications today, we use this prediction to propose a dynamic local disparity manipulation method, which provides rich and comfortable depth in sharp contrast to previous global disparity methods that suffer from extreme depth compression (cardboarding). 

Παρουσίαση Διατριβής

Μπορείτε να παρακολουθήσετε την παρουσίαση της διατριβής από το παρακάτω βίντεο.

 

 

<iframe width="560" height="315" src="https://www.youtube.com/embed/vNAr-i5b3T0" frameborder="0" allowfullscreen=""></iframe>

 

Αρχεία

Κείμενο  διδακτορικής διατριβής (από σύνδεσμο Βιβλιοθήκης)

Παρουσίαση διδακτορικής διατριβής Μέρος 1(pdf)

Παρουσίαση διδακτορικής διατριβής Μέρος 2(pdf)

Παρουσίαση διδακτορικής διατριβής Μέρος 3(pdf)