Ανάκτηση πληροφορίας

Παπαδόπουλος Απόστολος

Περιγραφή

Το μάθημα της Ανάκτησης Πληροφορίας διδάσκεται στο 8ο εξάμηνο σπουδών του Προπτυχιακού Προγράμματος Σπουδών του Τμήματος Πληροφορικής. Σκοπός του μαθήματος είναι η μελέτη τρόπων οργάνωσης και μοντελοποίησης εγγράφων κειμένου και υπερκειμένου, με στόχο την αποτελεσματική και αποδοτική επεξεργασία. Επίσης, θα συζητηθούν θέματα που αφορούν σε πιο πολύπλοκους τύπους δεδομένων (π.χ. χωρικά δεδομένα, εικόνα, ήχος). Ωστόσο, το μεγαλύτερο μέρος της διδασκαλίας εστιάζει σε έγγραφα κειμένου. Το μάθημα έχει υποχρεωτική εργασία η οποία λαμβάνει το 60% του τελικού βαθμού. Για την εκπόνηση της εργασίας θα απαιτηθεί γνώση της γλώσσας C++ ή Java.

 

CC - Αναφορά - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα
Διδάσκοντες

Διδάσκων: Απόστολος Παπαδόπουλος, επίκουρος καθηγητής

http://delab.csd.auth.gr/~apostol/

 

Συνεργάτης ανάπτυξης περιεχομένου: Απόστολος Μαυρίδης

Μαθησιακοί στόχοι

Με την επιτυχή ολοκλήρωση του μαθήματος οι φοιτητές θα έχουν μία πλήρη εικόνα των μεθόδων ανάκτησης πληροφορίας που χρησιμοποιούνται στον Παγκόσμιο Ιστό. Επίσης, η εκπόνηση των εργασιών θα τους δώσει αρκετές γνώσεις και εφόδια για το αντικείμενο.

Μέθοδοι διδασκαλίας

Πρόσωπο με πρόσωπο

Μέθοδοι αξιολόγησης

Η αξιολόγηση των φοιτητών στο μάθημα βασίζεται στη γραπτή εξέταση, στην εκπόνηση βιβλιογραφικής εργασίας και στην εκπόνηση της αναπτυξιακής εργασίας. Στην ιστοσελίδα του μαθήματος οι πληροφορίες αυτές είναι διαθέσιμες.

  • Γραπτή Εξέταση με Ερωτήσεις Σύντομης Απάντησης
  • Γραπτή Εργασία
  • Προφορική Εξέταση
  • Έκθεση / Αναφορά
  • Εργαστηριακή Εργασία
Ομάδα στόχος

Οι φοιτητές του Τμήματος Πληροφορικής ενδιαφερόμενοι για την θεματική περιοχή της Ανάκτησης της Πληροφορίας

Βιβλιογραφία

Manning, C.D. and Raghavan, P. and Schutze, H., Εισαγωγή στην Ανάκτηση Πληροφοριών, Κλειδάριθμος (μεταφρασμένο στα ελληνικά)

 

Επιπλέον συνιστώμενη βιβλιογραφία

  • Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, ACM Press, 2011.
  • Witten, I.H and Moffat, A. and Bell, T.C., Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999.
  • Korfhage, R., Information Storage and Retrieval, John Wiley & Sons, 1997.
  • Frakes, W.B. and Baeza-Yates (eds), Information Retrieval: Data Structures and Algorithms, Prentice Hall, Englewood Cliffs, NJ, 1992.

 

Ενότητες

Αντικείμενο της  Ανάκτησης της Πληροφορίας, Ανάξτηση Πληροφορίας και Βάσεις Δεδομένων, Συστήματα ανάπτυξης Πληροφορίας και Συστήματα Διαχείρισης Βάσεων Δεδομένων, Αναζήτηση Εγγραφών, Ταξινόμηση και Βαθμολόγηση, Χρήση Καταλόγων, Αναπαράσταση Εγγράφων, Δομή ενός Συστήματος Ανάκτησης Πληροφορίας, Περιστασιακή Αναζήτηση, Φιλτράρισμα ή Δρομολόγηση, Ιστορική Αναδρομή, Σύγχρονες Τάσεις.

 

Λέξεις κλειδιά:Ανάκτηση Πληροφορίας και Βάσεις Δεδομένων, Συστήματα ανάπτυξης Πληροφορίας και Συστήματα Διαχείρισης Βάσεων Δεδομένων, Αναζήτηση Εγγραφών, Ταξινόμηση και Βαθμολόγηση, Χρήση Καταλόγων, Αναπαράσταση Εγγράφων, Δομή ενός Συστήματος Ανάκτησης Πληροφορίας, Περιστασιακή Αναζήτηση, Φιλτράρισμα ή Δρομολόγηση.

Μέτρα Απόδοσης, Ανάκληση και Ακρίβεια, Σχετικότητα Εγγράφων, Precision/ Recall Καμπύλη, Μέση Ακρίβεια, Επίπεδα Ανάκλησης, Παρεμβολή, Κατώφλια, Μονότιμες Συνόψεις, Αρμονικός Μέσος, E-Measure, Μέτρα Προσανατολισμένα στο Χρήστη, Συλλογές Αναφοράς.

 

Λέξεις κλειδιά: Μέτρα Απόδοσης, Ανάκληση και Ακρίβεια, Σχετικότητα Εγγράφων, Precision/ Recall Καμπύλη, Μέση Ακρίβεια, Επίπεδα Ανάκλησης, Παρεμβολή, Κατώφλι, Μονότιμες Συνόψεις, Αρμονικός Μέσος, E-Measure, Μέτρα Προσανατολισμένα στο Χρήστη, Συλλογές Αναφοράς

Μοντέλα IR, Χαρακτηριστικά Μοντέλων IR, Λέξεις Κλειδιά (Keywords), Κλασικά Μοντέλα IR, Boolean Μοντέλο, Μειονεκτήματα Boolean Μοντέλου

 

Λέξεις κλειδιά:Μοντέλα IR, Χαρακτηριστικά Μοντέλων IR, Λέξεις Κλειδιά (Keywords), Κλασικά Μοντέλα IR, Boolean Μοντέλο, Μειονεκτήματα Boolean Μοντέλου

Boolean Μοντέλο, Μειονεκτήματα Boolean Μοντέλου, Μέθοδοι Υπολογισμού Ομοιότητας, Χρήση Καταλόγων, Διανυσματικό Μοντέλο: δυαδικά βάρη, Ομοιότητα Εγγράφων, Ομοιότητα Ερωτήματος-Εγγράφου, Χρήση του Διανυσματικού Μοντέλου, Γενίκευση: μη δυαδικά βάρη, Διανυσματικό Μοντέλο: μη δυαδικά βάρη, Προσδιορισμός Βαρών

 

Λέξεις κλειδιά:Boolean Μοντέλο - Μειονεκτήματα Boolean Μοντέλου, Μέθοδοι Υπολογισμού Ομοιότητας, Χρήση Καταλόγων, Διανυσματικό Μοντέλο: δυαδικά βάρη, Ομοιότητα Εγγράφων, Ομοιότητα Ερωτήματος-Εγγράφου, Χρήση του Διανυσματικού Μοντέλου, Γενίκευση: μη δυαδικά βάρη, Διανυσματικό Μοντέλο: μη δυαδικά βάρη, Προσδιορισμός Βαρών

Κλασικά Μοντέλα Ανάκτησης, Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη, Θεώρημα του Bayes, Αρχή Πιθανοκρατικής Βαθμολόγησης, Συνάρτηση Ομοιότητας, Σχέση με το Διανυσματικό Μοντέλο, Αρχική Εκτίμηση των P(xi | R), Προσαρμογή Τιμών των P(xi | R), Πλεονεκτήματα-Μειονεκτήματα

 

Λέξεις κλειδιά: Κλασικά Μοντέλα Ανάκτησης, Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη, Θεώρημα του Bayes, Αρχή Πιθανοκρατικής Βαθμολόγησης, Συνάρτηση Ομοιότητας, Σχέση με το Διανυσματικό Μοντέλο, Αρχική Εκτίμηση των P(xi | R), Προσαρμογή Τιμών των P(xi | R)

Χρησιμότητα καταλόγων, Συλλογή Εγγραφών, Δομή του Αντεστραμμένου Καταλόγου, Επεξεργασία ερωτημάτων, Εύρεση Top-k με Κατάλογο, Κατασκευή καταλόγου, Συντήρηση (μετά από εισαγωγή, εγγράφων), Συμπίεση

 

Λέξεις κλειδιά: Χρησιμότητα καταλόγων, Συλλογή Εγγραφών, Δομή του Αντεστραμμένου Καταλόγου, Επεξεργασία ερωτημάτων, Εύρεση Top-k με Κατάλογο, Κατασκευή καταλόγου, Συντήρηση (μετά από εισαγωγή, εγγράφων), Συμπίεση

Βασικές μέθοδοι εξαγωγής υπογραφών, WS (word signatures), SC (superimposed coding), Εξαγωγή υπογραφών με συμπίεση, BC (bit-block compression), RL (run-length encoding), VBC (variable bit-block compression), Οργάνωση αρχείου υπογραφών, SSF (sequential signature file), BSSF (bit-sliced signature file), CBS (compressed bit slices), DCBS (doubly compressed bit slices), NFD (no false drops), μέθοδοι οριζόντιου διαμερισμού

 

Λέξεις κλειδιά: Βασικές μέθοδοι εξαγωγής υπογραφών, WS (word signatures), SC (superimposed coding), Εξαγωγή υπογραφών με συμπίεση, BC (bit-block compression), RL (run-length encoding), VBC (variable bit-block compression), Οργάνωση αρχείου υπογραφών, SSF (sequential signature file), BSSF (bit-sliced signature file), CBS (compressed bit slices), DCBS (doubly compressed bit slices), NFD (no false drops), μέθοδοι οριζόντιου διαμερισμού

Η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια, Η τεχνική LSI (Latent Semantic Indexing), το μαθηματικό εργαλείο SVD (Singular Value Decomposition)

 

Λέξεις κλειδιά: Τεχνική LSI (Latent Semantic Indexing), το μαθηματικό εργαλείο SVD (Singular Value Decomposition)

Κίνητρο, τύποι ανάδρασης, τεχνικές ανάδρασης, διανυσματικό μοντέλο, διανυσματικό μοντέλο, επεκτάσεις, μερικά αποτελέσματα

 

Λέξεις κλειδιά: Κίνητρο, ανάδραση στο διανυσματικό μοντέλο, ανάδραση στο πιθανοκρατικό, εξάρτηση όρων, δυναμική αναζήτηση, αρνητική ανάδραση

Παράλληλα Συστήματα, παραλληλισμός επεξεργαστών, SISD, SIMD, MISD, MIMD, Παραλληλισμός Ι/Ο, Raid Levels, διαμοιρασμός δεδομένων, Round-Robin, Διαμοιρασμός Δομών/B-δένδρου/Εγγραφών, Υπερ-σελίδες, Multi-Disk B-trees, Παράλληλες Βάσεις Δεδομένων, Μέτρα Επίδοσης (Speedup, Scaleup, Sizeup), Παράλληλοι Αλγόριθμοι, Παράλληλη Ταξινόμηση, Parallel Merge-Sort, Partitioned-Based Sorting, Splitting Vector, Διαμοιρασμός όρων, Λογικός διαμοιρασμός, Φυσικός Διαμοιρασμός, Συγχώνευση Πινάκων

 

Λέξεις κλειδιά: Παράλληλα Συστήματα, παραλληλισμός επεξεργαστών, SISD, SIMD, MISD, MIMD, Παραλληλισμός Ι/Ο, Raid Levels, διαμοιρασμός δεδομένων, Round-Robin, Διαμοιρασμός Δομών/B-δένδρου/Εγγραφών, Υπερ-σελίδες, Multi-Disk B-trees, Παράλληλες Βάσεις Δεδομένων, Μέτρα Επίδοσης (Speedup, Scaleup, Sizeup), Παράλληλοι Αλγόριθμοι, Παράλληλη Ταξινόμηση, Parallel Merge-Sort, Partitioned-Based Sorting, Splitting Vector, Διαμοιρασμός όρων, Λογικός διαμοιρασμός, Φυσικός Διαμοιρασμός, Συγχώνευση Πινάκων

Παγκόσμιος Ιστός, Προκλήσεις, Μηχανές αναζήτησης, Τεχνικές βαθμολόγησης σελίδων, HITS και PageRank, Τάσεις

 

Λέξεις κλειδιά: Παγκόσμιος Ιστός, Προκλήσεις, Μηχανές αναζήτησης, Τεχνικές βαθμολόγησης σελίδων, HITS και PageRank, Τάσεις

Ανοικτό Ακαδ. Μάθημα

Ανοικτά Ακαδημαϊκά Μαθήματα
Επίπεδο: A-

Αρ. Επισκέψεων :  3146
Αρ. Προβολών :  24263