Αποθήκες δεδομένων και εξόρυξη δεδομένων

Γούναρης Αναστάσιος

Περιγραφή

Στόχος του μαθήματος είναι η γνωριμία των φοιτητών με βασικά ζητήματα σχετικά με την ανακάλυψη γνώσης μέσα από βάσεις δεδομένων. Αρχικά, παρουσιάζονται έννοιες σχετικές με τις αποθήκες δεδομένων όπως θέματα σχεδίασης και αρχιτεκτονικές υλοποίησης. Στο υπόλοιπο μέρος του μαθήματος, εξετάζονται βασικά και εξειδικευμένα θέματα σχετικά με τις κυριότερες λειτουργίες της εξόρυξης δεδομένων και συγκεκριμένα την κατηγοριοποίηση, την ομαδοποίηση και τους κανόνες συσχέτισης.

 

Κωδικός: OCRS182
Κατηγορία: Πληροφορικής » Προπτυχιακό
CC - Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή
CC - Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή

Θεματικές Ενότητες

Στη συγκεκριμένη ενότητα πραγματοποιείται μια πρώτη γνωριμία με το μάθημα. Δίνεται το κίνητρο της ενασχόλησης με τα περιεχόμενα του μαθήματος και παρέχονται βασικές έννοιες και ορισμοί, ενώ στη συνέχεια γίνεται μια σύντομη περιγραφή των βασικών λειτουργιών που θα αναλυθούν εκτενέστερα στις επόμενες ενότητες του μαθήματος.

 

Λέξεις κλειδιά: Κίνητρο, εξόρυξη δεδομένων, ανακάλυψη γνώσης, περιγραφικές λειτουργίες εξόρυξης δεδομένων, προγνωστικές λειτουργίες εξόρυξης δεδομένων, πηγή δεδομένων.

 

Στη συγκεκριμένη ενότητα πραγματοποιείται μια περιγραφή σχετικά με τη μορφή και τις ιδιότητες των δεδομένων. Επίσης, περιγράφονται πράξεις επεξεργασίας που εκτελούνται πάνω στα δεδομένα όπως περίληψη, καθαρισμός, μετασχηματισμός, και κβαντοποίηση. Στη συνέχεια, περιγράφονται μέθοδοι μείωσης μεγέθους δεδομένων, όπως δειγματοληψία, ιδιοδιανύσματα και επιλογή χαρακτηριστικών. Τέλος, γίνεται αναφορά σε μέτρα απόστασης και ομοιότητας.

 

Λέξεις κλειδιά: Μορφή δεδομένων, ιδιότητες δεδομένων, περίληψη δεδομένων, καθαρισμός δεδομένων, ανώμαλη τιμή, μετασχηματισμός δεδομένων, κβαντοποίηση δεδομένων, δειγματοληψία, μείωση αριθμού διαστάσεων, ομοιότητα δεδομένων, απόσταση δεδομένων.

 

Η συγκεκριμένη ενότητα παρέχει βασικές έννοιες και ορισμούς που αφορούν την περιοχή των Αποθηκών Δεδομένων. Αναλύεται η αρχιτεκτονική των Αποθηκών Δεδομένων και η διαφορά τους με τις Βάσεις Δεδομένων ενώ μελετώνται ακόμα οι κύβοι δεδομένων, οι τύποι σχημάτων και γενικότερα θέματα σχεδίασης.

 

Λέξεις κλειδιά: Αποθήκη δεδομένων, αρχιτεκτονική, ETL, back-end εργαλεία, κύβος δεδομένων, σχήμα αστέρα, σχήμα νιφάδας, αστερισμός γεγονότων, OLAP.

 

Στη δεύτερη ενότητα σχετικά με τις Αποθήκες Δεδομένων αναλύονται αρχιτεκτονικές υλοποίησης συστημάτων OLAP και υλοποίησης κύβων. Επίσης, παρουσιάζονται βασικές έννοιες σχετικά με καταλόγους και ευρετήρια.

 

Λέξεις κλειδιά: Αρχιτεκτονική υλοποίησης συστημάτων OLAP, ROLAP, MOLAP, HOLAP, υλοποίηση κυβοειδών, μερική υλοποίηση κυβοειδών, lattice, δικτυωτό πλαίσιο, επιλογή κυβοειδών, κατάλογος, B+ δέντρο, bitmap, bit-sliced, top N, ερωτήματα παγόβουνου, iceberg, υπολογισμός κύβων.

 

Σε αυτή την ενότητα παρουσιάζεται η λειτουργία της κατηγοριοποίησης. Πιο συγκεκριμένα, παρέχονται βασικές έννοιες και αναλύεται η κατηγοριοποίηση μέσω της μεθόδου των δέντρων αποφάσεων. Τέλος, γίνεται μια αναφορά στο φαινόμενο της υπερβολικής προσαρμογής.

 

Λέξεις κλειδιά: Κατηγοριοποίηση, κριτήρια αξιολόγησης, δέντρο απόφασης, διαχωριστική ιδιότητα, μέτρο ανομοιογένειας, υπερβολική προσαρμογή, κλάδεμα, pruning, αλγόριθμος REP, κλιμακούμενος αλγόριθμος, gini index.

 

Σε αυτή την ενότητα παρουσιάζονται επιπλέον κατηγοριοποιητές, όπως οι Bayesian κατηγοριοποιητές και οι κατηγοριοποιητές πλησιέστερων γειτόνων συνοδευόμενοι από παραδείγματα εφαρμογής τους. Επίσης αναλύονται διαφορετικές μέθοδοι αποτιμήσεις ακρίβειας κατηγοριοποιητών.

 

Λέξεις κλειδιά: Bayesian κατηγοριοποιητής, θεώρημα Bayes, αφελής Bayesian κατηγοριοποιητής, κατηγοριοποιητής πλησιέστερων γειτόνων, αποτίμηση ακρίβειας, hold-out, τυχαία υποδειγματοληψία, δια-εγκυροποίηση, bootstrap.

 

Σε αυτή την ενότητα αναλύεται η λειτουργία της ομαδοποίησης. Παρέχονται βασικές έννοιες και ορισμοί, στοιχεία για τους τύπους ομάδων και παρουσιάζεται ο αλγόριθμος ομαδοποίησης k-means μαζί με ένα παράδειγμα εφαρμογής του. Τέλος, αναφέρονται ζητήματα που προκύπτουν αναφορικά με τις παραμέτρους και παραλλαγές του αλγορίθμου.

 

Λέξεις κλειδιά: Ομαδοποίηση, διαχωριστική ομαδοποίηση, αλγόριθμος τμηματοποίησης, k-means, αρχική επιλογή κέντρου, k-medians.

 

Στη συγκεκριμένη ενότητα αναλύονται δύο από τις τέσσερις βασικές κατηγορίες αλγορίθμων ομαδοποίησης, οι αλγόριθμοι τμηματοποίησης και οι ιεραρχικοί αλγόριθμοι. Στους αλγόριθμους τμηματοποίησης δίνεται έμφαση στη ομαδοποίηση πλησιέστερων γειτόνων ενώ στους ιεραρχικούς αλγορίθμους παρουσιάζεται η συναθροιστική ιεραρχική ομαδοποίηση.

 

Λέξεις κλειδιά: Ιεραρχικοί αλγόριθμοι, ιεραρχική ομαδοποίηση, συναθροιστική ιεραρχική ομαδοποίηση, αλγόριθμος Ward.

 

Η τρίτη ενότητα σχετικά με τη ομαδοποίηση ασχολείται με τις δύο εναπομείνασες βασικές κατηγορίες αλγορίθμων ομαδοποίησης: τους αλγορίθμους βασισμένους στην πυκνότητα και τους αλγορίθμους βασισμένους στη θεωρία γράφων. Τέλος, μελετούνται ζητήματα και αλγόριθμοι σχετικά με την κλιμάκωση στην ομαδοποίηση.

 

Λέξεις κλειδιά: Πυκνότητα, DBScan, θεωρία γράφων, MST, RNG, GG, κλιμάκωση, BIRCH, CF Tree, CHAMELEON.

 

Η τέταρτη και τελευταία ενότητα σχετικά με τη ομαδοποίηση ολοκληρώνει τη μελέτη της λειτουργίας της ομαδοποίησης εξετάζοντας θέματα που αφορούν τον έλεγχο εγκυρότητας και τάσης ομαδοποίησης.  Τέλος, γίνεται μια αναφορά σε κριτήρια και παράγοντες που καθορίζουν την επιλογή ενός συγκεκριμένου αλγορίθμου ομαδοποίησης.

 

Λέξεις κλειδιά: Έλεγχος εγκυρότητας, SSE, SSB, συντελεστής σιλουέτας, οπτικοποίηση, τάση ομαδοποίησης, επιλογή αλγορίθμου.

 

Σε αυτή την ενότητα περιγράφονται οι κανόνες συσχέτισης και η λειτουργία της εξόρυξης κανόνων συσχέτισης από σύνολα δεδομένων. Αρχικά, δίνονται βασικοί ορισμοί και παραδείγματα κανόνων συσχέτισης ενώ στη συνέχεια αναλύεται ο αλγόριθμος δημιουργίας συχνών στοιχειοσυνόλων Apriori.

 

Λέξεις κλειδιά: Κανόνες συσχέτισης, υποστήριξη, εμπιστοσύνη, συχνά στοιχειοσύνολα, Apriori, δημιουργία κανόνων, αντιμονοτονικότητα, κατακερματισμός, τμηματοποίηση, αρνητικό όριο.

 

Σε αυτή την ενότητα συνεχίζεται η ανάλυση των κανόνων συσχέτισης και περιγράφεται ο αλγόριθμος FP-Growth και η κατασκευή του FP-δέντρου στο οποίο βασίζεται ο αλγόριθμος. Στη συνέχεια δίδονται σχετικά παραδείγματα ενώ τέλος διατυπώνονται ορισμένα μειονεκτήματα σχετικά με την υποστήριξη και την εμπιστοσύνη.

 

Λέξεις κλειδιά: Αλγόριθμος FP-Growth, FP-δέντρο, μειονεκτήματα υποστήριξης, μειονεκτήματα εμπιστοσύνης, μέτρο ενδιαφέροντος, παράδοξο Simpson.

Ανοικτό Ακαδ. Μάθημα

Ανοικτά Ακαδημαϊκά Μαθήματα
Επίπεδο: A-

Αρ. Επισκέψεων :  3558
Αρ. Προβολών :  24075

Ημερολόγιο

Ανακοινώσεις

  • - Δεν υπάρχουν ανακοινώσεις -