Αποθήκες δεδομένων και εξόρυξη δεδομένων

Γούναρης Αναστάσιος

Περιγραφή

Στόχος του μαθήματος είναι η γνωριμία των φοιτητών με βασικά ζητήματα σχετικά με την ανακάλυψη γνώσης μέσα από βάσεις δεδομένων. Αρχικά, παρουσιάζονται έννοιες σχετικές με τις αποθήκες δεδομένων όπως θέματα σχεδίασης και αρχιτεκτονικές υλοποίησης. Στο υπόλοιπο μέρος του μαθήματος, εξετάζονται βασικά και εξειδικευμένα θέματα σχετικά με τις κυριότερες λειτουργίες της εξόρυξης δεδομένων και συγκεκριμένα την κατηγοριοποίηση, την ομαδοποίηση και τους κανόνες συσχέτισης.

 

CC - Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή
Περιεχόμενο μαθήματος

Εισαγωγικά στοιχεία – Δεδομένα και προ-επεξεργασία

Αποθήκες Δεδομένων

Κατηγοριοποίηση

Ομαδοποίηση

Κανόνες Συσχέτισης

Διδάσκοντες

 

Διδάσκων: Αναστάσιος Γούναρης, Επίκουρος Καθηγητής,

 

 

Συνεργάτης Ανάπτυξης Περιεχομένου: Ανδρέας Κοσματόπουλος

Μαθησιακοί στόχοι

Κατάρτιση σε μεθόδους ανακάλυψης γνώσης σε βάσεις δεδομένων. Κατανόηση των βασικών μεθοδολογιών κατηγοριοποίησης, ομαδοποίησης και κανόνων συσχέτισης. Βαθύτερη μελέτη των τεχνολογιών βάσεων δεδομένων και εξοικείωση με συστήματα αποθηκών δεδομένων. Απόκτηση ικανότητας εφαρμογής τεχνικών αποθηκών και εξόρυξης δεδομένων και χρήσης σχετικών εργαλείων. Δεξιότητες στις δυνατότητες εξαγωγής πληροφορίας από δεδομένα και αξιολόγησης των αποτελεσμάτων.

Προαπαιτούμενα

Βασικές γνώσεις Βάσεων Δεδομένων, βασικές γνώσεις αλγορίθμων.

Προτεινόμενα συγγράμματα

Το μάθημα βασίζεται στο βιβλίο:

Α.Νανόπουλος, Ι. Μανωλόπουλος, Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων, Εκδόσεις Νέων Τεχνολογιών, ISBN: 978-960-6759-17-8.

 

Άλλα χρήσιμα βοηθήματα είναι τα εξής:

  1. Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, ISBN 978-0123814791, 2011.
  2. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson Addison Wesley, 2006.
Βιβλιογραφία

Προτεινόμενα Συγγράμματα

  1. Α.Νανόπουλος, Ι. Μανωλόπουλος, Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων, ISBN: 978-960-6759-17-8, Εκδοσεις νέων τεχνολογιών
  2. Jiawei Han, Micheline Kamber, Data Mining : Concepts and Techniques, 3rd edition, Morgan Kaufmann, ISBN 978-0123814791, 2011.
  3. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson Addison Wesley, 2006

Επιπλέον συνιστώμενη βιβλιογραφία

  1. Μ. Χαλκίδη, Μ. Βαζιργιάννης, Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό, Τυπωθήτω, 2005
  2. Margaret Dunham, Data Mining Introductory and Advanced Topics, ISBN: 0130888923, Prentice Hall, 2003
  3. Mehmed Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, ISBN: 0471228524, Wiley-IEEE Press, 2002

Σύνδεσμοι

  1. Weka (http://www.cs.waikato.ac.nz/ml/weka/)
  2. KDnuggets (http://www.kdnuggets.com/ )
  3. Software links (http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm), Pang-Ning Tan, Michael Steinbach, Vipin Kumar

Ενότητες

Στη συγκεκριμένη ενότητα πραγματοποιείται μια πρώτη γνωριμία με το μάθημα. Δίνεται το κίνητρο της ενασχόλησης με τα περιεχόμενα του μαθήματος και παρέχονται βασικές έννοιες και ορισμοί, ενώ στη συνέχεια γίνεται μια σύντομη περιγραφή των βασικών λειτουργιών που θα αναλυθούν εκτενέστερα στις επόμενες ενότητες του μαθήματος.

 

Λέξεις κλειδιά: Κίνητρο, εξόρυξη δεδομένων, ανακάλυψη γνώσης, περιγραφικές λειτουργίες εξόρυξης δεδομένων, προγνωστικές λειτουργίες εξόρυξης δεδομένων, πηγή δεδομένων.

 

Στη συγκεκριμένη ενότητα πραγματοποιείται μια περιγραφή σχετικά με τη μορφή και τις ιδιότητες των δεδομένων. Επίσης, περιγράφονται πράξεις επεξεργασίας που εκτελούνται πάνω στα δεδομένα όπως περίληψη, καθαρισμός, μετασχηματισμός, και κβαντοποίηση. Στη συνέχεια, περιγράφονται μέθοδοι μείωσης μεγέθους δεδομένων, όπως δειγματοληψία, ιδιοδιανύσματα και επιλογή χαρακτηριστικών. Τέλος, γίνεται αναφορά σε μέτρα απόστασης και ομοιότητας.

 

Λέξεις κλειδιά: Μορφή δεδομένων, ιδιότητες δεδομένων, περίληψη δεδομένων, καθαρισμός δεδομένων, ανώμαλη τιμή, μετασχηματισμός δεδομένων, κβαντοποίηση δεδομένων, δειγματοληψία, μείωση αριθμού διαστάσεων, ομοιότητα δεδομένων, απόσταση δεδομένων.

 

Η συγκεκριμένη ενότητα παρέχει βασικές έννοιες και ορισμούς που αφορούν την περιοχή των Αποθηκών Δεδομένων. Αναλύεται η αρχιτεκτονική των Αποθηκών Δεδομένων και η διαφορά τους με τις Βάσεις Δεδομένων ενώ μελετώνται ακόμα οι κύβοι δεδομένων, οι τύποι σχημάτων και γενικότερα θέματα σχεδίασης.

 

Λέξεις κλειδιά: Αποθήκη δεδομένων, αρχιτεκτονική, ETL, back-end εργαλεία, κύβος δεδομένων, σχήμα αστέρα, σχήμα νιφάδας, αστερισμός γεγονότων, OLAP.

 

Στη δεύτερη ενότητα σχετικά με τις Αποθήκες Δεδομένων αναλύονται αρχιτεκτονικές υλοποίησης συστημάτων OLAP και υλοποίησης κύβων. Επίσης, παρουσιάζονται βασικές έννοιες σχετικά με καταλόγους και ευρετήρια.

 

Λέξεις κλειδιά: Αρχιτεκτονική υλοποίησης συστημάτων OLAP, ROLAP, MOLAP, HOLAP, υλοποίηση κυβοειδών, μερική υλοποίηση κυβοειδών, lattice, δικτυωτό πλαίσιο, επιλογή κυβοειδών, κατάλογος, B+ δέντρο, bitmap, bit-sliced, top N, ερωτήματα παγόβουνου, iceberg, υπολογισμός κύβων.

 

Σε αυτή την ενότητα παρουσιάζεται η λειτουργία της κατηγοριοποίησης. Πιο συγκεκριμένα, παρέχονται βασικές έννοιες και αναλύεται η κατηγοριοποίηση μέσω της μεθόδου των δέντρων αποφάσεων. Τέλος, γίνεται μια αναφορά στο φαινόμενο της υπερβολικής προσαρμογής.

 

Λέξεις κλειδιά: Κατηγοριοποίηση, κριτήρια αξιολόγησης, δέντρο απόφασης, διαχωριστική ιδιότητα, μέτρο ανομοιογένειας, υπερβολική προσαρμογή, κλάδεμα, pruning, αλγόριθμος REP, κλιμακούμενος αλγόριθμος, gini index.

 

Σε αυτή την ενότητα παρουσιάζονται επιπλέον κατηγοριοποιητές, όπως οι Bayesian κατηγοριοποιητές και οι κατηγοριοποιητές πλησιέστερων γειτόνων συνοδευόμενοι από παραδείγματα εφαρμογής τους. Επίσης αναλύονται διαφορετικές μέθοδοι αποτιμήσεις ακρίβειας κατηγοριοποιητών.

 

Λέξεις κλειδιά: Bayesian κατηγοριοποιητής, θεώρημα Bayes, αφελής Bayesian κατηγοριοποιητής, κατηγοριοποιητής πλησιέστερων γειτόνων, αποτίμηση ακρίβειας, hold-out, τυχαία υποδειγματοληψία, δια-εγκυροποίηση, bootstrap.

 

Σε αυτή την ενότητα αναλύεται η λειτουργία της ομαδοποίησης. Παρέχονται βασικές έννοιες και ορισμοί, στοιχεία για τους τύπους ομάδων και παρουσιάζεται ο αλγόριθμος ομαδοποίησης k-means μαζί με ένα παράδειγμα εφαρμογής του. Τέλος, αναφέρονται ζητήματα που προκύπτουν αναφορικά με τις παραμέτρους και παραλλαγές του αλγορίθμου.

 

Λέξεις κλειδιά: Ομαδοποίηση, διαχωριστική ομαδοποίηση, αλγόριθμος τμηματοποίησης, k-means, αρχική επιλογή κέντρου, k-medians.

 

Στη συγκεκριμένη ενότητα αναλύονται δύο από τις τέσσερις βασικές κατηγορίες αλγορίθμων ομαδοποίησης, οι αλγόριθμοι τμηματοποίησης και οι ιεραρχικοί αλγόριθμοι. Στους αλγόριθμους τμηματοποίησης δίνεται έμφαση στη ομαδοποίηση πλησιέστερων γειτόνων ενώ στους ιεραρχικούς αλγορίθμους παρουσιάζεται η συναθροιστική ιεραρχική ομαδοποίηση.

 

Λέξεις κλειδιά: Ιεραρχικοί αλγόριθμοι, ιεραρχική ομαδοποίηση, συναθροιστική ιεραρχική ομαδοποίηση, αλγόριθμος Ward.

 

Η τρίτη ενότητα σχετικά με τη ομαδοποίηση ασχολείται με τις δύο εναπομείνασες βασικές κατηγορίες αλγορίθμων ομαδοποίησης: τους αλγορίθμους βασισμένους στην πυκνότητα και τους αλγορίθμους βασισμένους στη θεωρία γράφων. Τέλος, μελετούνται ζητήματα και αλγόριθμοι σχετικά με την κλιμάκωση στην ομαδοποίηση.

 

Λέξεις κλειδιά: Πυκνότητα, DBScan, θεωρία γράφων, MST, RNG, GG, κλιμάκωση, BIRCH, CF Tree, CHAMELEON.

 

Η τέταρτη και τελευταία ενότητα σχετικά με τη ομαδοποίηση ολοκληρώνει τη μελέτη της λειτουργίας της ομαδοποίησης εξετάζοντας θέματα που αφορούν τον έλεγχο εγκυρότητας και τάσης ομαδοποίησης.  Τέλος, γίνεται μια αναφορά σε κριτήρια και παράγοντες που καθορίζουν την επιλογή ενός συγκεκριμένου αλγορίθμου ομαδοποίησης.

 

Λέξεις κλειδιά: Έλεγχος εγκυρότητας, SSE, SSB, συντελεστής σιλουέτας, οπτικοποίηση, τάση ομαδοποίησης, επιλογή αλγορίθμου.

 

Σε αυτή την ενότητα περιγράφονται οι κανόνες συσχέτισης και η λειτουργία της εξόρυξης κανόνων συσχέτισης από σύνολα δεδομένων. Αρχικά, δίνονται βασικοί ορισμοί και παραδείγματα κανόνων συσχέτισης ενώ στη συνέχεια αναλύεται ο αλγόριθμος δημιουργίας συχνών στοιχειοσυνόλων Apriori.

 

Λέξεις κλειδιά: Κανόνες συσχέτισης, υποστήριξη, εμπιστοσύνη, συχνά στοιχειοσύνολα, Apriori, δημιουργία κανόνων, αντιμονοτονικότητα, κατακερματισμός, τμηματοποίηση, αρνητικό όριο.

 

Σε αυτή την ενότητα συνεχίζεται η ανάλυση των κανόνων συσχέτισης και περιγράφεται ο αλγόριθμος FP-Growth και η κατασκευή του FP-δέντρου στο οποίο βασίζεται ο αλγόριθμος. Στη συνέχεια δίδονται σχετικά παραδείγματα ενώ τέλος διατυπώνονται ορισμένα μειονεκτήματα σχετικά με την υποστήριξη και την εμπιστοσύνη.

 

Λέξεις κλειδιά: Αλγόριθμος FP-Growth, FP-δέντρο, μειονεκτήματα υποστήριξης, μειονεκτήματα εμπιστοσύνης, μέτρο ενδιαφέροντος, παράδοξο Simpson.

Ανοικτό Ακαδ. Μάθημα

Ανοικτά Ακαδημαϊκά Μαθήματα
Επίπεδο: A-

Αρ. Επισκέψεων :  4171
Αρ. Προβολών :  29925