Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων

Απόθεσις

 

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Τσιμπίρης, Αλκιβιάδης
dc.contributor.author Μάστορας, Δημήτριος
dc.contributor.author Καρσανίδης, Θεόφιλος
dc.date.accessioned 2015-04-29T08:59:43Z
dc.date.available 2015-04-29T08:59:43Z
dc.date.issued 2013
dc.identifier.uri http://apothesis.teicm.gr/xmlui/handle/123456789/782
dc.description.abstract Η αυτόματη ανίχνευση ομάδων είναι μία τεχνική data mining που ψάχνει για ομάδες στοιχείων που είναι παρόμοια μεταξύ τους. Έτσι παρόμοια στοιχεία θα συμπεριφέρονται με παρόμοιους τρόπους. Για παράδειγμα συγκεκριμένες κατηγορίες πελατών ή συμπεριφορές. Η ανίχνευση ομάδων ανήκει στην κατηγορία της Συσταδοποίησης (clustering). Ο γνωστός αλγόριθμος συσταδοποίησης K-means είναι βασικός σε εργασίες data mining, αλλά είναι αργός σε μεγάλες βάσεις δεδομένων. Ενώ συνήθως προτείνεται η δειγματοληψία δεδομένων από τη βάση άλλες εργασίες προτείνουν την επιτάχυνση του αλγορίθμου άμεσα, μέσω της μεθόδου anchor hierarchy και μετρικών δομών δεδομένων. Η μέθοδος του Moore παράγει γρήγορα μία δομή για εντοπισμό δεδομένων, που εμπλουτίζεται με πρόσθετες στατιστικές πληροφορίες, και έχει την καλύτερη προσαρμογή στην κατανομή αυτών. Η μέθοδος του Moore, χρησιμοποιεί το συνδυασμό μίας γρήγορης ευρετικής μεθόδου της anchors hierarchy (farthest-points 2-approximation από Operation Research), και την μέθοδο συγχώνευσης bottom up του Omohundro, και αποφεύγει την αναδρομική κατασκευή δενδρικών δομών. Αυτές οι δομές εμπλουτίζονται με προ-υπολογιζόμενες στατιστικές πληροφορίες (κέντρα, αριθμός σημείων κλπ) και επιτρέπουν την επιτάχυνση αλγορίθμων μάθησης. Η anchors hierarchy βρίσκει sqrt(Ν) ομάδες-σφαίρες για Ν δεδομένα και η improved bottom up, συγχωνεύει τις σφαίρες σε μία. Μετά εφαρμόζεται πάλι αναδρομικά σε κάθε μία από τις σφαίρες i που έχουν Ni δεδομένα για να βρει sqrt(Νi) ομάδες και συνεχίζει ομοίως. Παράγει έτσι από αυτές τις ομάδες μία σωστά ισορροπημένη δομή όμοια με τα Ball Trees (Omohundro) που είναι δυαδικά δέντρα που αποσυνθέτουν ιεραρχικά το χώρο σε περιοχές υπερσφαιρών, αλλά με μία μέθοδο κατασκευής που δεν είναι ούτε top-down, ούτε bottom-up, αλλά αντίθετα είναι middle-out. Συνδυάζει έτσι την ταχύτητα της μεθόδου top-down και την καλύτερη προσαρμογή στην άγνωστη στατιστική κατανομή των δεδομένων με τη μέθοδο bottom-up. Αυτή η middle-out κατασκευή εξασφαλίζει μία γραμμική πολυπλοκότητα σε όλη τη διαδικασία. Όπως αναφέραμε και στην αρχή ο κάθε αλγόριθμος έχει και τα μειονεκτήματα του. Στην προκειμένη περίπτωση ο αλγόριθμος k-means υστερεί σε βάσης δεδομένων με μεγάλο όγκο στοιχείων. Παρακάτω στις επόμενες ενότητες θα αναλύσουμε πλήρως το θέμα κάνοντας μία επεξήγηση για να γίνει εύκολη η κατανόηση του κώδικα και τη χρησιμοποιούμε για να καταφέρουμε να επιταχύνουμε τον αλγόριθμο k-means με την μέθοδο του Moore. Το όφελος θα προκύψει από την εμβάθυνση στην υλοποίηση δομών δεδομένων και τον προγραμματισμό τους καθώς και τη μελέτη των εφαρμογών τους. Στην συνέχεια αναφερόμαστε σε μετρικά δεδομένα δομημένα σε πολλές διαστάσεις ή σε μη Ευκλείδειες αποστάσεις που μας επιτρέπουν την επιτάχυνση των αλγορίθμων εκμάθησης χρησιμοποιώντας στατιστικά στοιχεία που είναι αποθηκευμένα σε μεταβλητές. Πάνω σε αυτά τα στατιστικά βασίζεται και όλη η λογική των αλγορίθμων εκμάθησης, όπου δίνοντας στον κώδικα έτοιμα στοιχεία που έχουν είδη αναλυθεί μετά από επεξεργασία, δίνουμε στην εφαρμογή μας έτοιμη και μασημένη τροφή για να μας δώσει το αποτέλεσμα που ζητάμε. Πρόσφατα έχει δειχθεί ότι για λιγότερες από δέκα διαστάσεις, προσθέτοντας kd-trees με πρόσθετα στατιστικά στοιχεία σε πίνακες, μας παρέχουν ικανοποιητική επιτάχυνση για ένα μεγάλο εύρος από τεχνικές στατιστικής εκμάθησης όπως η οπισθοδρόμηση πυρήνα (kernel regression), τοπικά βαριά οπισθοδρόμηση (locally weighted regression), k-means συσταδοποίηση (clustering), αναμειγμένη μοντελοποίηση και Bayes Net Learning. Παρακάτω θα δούμε τον ορισμό του Farthest Poit (Ιεραρχίας των Αγκυρών - Anchors hierarchy)-- μια γρήγορη δόμηση για ένα σύνολο δεδομένων μόνο σε τριγωνική-άνιση-αυστηρά μετρική απόσταση. Θα δούμε πως αυτό, μέσα σε δικά του πλαίσια, μας δίνει γρήγορη και αποτελεσματική συσταδοποίηση (clustering) δεδομένων. Αλλά το πιο σημαντικό που θα δούμε είναι πως αυτό μας προσφέρει μία εξισορροπημένη δόμηση όμοια με ένα Ball-Tree (Omohundro, 1991) ή ένα είδος μετρικού δέντρου (Uhlmann,1991;Ciaccia, Patella, & Zezula, 1997) με τέτοιο τρόπο που δεν είναι ούτε "top-down" ούτε "bottom-up" αλλά αντιθέτως "middle-out". Μετά θα δούμε πως αυτή η δόμηση, σχεδιασμένη με αποθηκευμένα στατιστικά στοιχεία, μας επιτρέπει την επιτάχυνση ενός μεγάλου εύρους αλγορίθμων με στατιστικές εκμαθήσεις, ακόμα και σε χιλιάδες διαστάσεις. Αρχικά θα ξεκινήσουμε με αναλύοντας θεωρητικά κομμάτια και στην προκειμένη περίπτωση το τι είναι η Εξόρυξη Δεδομένων (data mining). el
dc.format.extent 113 el
dc.language.iso el el
dc.publisher Τ.Ε.Ι. Κεντρικής Μακεδονίας el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/4.0/deed.el
dc.subject TEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ::ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ el
dc.subject TEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ el
dc.subject ΑΛΓΟΡΙΘΜΟΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ el
dc.subject.ddc 006.3 el
dc.title Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων el
dc.type Πτυχιακή εργασία
dc.contributor.department Σχολή Τεχνολογικών Εφαρμογών, Τμήμα Μηχανικών Πληροφορικής Τ.Ε. el
dc.heal.publisherID teiser
dc.subject.keyword Εξόρυξη δεδομένων el
dc.subject.keyword Συσταδοποίηση el
dc.subject.keyword Αλγόριθμος k-means el
dc.subject.keyword Μέθοδος Moore el
dc.subject.keyword Βάσεις δεδομένων el


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές