Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων

Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων

Μάστορας, Δημήτριος; Καρσανίδης, Θεόφιλος

URI: http://apothesis.teicm.gr/xmlui/handle/123456789/782

Ημερομηνία: 2013

Θέμα: TEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ::ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ;
TEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ;
ΑΛΓΟΡΙΘΜΟΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Περίληψη:

Η αυτόματη ανίχνευση ομάδων είναι μία τεχνική data mining που ψάχνει για ομάδες στοιχείων που είναι παρόμοια μεταξύ τους. Έτσι παρόμοια στοιχεία θα συμπεριφέρονται με παρόμοιους τρόπους. Για παράδειγμα συγκεκριμένες κατηγορίες πελατών ή συμπεριφορές. Η ανίχνευση ομάδων ανήκει στην κατηγορία της Συσταδοποίησης (clustering). Ο γνωστός αλγόριθμος συσταδοποίησης K-means είναι βασικός σε εργασίες data mining, αλλά είναι αργός σε μεγάλες βάσεις δεδομένων. Ενώ συνήθως προτείνεται η δειγματοληψία δεδομένων από τη βάση άλλες εργασίες προτείνουν την επιτάχυνση του αλγορίθμου άμεσα, μέσω της μεθόδου anchor hierarchy και μετρικών δομών δεδομένων. Η μέθοδος του Moore παράγει γρήγορα μία δομή για εντοπισμό δεδομένων, που εμπλουτίζεται με πρόσθετες στατιστικές πληροφορίες, και έχει την καλύτερη προσαρμογή στην κατανομή αυτών. Η μέθοδος του Moore, χρησιμοποιεί το συνδυασμό μίας γρήγορης ευρετικής μεθόδου της anchors hierarchy (farthest-points 2-approximation από Operation Research), και την μέθοδο συγχώνευσης bottom up του Omohundro, και αποφεύγει την αναδρομική κατασκευή δενδρικών δομών. Αυτές οι δομές εμπλουτίζονται με προ-υπολογιζόμενες στατιστικές πληροφορίες (κέντρα, αριθμός σημείων κλπ) και επιτρέπουν την επιτάχυνση αλγορίθμων μάθησης. Η anchors hierarchy βρίσκει sqrt(Ν) ομάδες-σφαίρες για Ν δεδομένα και η improved bottom up, συγχωνεύει τις σφαίρες σε μία. Μετά εφαρμόζεται πάλι αναδρομικά σε κάθε μία από τις σφαίρες i που έχουν Ni δεδομένα για να βρει sqrt(Νi) ομάδες και συνεχίζει ομοίως. Παράγει έτσι από αυτές τις ομάδες μία σωστά ισορροπημένη δομή όμοια με τα Ball Trees (Omohundro) που είναι δυαδικά δέντρα που αποσυνθέτουν ιεραρχικά το χώρο σε περιοχές υπερσφαιρών, αλλά με μία μέθοδο κατασκευής που δεν είναι ούτε top-down, ούτε bottom-up, αλλά αντίθετα είναι middle-out. Συνδυάζει έτσι την ταχύτητα της μεθόδου top-down και την καλύτερη προσαρμογή στην άγνωστη στατιστική κατανομή των δεδομένων με τη μέθοδο bottom-up. Αυτή η middle-out κατασκευή εξασφαλίζει μία γραμμική πολυπλοκότητα σε όλη τη διαδικασία. Όπως αναφέραμε και στην αρχή ο κάθε αλγόριθμος έχει και τα μειονεκτήματα του. Στην προκειμένη περίπτωση ο αλγόριθμος k-means υστερεί σε βάσης δεδομένων με μεγάλο όγκο στοιχείων. Παρακάτω στις επόμενες ενότητες θα αναλύσουμε πλήρως το θέμα κάνοντας μία επεξήγηση για να γίνει εύκολη η κατανόηση του κώδικα και τη χρησιμοποιούμε για να καταφέρουμε να επιταχύνουμε τον αλγόριθμο k-means με την μέθοδο του Moore. Το όφελος θα προκύψει από την εμβάθυνση στην υλοποίηση δομών δεδομένων και τον προγραμματισμό τους καθώς και τη μελέτη των εφαρμογών τους. Στην συνέχεια αναφερόμαστε σε μετρικά δεδομένα δομημένα σε πολλές διαστάσεις ή σε μη Ευκλείδειες αποστάσεις που μας επιτρέπουν την επιτάχυνση των αλγορίθμων εκμάθησης χρησιμοποιώντας στατιστικά στοιχεία που είναι αποθηκευμένα σε μεταβλητές. Πάνω σε αυτά τα στατιστικά βασίζεται και όλη η λογική των αλγορίθμων εκμάθησης, όπου δίνοντας στον κώδικα έτοιμα στοιχεία που έχουν είδη αναλυθεί μετά από επεξεργασία, δίνουμε στην εφαρμογή μας έτοιμη και μασημένη τροφή για να μας δώσει το αποτέλεσμα που ζητάμε. Πρόσφατα έχει δειχθεί ότι για λιγότερες από δέκα διαστάσεις, προσθέτοντας kd-trees με πρόσθετα στατιστικά στοιχεία σε πίνακες, μας παρέχουν ικανοποιητική επιτάχυνση για ένα μεγάλο εύρος από τεχνικές στατιστικής εκμάθησης όπως η οπισθοδρόμηση πυρήνα (kernel regression), τοπικά βαριά οπισθοδρόμηση (locally weighted regression), k-means συσταδοποίηση (clustering), αναμειγμένη μοντελοποίηση και Bayes Net Learning. Παρακάτω θα δούμε τον ορισμό του Farthest Poit (Ιεραρχίας των Αγκυρών - Anchors hierarchy)-- μια γρήγορη δόμηση για ένα σύνολο δεδομένων μόνο σε τριγωνική-άνιση-αυστηρά μετρική απόσταση. Θα δούμε πως αυτό, μέσα σε δικά του πλαίσια, μας δίνει γρήγορη και αποτελεσματική συσταδοποίηση (clustering) δεδομένων. Αλλά το πιο σημαντικό που θα δούμε είναι πως αυτό μας προσφέρει μία εξισορροπημένη δόμηση όμοια με ένα Ball-Tree (Omohundro, 1991) ή ένα είδος μετρικού δέντρου (Uhlmann,1991;Ciaccia, Patella, & Zezula, 1997) με τέτοιο τρόπο που δεν είναι ούτε "top-down" ούτε "bottom-up" αλλά αντιθέτως "middle-out". Μετά θα δούμε πως αυτή η δόμηση, σχεδιασμένη με αποθηκευμένα στατιστικά στοιχεία, μας επιτρέπει την επιτάχυνση ενός μεγάλου εύρους αλγορίθμων με στατιστικές εκμαθήσεις, ακόμα και σε χιλιάδες διαστάσεις. Αρχικά θα ξεκινήσουμε με αναλύοντας θεωρητικά κομμάτια και στην προκειμένη περίπτωση το τι είναι η Εξόρυξη Δεδομένων (data mining).

Εμφάνιση πλήρους εγγραφής

Αρχεία σε αυτό το τεκμήριο

Name: mastoras.pdf

Μέγεθος: 4.124Mb

Τύπος: PDF

Description: Πτυχιακή εργασία

Προβολή/Άνοιγμα

Name: presentation.pptx

Μέγεθος: 796.3Kb

Τύπος: Microsoft PowerPoint 2007

Description: Παρουσίαση

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Προπτυχιακές εργασίες

Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές

Αναζήτηση στο DSpace

Σύνθετη αναζήτηση

Πλοήγηση

Όλο το Αποθετήριο
Αυτή η συλλογή

Ο λογαριασμός μου

Σύνδεση

Το Ιδρυματικό Αποθετήριο δημιουργήθηκε στο πλαίσιο του Έργου "Ψηφιακές Υπηρεσίες της Βιβλιοθήκης του Τ.Ε.Ι. Σερρών" (MIS 304281). Συγχρηματοδοτήθηκε από το Ευρωπαϊκό Ταμείο Περιφερειακής Ανάπτυξης (ΕΤΠΑ) και από Εθνικούς πόρους, στο πλαίσιο του Επιχειρησιακού Προγράμματος "Μακεδονία-Θράκη".

Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων

Απόθεσις

Επιτάχυνση του αλγόριθμου k-means με τη μέθοδο του Moore για εφαρμογές συσταδοποίησης μεγάλων βάσεων δεδομένων

Περίληψη:

Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Αναζήτηση στο DSpace

Πλοήγηση

Όλο το Αποθετήριο

Αυτή η συλλογή

Ο λογαριασμός μου