Abstract:
Με το όρο συσταδοποίηση (clustering) εννοούμε την στατιστική διαδικασία με την οποία προσπαθούμε να οργανώσουμε τα δεδομένα σε ομάδες (clusters), οι οποίες δεν είναι από πριν γνωστές, αλλά προκύπτουν δυναμικά. Ο αλγόριθμος ISODATA προσπαθεί να βρει την καλύτερη ομάδα από τα κέντρα των συστάδων για ένα δεδομένο πλήθος σημείων σε d-διαστάσεις, ακλουθώντας μια επαναληπτική προσέγγιση έως ότου επιτευχθεί ένας μέγιστος αριθμός επαναλήψεων.Ο σκοπός της πτυχιακής εργασίας είναι:
α) η αναλυτική παρουσίαση του αλγορίθμου ISODATA
β) η σύγκριση της απόδοσής του με άλλες μεθόδους όπως με τον k-means.
γ) η προγραμματιστική υλοποίησή του σε Matlab
δ) η δημιουργία ολοκληρωμένου προγράμματος με γραφικό περιβάλλον (GUI) σε Matlab που θα περιλαμβάνει
i) σύνδεση με βάσεις δεδομένων μέσω ODBC για φόρτωση των δεδομένων.
ii) την εφαρμογή του αλγορίθμου ISODATA για εύρεση συστάδων
iii) Οπτική παρουσίαση των αποτελεσμάτων με γραφήματα
iv) αποθήκευση των δεδομένων σε βάσεις δεδομένων.
Στην συνέχεια στο κεφάλαιο 1 θα παρουσιάσουμε θεωρητικά κάποια στοιχεία για τεχνικές εξόρυξης γνώσης, και θα εξηγήσουμε τον τρόπο λειτουργίας των αλγορίθμων k-means και Isodata. Στο κεφάλαιο 2 θα παρουσιάσουμε βήμα βήμα τον τρόπο υλοποίησης της εφαρμογής μας, στο κεφάλαιο 3 θα χρησιμοποιήσουμε δεδομένα για να κάνουμε την σύγκριση μεταξύ των αλγορίθμων και θα παρουσιάσουμε γραφικά τα αποτελέσματα και στο τέλος θα παραθέσουμε τα συμπεράσματά μας.