Η εξόρυξη κειμένου είναι ο τομέας εκείνος της επιστήμης υπολογιστών, ο οποίος επιχειρεί να επιλύσει το πρόβλημα της υπερχείλισης πληροφοριών που είναι διαθέσιμες στον παγκόσμιο ιστό. Στην ουσία, αυτό που επιχειρεί να κάνει η εξόρυξη κειμένου, είναι να ανακαλύψει καινούρια πληροφορία, χρησιμοποιώντας πληροφορίες οι οποίες υπάρχουν σε διαφορετικές γραπτές πηγές.
Με την παρούσα πτυχιακή επιχειρείται η μελέτη των βασικών τεχνικών του τομέα εκείνου, καθώς και η ανάπτυξη παραδειγμάτων, εκπαιδευτικού σκοπού, των βασικότερων αλγορίθμων εξόρυξης κειμένου.
Το εργαλείο που χρησιμοποιείται για την συγγραφή των παραδειγμάτων αυτών, είναι το MATLAB (MATrix LABoratory), το οποίο είναι ένα περιβάλλον αριθμητικής υπολογιστικής, το οποίο δηλαδή χρησιμοποιείται κατά κύριο λόγο για μαθηματικά προβλήματα. Το MATLAB, για εργασίες με εξόρυξη κειμένου, παρέχει ειδικό toolbox, το text analytics (υποστηρίζεται από την έκδοση R2017b και μετά), το οποίο έχει υλοποιημένους αλγορίθμους για προεπεξεργασία, ανάλυση και μοντελοποίηση δεδομένων σε μορφή απλού κειμένου.
Text Mining is the area of computer science that seeks to solve the problem of information overflow that is available on the world wide web. In essence, what text mining is trying to do, is discover new information, using information that exists in different written sources.
The present thesis attempts to study the basic techniques of that field, as well as the development of examples, for educational purposes, of the most basic text mining algorithms.
The tool used to write these examples is MATLAB (MATrix LABoratory), which is a numerical computing environment that is used primarily for mathematical problems. MATLAB, for text mining tasks, provides a special toolbox, text analytics (supported by R2017b and later), which has implemented algorithms for pre-processing, analyzing and modeling data in plain text.