Εκατομμύρια κείμενα δημοσιεύονται κάθε μέρα στο διαδίκτυο. Η επεξεργασία αυτών των δεδομένων μπορεί να μας δώσει χρήσιμες πληροφορίες. Η επεξεργασία φυσικής γλώσσας (ΕΦΓ) είναι ένας διεπιστημονικός κλάδος της επιστήμης της πληροφορικής, της τεχνητής νοημοσύνης και της υπολογιστικής γλωσσολογίας που ασχολείται με την αλληλεπίδραση μεταξύ των υπολογιστών και των ανθρώπινων γλωσσών. Στόχος της παρούσας διπλωματικής εργασίας είναι η εισαγωγή στο αντικείμενο με χρήση της γλώσσας Python. Η Python είναι μία από τις πιο δημοφιλείς γλώσσες προγραμματισμού όσον αφορά την επεξεργασία δεδομένων. Το βασικό πακέτο που χρησιμοποιήθηκε ήταν το NLTK, ένα από τα πιο γνωστά πακέτα επεξεργασίας φυσικής γλώσσας της Python. Παράλληλα με τη μελέτη βασικών διαδικασιών στην αγγλική γλώσσα, για την οποία σχεδιάστηκαν τα πακέτα, γίνεται και έλεγχος για την αποδοτικότητά τους στην ελληνική γλώσσα.
Millions of texts are published every day on the internet. Processing all these data can provide us with useful information. Natural language processing (NLP) is an interdisciplinary branch of computer science, artificial intelligence and computational linguistics dealing with the interaction between computers and human languages. The aim of this thesis is the introduction to the object using the Python language. Python is one of the most popular programming languages for data processing. The basic package that was used was NLTK, one of Python's most known packages for natural language processing. Along with the study of basic tasks in English language for which the packages were designed, a check is being made for their efficiency in Greek language.