Περίληψη:
Ο πρωταρχικός σκοπός της διπλωματικής αυτής εργασίας είναι ο μη αυτόματος τεμαχισμός και επισημείωση μια βάσης ομιλίας σε επίπεδο φωνημάτων. Στη συνέχεια, γίνεται μοντελοποίηση της διάρκειας των φωνημάτων της Ελληνικής γλώσσας με χρήση χαρακτηριστικών εξαγόμενων από το κείμενο. Τέτοια χαρακτηριστικά είναι η ταυτότητα του φωνήματος, ο τρόπος άρθρωσης του φωνήματος, ο αριθμός των συλλαβών μιας λέξης, το σημείο στίξης μετά την λέξη, η θέση της συλλαβής μέσα στη λέξη και άλλα πολλά. Για την δημιουργία αυτών των μοντέλων θα χρησιμοποιηθούν αλγόριθμοι μηχανικής μάθησης (Machine Learning Algorithms) όπως δέντρα αποφάσεων, αλγόριθμοι αριθμητικής παλινδρόμησης, γραμμική παλινδρόμηση, ο αλγόριθμος αθροίσματος παραγόντων και άλλοι. Η απόδοσή τους θα εκτιμηθεί με υποκειμενική αξιολόγηση (subjective evaluation) εφαρμόζοντάς τα σε σύστημα συνθετικής ομιλίας.