Otomatik Konuşma Tanıma sistemleri
temel olarak akustik bilgiden faydalanılarak geliştirilmektedir. Akustik bilgiden
fonem bilgisinin elde edilmesi için eşleştirilmiş konuşma ve metin verileri
kullanılmaktadır. Bu veriler ile eğitilen akustik modeller gerçek hayattaki
bütün akustik bilgiyi modelleyememektedir. Bu nedenle belirli ön işlemlerin
yapılması ve otomatik konuşma tanıma sistemlerinin başarımını düşürecek akustik
bilgilerin ortadan kaldırılması gerekmektedir. Bu çalışmada konuşma içerisinde
geçen sessizliklerin kaldırılması için bir yöntem önerilmiştir. Önerilen
yöntemin amacı sessizlik bilgisinin ortadan kaldırılması ve akustik bilgide
uzun bağımlılıklar sağlayan konuşmaların parçalara ayrılmasıdır. Geliştirilen
yöntemin sonunda elde edilen sessizlik içermeyen ve parçalara ayrılan konuşma
bilgisi bir Türkçe Otomatik Konuşma Tanıma sistemine girdi olarak verilmiştir.
Otomatik Konuşma Tanıma sisteminin çıkışında sisteme giriş olarak verilen
konuşma parçalarına karşılık gelen metinler birleştirilerek sunulmuştur.
Gerçekleştirilen deneylerde sessizliğin kaldırılması ve konuşmanın parçalara
ayrılması işleminin Otomatik Konuşma Tanıma sistemlerinin başarımını artırdığı
görülmüştür.
Otomatik konuşma tanıma Sessizliğin kaldırılması Konuşmanın parçalanması
Bu çalışma, EMFA Yazılım Danışmanlık A.Ş. tarafından desteklenmiştir. Desteklerinden dolayı EMFA Yazılım Danışmanlık A.Ş. yönetim kurulu başkanı Emre EVREN teşekkür ederiz.
Automatic Speech
Recognition systems are mainly developed using acoustic information. Paired
speech and text data are used to obtain phoneme information from acoustic
information. The acoustic models trained with these data cannot model all
acoustic information in real life. For this reason, it is necessary to carry
out certain pre-processing and eliminate the acoustic information that will
reduce the performance of automatic speech recognition systems. In this study,
a method for removing silences in the speech was proposed. The aim of the
proposed method is to eliminate silence and to break down conversations that
give long dependencies. The speech information, which does not contain any
silence and is divided into pieces, is given as an input to the Turkish
Automatic Speech Recognition system. In the output of the Automatic Speech
Recognition system, the speech that is given as input to the system are
presented by combining the corresponding texts. In the experiments carried out,
it was seen that the removal of silence and parsing of speech increased the
performance of Automatic Speech Recognition systems.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ocak 2020 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 8 Sayı: 1 |