Kaldi-NL scoort uitstekend op NBest evaluatie

Met de keuze voor de open-source toolkit Kaldi, is het tijd om wat nauwkeuriger te kijken naar de prestaties van deze toolkit voor Nederlandse spraakherkenning. Als startpunt nemen we hiervoor de Nederlandse Spraakherkenningsbenchmark ‘NBest‘ die in 2008 door TNO is opgezet. Bij een benchmark evaluatie bepaalt de organisatie welke data voor het trainen van de spraakherkenner gebruikt mag worden. Elke deelnemer aan de evaluatie gebruikt dus dezelfde dataset. Uiteraard is ook de data die gebruikt wordt voor het testen voor iedereen gelijk. In NBest ging het bij de evaluatie om ‘broadcast news’ data, nieuws programma’s van Radio en Televisie dus. Wanneer we nu dezelfde data gebruiken die voor NBest werd gebruikt, zowel voor trainen en testen, kunnen we goed de kwaliteit vergelijken van Kaldi-NL met de alternatieven die in 2008 beschikbaar waren.  

De gebruikte modellen in onze evaluatie zijn dus geheel gemaakt volgens de regels van de NBest benchmark. Er wordt bovendien (nog) geen gebruik gemaakt van de recent populaire geworden ‘deep-learning’ herkenning, net als destijds door de andere deelnemers aan de benchmark. Alle spraak is herkend met dezelfde akoestische en taalmodellen. Er is dus geen onderscheid gemaakt tussen mannelijke en vrouwelijke sprekers, noch tussen studiospraak en telefoonspraak. Het gebruikte lexicon heeft een grootte van ruim 350 duizend woorden.

De herkenning werd uitgevoerd op een Intel Core i7-4870HQ cpu, met 16GB systeemgeheugen, onder OS X 10.10.5 en een Kaldi installatie van oktober 2015. Het systeem was zodanig geconfigureerd dat bij een maximum van 4 threads, de snelheid ongeveer gelijk was aan 1xRealTime. De evaluatie zelf is gedaan met dezelfde tools (asclite) en referentie transcripties als destijds voor de officiële inzendingen, met het enige verschil dat de hier gedane evaluatie hoofdletterONgevoelig is. De verwachting is dat de invloed hiervan op de Word Error rate (WER) hooguit enkele tienden van een procent zijn, maar dit is niet nader onderzocht.

Op een set van 2.23 uur aan ‘broadcast news’ testmateriaal haalt de Kaldi-NL herkenner een Word Error rate van 19,4%. Dat komt dicht in de buurt van het best presterende systeem in 2008 die op 17,8% kwam en is ruim beter dan het systeem dat tijdens NBest als tweede uit de bus kwam met 30,8%. De overige inzendingen scoorden destijds tussen 39 en 60% WER. 

 NBEST-WER-KALDI-NL2

Het verschil tussen ons huidige systeem en het beste systeem uit 2008 zit technisch voornamelijk in het type features dat wordt gebruikt. Wij doen het hier uitsluitend met MFCC-features. Het beste systeem destijds deed het met PLP-features in de eerste trap en MLP-gebaseerde features (Neuraal Netwerk) in de tweede trap. Daarnaast gebruikte het beste systeem aparte akoestische modellen voor mannen- en vrouwenstemmen en voor studio- en telefoonspraak.

Een bemoedigend resultaat dus. Onze Kaldi-NL herkenner doet het dus uitstekend op nieuws data, zonder dat we al alles uit de kast getrokken hebben aan trucs om een herkenner nog beter te laten werken. De volgende stap is om naar wat moeilijker data te gaan kijken: interviews. In volgende blogposts meer hierover!

Auteurs: Laurens van der Werff & Roeland Ordelman

January 18, 2016

Leave a Reply

Your email address will not be published. Required fields are marked *