Downloads

Beknopte beschrijving:

(let op, we zijn op dit moment bezig de infrastructuur rond het beschikbaar maken van code en modellen in te richten. Onderstaande is alleen nog voor interne testdoeleinden en bevat nog geen of ongeteste code/modellen) 

Voor het installeren van de Kaldi spraakherkenningstoolkit inclusief Nederlandse modellen en bijbehorende scripts zie de opensource-spraakherkenning-nl GitHub repository en README.

De modellen zijn ook los beschikbaar onder een Apache 2.0 licentie via de beehub.nl repository van het project.


 

Uitgebreidere beschrijving:

Kaldi

Dit is de spraakherkenningssoftware zelf, die in een internationale community wordt ontwikkeld. Meer informatie over de installatie ervan is hier te vinden: https://sourceforge.net/projects/kaldi/ Let op, wellicht onnodig om te vermelden maar voor de zekerheid: het vergt de nodige ICT kennis om de software te installeren (oa bekendheid met GitHub). Het is geen consumentensoftware die je met een druk op de knop installeert. In principe is kennis over spraakherkenning zelf niet noodzakelijk. Via deze site zullen we de komende tijd ook documentatie beschikbaar stellen die kunnen helpen bij het gebruik van spraakherkenning.  

Kaldi-NL

Via de GitHub repository van het project stellen we voorbeeldscripts beschikbaar die de werking van de herkenning demonstreren en vanwaaruit je verder kunt werken. Bijvoorbeeld een ‘decode’ script dat audio files in de ene directory oppakt, deze herkent en de output deponeert in een andere directory. 

Ons model is dat software rondom de spraakherkenning, zoals APIs, conversie van video naar audio, queue-ing en load balancing mechanismen, gebruik in een dialoog setting (bv met een robot) worden ontwikkeld door de partijen die met de spraakherkenning aan de slag gaan. Zo werkt de R&D afdeling van Beeld en Geluid aan een API die het eenvoudiger maakt om de spraakherkenner in een workflow te integreren. We juichen het beschikbaar stellen van dit soort code via de GitHub repository van het project van harte toe. Als je wilt bijdragen meld je dan aan via GitHub (als individu of als team).

Bijdragen aan de repository

De volgende teams dragen nu bij aan deze repository:

  • Universiteit Twente
  • Nederlands Instituut voor Beeld en Geluid

Gebruiksscenario’s

  • Er zijn diverse gebruiksscenario’s voor het gebruik van spraakherkenning. Vanuit de Universiteit Twente wordt spraakherkenning bijvoorbeeld gebruikt in onderzoek rond audiovisuele ontsluiting en rond dialoogsystemen (serious games, robots, etc.).   

 

Modellen

De modellen die het project beschikbaar stelt zijn ontwikkeld met behulp van data collecties, audio (akoestische modellen) en tekst (taalmodellen). Om de modellen vrij beschikbaar te kunnen stellen moeten soms afspraken worden gemaakt met rechthebbenden van de collecties. Zo worden akoestische modellen die zijn ontwikkeld met behulp van het Corpus Gesproken Nederlands beschikbaar gesteld met toestemming van de Nederlandse Taalunie als rechthebbenden.

Vanwege het volume van deze modellen is de beschikbaarstelling via GitHub niet wenselijk. We hebben gekozen voor het gebruik van BeeHub data storage functionaliteit van SurfSara, een ‘high performance computing and data infrastructure for science and industry’, om modellen beschikbaar te maken. SurfSara biedt ook mogelijkheden voor grootschalige data verwerking (grids, cloudoplossing) waar in de toekomst wellicht ook interessante opties voor het gebruik van spraakherkenning liggen.