Samenwerking Universiteit Twente en Beeld en Geluid

Om innovatieve toepassingen te kunnen ontwikkelen die gebruik maken van spraaktechnologie beschikken diverse onderzoeksgroepen en (semi-) publieke instellingen graag over een Nederlandse spraakherkenner van hoge kwaliteit die aangepast kan worden aan specifieke behoeften en data collecties.  De Universiteit Twente en het Nederlands Instituut voor Beeld en Geluid zijn in September 2015 een samenwerking gestart met als doel om een open-source spraakherkenner voor het Nederlands te ontwikkelen op basis van beschikbare open-source software.

Universiteit Twente

Natuurlijke interactie tussen mens en computer, tussen mens en robot, en mens en virtuele mensen is een centraal onderzoeksthema van de Human Media Interaction (HMI) onderzoeksgroep van de Universiteit Twente.  Spraakherkenning is daarbij vaak een belangrijke component. HMI heeft in het verleden zelf jarenlang onderzoek gedaan naar spraakherkenning (Open-Source ASR Toolkit SHoUT, spin-off SpraakLab) met als resultaat drie proefschriften [1,2,3] waar automatische spraakherkenning een centrale rol speelt. Ondertussen heeft het fundamentele onderzoek naar spraaktechnologie zelf plaatsgemaakt voor het gebruik van spraakherkenning in diverse applicatie-scenario’s.  Voor die scenario’s heeft HMI behoefte aan goede kwaliteit spraakherkenningssoftware die in onderzoeksprojecten ingezet kan worden. Het belang van HMI is daarbij het kunnen doen van onderzoek en het publiceren van onderzoeksresultaten. 

Beeld en Geluid

Beeld en Geluid is al jaren nauw betrokken bij het onderzoek naar spraaktechnologie ten behoeve van ontsluiting van het audiovisuele archief. In 2001 werden de eerste verkenningen gedaan tijdens het Europese ECHO (European CHronicles Online) project, en in 2008 werd een implementatietraject gestart met de UT spin-off Cross-Media Interaction (X-MI) voor het gebruik van spraakherkenning voor het ontsluiten van Radio-1. Recentelijk werd in samenwerking met Radboud Universiteit en SpraakLab automatische sprekerherkenning geïmplementeerd als onderdeel van de archiefketen. Vanwege het Digital Humanities programma CLARIAH is Beeld en Geluid geïnteresseerd in open-source spraaktechnologie voor onderzoekers die met gesproken woord collecties aan de slag willen.

Open-source ontwikkeling

De ontwikkeling van de open-source spraakherkenner wordt op een ‘agile’ manier vormgegeven waar diverse onderzoeksprojecten en R&D projecten een steen(tje) aan bijdragen. Er wordt gestart met de ontwikkeling van een generieke baseline die vervolgens via parallelle trajecten kan worden doorontwikkeld. Instellingen en bedrijven die geïnteresseerd zijn om op één of andere manier bij te dragen aan de ontwikkeling zijn van harte welkom. Een bijdrage kan de vorm hebben van data, expertise of budget voor specifieke doorontwikkeling. Zo heeft Beeld en Geluid de eerste drie maanden bekostigd waarin een eerste versie wordt ontwikkeld. Deze ontwikkeling gebeurt in ‘stakeholder projecten’. Dit zijn projecten waarin de ontwikkeling van ‘een stukje spraakherkenning’ –vaak gericht op een specifieke use case– wordt gefinancierd. Er staan een aantal van dit soort projecten in de steigers voor 2015-2016.

Belangrijk bij een open-source project is de ontwikkeling van een community. Vandaar ook deze website waar we geïnteresseerden op de hoogte houden. De komende tijd zullen we meer vertellen over de open-source software die we als basis gebruiken, hoe de ontwikkeling wordt vormgegeven, hoe kwaliteit wordt gemeten, welke stakeholder projecten er lopen, en natuurlijk, hoe de spraakherkenner kan worden gebruikt.

 


[1] Ordelman, R. J. F. (2003). Dutch speech recognition in multimedia information retrieval.

[2] Huijbregts, M. A. H. (2008). Segmentation, diarization and speech transcription: surprise data unraveled.

[3] van der Werff, L. B. (2012). Evaluation of noisy transcripts for spoken document retrieval.

Leave a Reply

Your email address will not be published. Required fields are marked *