Markup-talen VoiceXML en SALT gaan soepel door één deur
Het VoiceXML Forum was een initiatief van IBM, Motorola, Lucent en AT&T. Het telt inmiddels bijna 300 leden en werd destijds opgezet met het oogmerk het proces te versnellen dat applicaties mogelijk maakt die op spraak zijn gebaseerd. De oprichters wilden vooral dat de informatieweelde van het world wide web toegankelijk zou worden voor de menselijke stem via bijvoorbeeld de telefoon. Op het toppunt van de internethype leek het absoluut zonde om die commerciële mogelijkheid links te laten liggen. En toen was er ineens SALT, het acroniem van Speech Application Language Tags, net als VoiceXML een extensie van XML, en eveneens ontworpen om een spraakinterface voor webpagina’s mogelijk te maken. Tot de oprichters van het SALT Forum behoorden industriegrootheden zoals Microsoft, Philips, Intel, ScanSoft, Cisco en Comverse. Multimodaal Het SALT Forum is dit jaar pas aan zijn derde verjaardag toe en telt momenteel ruim zeventig leden. Tot de leden van het SALT Forum behoren ook bedrijven die eveneens lid zijn van het VoiceXML Forum. Waarom zou de spraakindustrie zich verliezen in een open standaardenstrijd? In de praktijk echter blijken de twee standaarden niet zozeer onderling te concurreren, dan wel in elkaars verlengde te liggen. VoiceXML is oorspronkelijk ontworpen voor telefonietoepassingen. Het idee was dat de markup -taal de voordelen van het internet zou benutten door de specificaties van Interactive Voice Response (IVR) met het web te integreren. SALT daarentegen is ontworpen om de bediening van een hele reeks applicaties met de stem mogelijk te maken. Dus niet enkel websurfen met de stem via een telefoontoestel, maar interactief werken met de stem met PDA, tablet pc, laptop en of desktop computers. Aangezien een groot aantal van deze toestellen ook uitgerust is met een scherm, is een multimodale aanpak van de user interface van groot belang voor SALT. VoiceXML daarentegen is helemaal niet geschikt voor een multimodale interface. Daar is het ook nooit voor ontworpen. Conversie James A. Larson is bij Intel verantwoordelijk manager voor de afdeling Advanced Human Input - Output, maar hij is in de spraakindustrie vooral bekend als de auteur van een naslagwerk over VoiceXML en als de officieuze woordvoerder van het desbetreffende forum. Larson stelt dat applicaties die oorspronkelijk geschreven zijn in HTML of XHTML volledig moeten worden herschreven of geconverteerd naar VoiceXML, voordat die pagina’s via de telefoon op te vragen zijn vanaf een VoiceXML-browser. Die omslachtige conversieverplichting heeft de industrie er volgens Larson totaal niet van weerhouden om VoiceXML druk in gebruik te nemen. "Nieuwerwetse VoiceXML-applicaties vervangen steeds vaker de ouderwetse druktoetsprogramma’s voor de telefoon, omdat VoiceXML kan voorkomen dat de gebruiker vastloopt in moerassige menu’s à la ‘Als u A wilt, druk dan toets 1, wilt u B, druk dan toets 2’ etcetera." Larson bevestigt dat VoiceXML het laat afweten als basis voor multimodale applicaties, dus als MultiModale User Interface (MMUI). "Om dat toch aan te kunnen, hebben IBM, Motorola en Opera samen inmiddels XHTML plus VoiceXML (X+V) gecreëerd, een collectie XHTML en VoiceXML modules die aan elkaar gelijmd kunnen worden om multimodale applicaties te creëren." Integratie SALT op zijn beurt kan, anders dan VoiceXML, weer wel gebruikt worden voor multimodale toepassingen. Larson: "Daarbij wordt SALT verankerd in bijvoorbeeld HTML of XHTML, waarbij SALT dan instaat voor het afhandelen van de spraakelementen, terwijl HTML en/of XHTML instaan voor de visuele aspecten van het verhaal." Volgens Larson is het echter vrijwel uitgesloten dat ontwikkelaars toepassingen schrijven die èn als spraakapplicatie èn als visuele interface gebruikt kunnen worden of als beide tegelijk. "Dat komt doordat de onderling sterk verschillende stijlelementen van de verschillende user interfaces dan met elkaar geïntegreerd moeten worden. Spraaktoepassingen zijn doorgaans systeemgericht, waarbij het systeem de vragen stelt en de gebruiker de antwoorden ophoest. Grafische interfaces (GUI) zijn dan weer op de gebruiker gericht, waarbij die gebruiker het roer in handen neemt en op klikbare element klikt om iets gedaan te krijgen." Speech Development Kit "Over het algemeen geloof ik dat de integratie van al die verschillende stijlen in één enkele effectieve user interface extreem moeilijk is. Er moet eerst nog heel wat werk verzet worden voordat consumenten hun toetsenbord, stylus of muis kunnen weggooien." Intussen heeft Microsoft wel al een brede reeks SALT-producten uitgebracht. Deze maken integraal deel uit van ASP.NET. Albert Kooiman, één van de originele ontwerpers van SALT, thans werkzaam bij Microsoft, merkt op dat liefst zeven miljoen gebruikers van Visual Studio momenteel gratis kunnen beschikken over de Speech Development Kit (SDK) van Microsoft. Kooiman: "Ze kunnen nu spraakapplicaties schrijven in een omgeving waarmee ze vertrouwd zijn. Dat zal een gigantische invloed hebben op de industrie. Spraak zal een integraal onderdeel worden van hoe we met machines omgaan." www.saltforum.orgwww.voicexml.orgwww.larson-tech.com