De som misslyckas med att prata i telefon till automatiserade taligenkänningssystem kan ta tröst i det faktum att forskare arbetar för att göra sådana system mer livsdugliga och mindre irriterande att använda.
"Från konsumentupplevelse tycker människor att dessa system är mycket frustrerande", sa James Allen, som är ordförande för datavetenskap vid University of Rochester, talade före SpeechTEK-konferensen 2010, som hölls i New York den här veckan.
De flesta datoriserade taligenkänningssystem kan förstå vad en människa säger upp till 98 procent av tiden, och ändå skämtar man fortfarande med hjälp av automatiserade telefonhjälp-skrivbordssystem. Nyckeln till att göra dessa system mindre frustrerande att använda skulle vara att ge dem en djupare förståelse för språket och göra dem mer interaktiva, säger Allen.
[Ytterligare läsning: Din nya dator behöver dessa 15 gratis, utmärkta program]Kundtjänstavdelningarna i de flesta stora organisationer erbjuder nu automatiserade telefonbaserade hjälpsystem. En användare ringer hjälpnumret och en artificiell röst frågar uppringaren en rad frågor. De flesta av dessa system är baserade på ramar som i grunden är stora beslutsträd. Med sådana system "kan du inte ta reda på vad personen vill, du följer ett manus," sa han.
Systemen är faktiskt en sammansatt av ett antal olika teknologier. En är taligenkänning eller förmågan för en dator att förstå eller framgångsrikt översättas till text, vad talaren säger.
Den andra tekniken, NLP (Natural Language Processing), försöker antingen konvertera talarens meddelande till ett kommando som datorn kan exekvera, eller som kan sammanfattas för en mänsklig operatör.
Stora framsteg har gjorts i både röstigenkänning och NLP under de senaste decennierna, men de har uppenbarligen fört med sig frustration för sina användare. "Jag ringer bara till banken när jag har problem och slårss mot dessa system. [Jag frågar] vad jag kan svara för att komma fram till en person så fort som möjligt," sade Allen.
Allens akademiska forskningsarbete har varit att hitta sätt som "vi kan prata med en maskin på samma sätt som vi kan prata med en person", säger han.
Samtal mellan två personer kan vara exakt på sätt som datorer har svårt att matcha. Allen pekade på ett tidigt arbete som han gjorde som doktorand, där han spelade in samtal på en tågstation informationsdisk. I en samverkan går en passagerare upp till båsen och säger "8:50 till Windsor" och ledsagaren svarar "Gate 10, 20 minuter sen". Medan assistenten visste exakt vilken information sökaren efterfrågade skulle datoriserade system hitta passagerarens första uttalande befultling.
Så som Allen ser det, saknas två element i moderna system: förmågan att analysera vad talaren säger och förmåga att prata med högtalaren för att lära sig mer om vad talaren tänker säga.
"Massor av hylla NLP tenderar att vara grunt. Vi har ingen teknik som ger dig mening om meningarna" han sa. Statistiska bearbetningsverktyg och orddefinitionsservice som WordNet kan hjälpa till att definiera ett ord men också ett ords relationer, så ett system vet att exempelvis ett "dotterbolag" ingår i ett "företag".
Mer tvåvägskommunikation mellan användarna och datorerna behövs också. När man talar om sina behov kan folk ge information i ingen särskild ordning. Det borde vara upp till datorn att sammanfoga den här informationen och inte börda användaren med frågor vars svar redan har lämnats.
"Detta är framtiden, det här är verkligen vad du vill att system ska göra, och kan vi bygga dialog system som kan stödja denna komplexitet, säger han.
För att illustrera denna idé, utformade Allen och ett forskargrupp ett program som kallas hjärtat som skulle kunna efterlikna de frågor en sjuksköterska skulle fråga till en patient med hjärtsjukdom. Programmet skapades med finansiering från U.S. National Institute of Health. Med detta system, när en användare levererar information, skulle systemet inte begära det igen, sa Allen. Systemet skulle motivera vilket material som redan tillhandahölls och vad som fortfarande behövdes.
Ett annat program som designats av Allen och hans team, kallade Plough, kan lära sig att utföra vanliga uppgifter på en dator. "Detta är ett system som gör det möjligt för dig att använda dialog för att träna ditt system hur man gör saker för dig," sa han.
Som exempel visade Allen programmet att lära sig att hitta närliggande restauranger med hjälp av en webbläsare. Användaren skulle öppna en webbläsare, navigera till en restaurang locator webbplats, skriv in den typ av restaurang som sökts och platsen, och sedan klippa och klistra in resultaten i en tom sida. Användaren beskrev varje steg som det utfördes.
Under processen skulle Plough registrera varje steg och svara lydigt när steget förstås. Senare, när användaren skulle vilja se upp en annan restaurang, skulle programmet gå igenom alla samma drag och producera en annan lista med restauranger automatiskt. Förenta staternas försvarsforskningsprojektbyrå finansierade utvecklingen av detta program.
Mer data är nyckeln till mer mänskliga språkbehandlingssystem, gick överens om Microsoft-chefsforskare för tal Larry Heck, i ett annat samtal på konferensen. "Om du inte har data, spelar det ingen roll hur sofistikerade dina algoritmer är," sa han.
En plats för att hitta mer data skulle vara i sökmotorfrågor, föreslog han. Sökmotortjänster får massiva antal frågor, som alla blir länkade till svar. "Jag ser sökandet som en nära kusin till språkbehandlingstekniken," sa Heck.
Dessa dagar är människor utbildade för att strukturera sina frågor som en uppsättning sökord. I stället skulle användarna, om användarna skulle skriva in fullständiga meningar, beskriva vad de behövde, ha en lång väg att hjälpa systemen att bättre förstå vad folk letar efter.
Heck förutspådde att när fler använder röstaktiverade söktjänster från Microsoft och Google kommer de att bli vanligare att strukturera sina frågor som fullständiga meningar, vilket över tiden kan hjälpa NLP-systemen att bättre förutsäga användarnas behov.
Joab Jackson täcker företagsprogramvara och allmänt tekniskt brytande nyheter för IDG News tjänsten. Följ Joab på Twitter på @Joab_Jackson. Joabs e-postadress är [email protected]
Netflix-tjänsten kan bli smartare
Tävlingen är över: Användarlag bidrog till att förbättra Netflixs rekommendationssystem.
Nätverk måste bli mer täta, Qualcomm säger
Den trådlösa industrin har nått gränserna för vad den kan göra för att använda radiospektrum mer effektivt , Säger Qualcomms VD.
Domen , avgav onsdagen, säger att Visas underleverantör Valitor olagligt hade sagt upp sitt kontrakt med WikiLeaks donationsprocessor, DataCell, och måste åter öppna behandlingen av donationer till whistle-blowing-platsen inom 15 dagar eller annars få en böter på ISK800, 000 eller 6 800 USD per dag. WikiLeaks stämde Valitor förra året efter att företaget avslutat kontraktet med DataCell. Valitor gjorde flytten utan trovärdig förklaring, säger Wikileaks.
Visa, förutom MasterCard, American Express och andra, slutade bearbeta betalningar för WikiLeaks 2010 när webbplatsen började släppa omkring 250 000 hemliga amerikanska diplomatkablar. Som ett resultat av detta slogs 95 procent av WikiLeaks intäkter ut.