Az alkalmazások száma és a hanginterfészek jelentősége gyorsan növekszik

Tartalom

nagy négyes
Az amerikaiak vásárolni akarnak
Moss, süss, takaríts!
Régi koncepció. Eljött végre az ő ideje?
technikailag nehéz kérdés
Hang? Grafika? Vagy esetleg mindkettő?
Vigyázz a biztonságra!

Egy amerikai család Portlandben (Oregon állam) nemrégiben megtudta, hogy Alex hangsegédje felvette privát beszélgetéseiket, és elküldte egy barátjának. A ház tulajdonosa, akit a média Danielle-nek nevez, azt mondta az újságíróknak, hogy "soha többé nem fogja csatlakoztatni azt a készüléket, mert nem lehet megbízni benne".

Alexa, amelyet az Echo (1) hangszórói és egyéb kütyüi biztosítanak több tízmillió amerikai otthonban, elkezdi a felvételt, amikor meghallja a felhasználó által kimondott nevét vagy „hívószót”. Ez azt jelenti, hogy még akkor is, ha az „Alexa” szó szerepel egy tévéhirdetésben, a készülék elkezdheti a felvételt. Ebben az esetben pontosan ez történt – állítja az Amazon, a hardverforgalmazó.

"A beszélgetés további részét a hangsegéd üzenetküldési parancsként értelmezte" - áll a társaság közleményében. "Valamikor Alexa hangosan megkérdezte: "Kinek?" A fapadlóról szóló családi beszélgetés folytatását a gépnek úgy kellett volna felfognia, mint az ügyfél névjegyzékében.” Legalábbis az Amazon ezt gondolja. Így a fordítás balesetek sorozatává redukálódik.

A szorongás azonban megmarad. Mert valamiért egy olyan házban, ahol még jól éreztük magunkat, be kell lépnünk valamiféle „hangmódba”, figyelnünk kell, mit mondunk, mit sugároz a tévé, és persze, mit ez az új hangszóró a mellkasán. fiókok azt mondják. minket.

Azonban, A technológiai tökéletlenségek és az adatvédelmi aggályok ellenére az olyan eszközök népszerűségének növekedésével, mint az Amazon Echo, az emberek kezdik megszokni azt a gondolatot, hogy hangjuk segítségével kommunikálnak számítógépekkel..

Ahogy Werner Vogels, az Amazon műszaki igazgatója az AWS re:Invent munkamenete során 2017 végén megjegyezte, a technológia eddig korlátozta a számítógépekkel való interakciót. A kulcsszavakat a billentyűzet segítségével írjuk be a Google-be, mivel továbbra is ez a legelterjedtebb és legegyszerűbb módja annak, hogy információkat vigyünk be a gépbe.

Vogels mondta. -

nagy négyes

Amikor telefonon használjuk a Google keresőt, valószínűleg már régen észrevettünk egy mikrofontáblát, amelyen felhívás szólt. Ez Google most (2), amely használható keresési lekérdezések diktálására, üzenetek hanggal történő bevitelére stb. Az elmúlt években a Google, az Apple és az Amazon sokat fejlődött hangfelismerő technológia. Az olyan hangsegédek, mint az Alexa, a Siri és a Google Asszisztens, nemcsak rögzítik az Ön hangját, hanem megértik, amit mondasz nekik, és válaszolnak a kérdésekre.

A Google Asszisztens ingyenesen elérhető minden Android-felhasználó számára. Az alkalmazás például beállíthat ébresztőt, ellenőrizheti az időjárás-előrejelzést és ellenőrizheti az útvonalat a Google térképen. A Google Asszisztens állapotok társalgási kiterjesztése Google Asszisztens () – virtuális segítségnyújtás a berendezés használójának. Főleg mobil és intelligens otthoni eszközökön érhető el. A Google Asszisztenssel ellentétben részt vehet kétirányú cserében. Az asszisztens 2016 májusában debütált a Google Allo üzenetküldő alkalmazás részeként, valamint a Google Home hangszóróban (3).

3. Google főoldal

Az IOS rendszernek saját virtuális asszisztense is van, Siri, amely az Apple iOS, watchOS, tvOS homepod és macOS operációs rendszereihez tartozó program. A Siri 5 októberében debütált az iOS 4 és az iPhone 2011s operációs rendszerrel a Let's Talk iPhone konferencián.

A szoftver társalgási felületre épül: felismeri a felhasználó természetes beszédét (iOS 11-nél lehetőség van a parancsok kézi bevitelére is), válaszol a kérdésekre és feladatokat hajt végre. A gépi tanulás bevezetésének köszönhetően idővel asszisztens személyes preferenciáit elemzi a felhasználónak, hogy relevánsabb eredményeket és javaslatokat nyújtson. A Siri állandó internetkapcsolatot igényel – itt a fő információforrás a Bing és a Wolfram Alpha. Az iOS 10 bevezette a harmadik féltől származó bővítmények támogatását.

Még egy a négy nagy közül Cortana. Ez egy intelligens személyi asszisztens, amelyet a Microsoft készített. Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android és iOS platformokon támogatja. A Cortanát először a Microsoft Build Developer Conference-en mutatták be 2014 áprilisában San Franciscóban. A program neve a Halo játéksorozat egyik karakterének nevéből származik. A Cortana angol, olasz, spanyol, francia, német, kínai és japán nyelven érhető el.

A már említett program felhasználói Alexa a nyelvi korlátozásokat is figyelembe kell venniük – a digitális asszisztens csak angolul, németül, franciául és japánul beszél.

Az Amazon Virtual Assistant-t először az Amazon Lab126 által fejlesztett Amazon Echo és Amazon Echo Dot okoshangszórókban használták. Lehetővé teszi a hangos interakciót, a zenelejátszást, a teendők listájának létrehozását, az ébresztés beállítását, a podcastok streamelését, a hangoskönyvek lejátszását, valamint a valós idejű időjárási, közlekedési, sport- és egyéb híreket, például híreket (4). Az Alexa több intelligens eszközt is vezérelhet otthoni automatizálási rendszer létrehozásához. Kényelmes vásárláshoz is használható az Amazon boltban.

4. Mire használják a felhasználók az Echo-t (a kutatások szerint)

A felhasználók javíthatják az Alexa élményét, ha telepítik az Alexa "készségeket" (), a harmadik felek által kifejlesztett további funkciókat, amelyeket más beállításokban általában alkalmazásoknak neveznek, például időjárás- és audioprogramoknak. A legtöbb Alexa eszköz lehetővé teszi a virtuális asszisztens aktiválását egy ébresztési jelszóval, az úgynevezett .

Az Amazon határozottan uralja ma az intelligens hangszórók piacát (5). A legjobb négy közé igyekszik bekerülni a 2018 márciusában új szolgáltatást bevezető IBM Watson asszisztense, azoknak a cégeknek készült, amelyek saját virtuális asszisztensi rendszereket szeretnének létrehozni hangvezérléssel. Mi az előnye az IBM megoldásnak? A cég képviselői szerint mindenekelőtt a személyre szabottság és az adatvédelem sokkal nagyobb lehetőségeiről.

Először is, a Watson Assistant nem rendelkezik márkajelzéssel. A cégek saját megoldásokat hozhatnak létre ezen a platformon, és saját márkájukkal láthatják el őket.

Másodszor, saját adatkészleteik segítségével képezhetik ki segítő rendszereiket, ami az IBM szerint megkönnyíti a szolgáltatások és parancsok hozzáadását a rendszerhez, mint más VUI (hangos felhasználói felület) technológiák.

Harmadszor, a Watson Assistant nem ad tájékoztatást az IBM-nek a felhasználói tevékenységről – a platformon található megoldások fejlesztői csak az értékes adatokat tarthatják meg maguknak. Eközben mindenkinek, aki például Alexával épít eszközöket, tudnia kell, hogy értékes adatai az Amazonra kerülnek.

A Watson Assistantnek már több megvalósítása is van. A rendszert használta például a Harman, aki a Maserati koncepcióautóhoz készített hangasszisztenst (6). A müncheni repülőtéren egy IBM asszisztens egy Pepper-robotot működtet, hogy segítse az utasokat a mozgásban. A harmadik példa a Chameleon Technologies, ahol hangtechnológiát használnak egy intelligens otthon mérőben.

6. Watson asszisztens a Maserati koncepcióautóban

Hozzá kell tenni, hogy a mögöttes technológia itt sem új. A Watson Assistant titkosítási képességeket tartalmaz a meglévő IBM termékekhez, a Watson Conversationhez és a Watson Virtual Agenthez, valamint API-kat a nyelvi elemzéshez és a csevegéshez.

Az Amazon nemcsak vezető szerepet tölt be az intelligens hangtechnológiában, hanem közvetlen üzletté alakítja azt. Néhány vállalat azonban már sokkal korábban kísérletezett az Echo integrációjával. A Sisense, a BI és az analitikai iparágban tevékenykedő vállalat 2016 júliusában vezette be az Echo integrációt. Az induló Roxy viszont úgy döntött, hogy létrehozza saját hangvezérlésű szoftverét és hardverét a vendéglátóipar számára. Az év elején a Synqq bevezetett egy jegyzetkészítő alkalmazást, amely hang- és természetes nyelvi feldolgozást használ a jegyzetek és naptárbejegyzések hozzáadásához anélkül, hogy azokat billentyűzeten kellene begépelnie.

Mindezen kisvállalkozások nagy ambíciókkal rendelkeznek. Leginkább azonban azt tanulták meg, hogy nem minden felhasználó szeretné átvinni adatait az Amazonhoz, a Google-hoz, az Apple-hez vagy a Microsofthoz, amelyek a hangkommunikációs platformok kiépítésének legfontosabb szereplői.

Az amerikaiak vásárolni akarnak

2016-ban a hangalapú keresés az összes Google mobilkeresés 20%-át tette ki. Azok, akik ezt a technológiát napi szinten használják, a kényelmét és a többfeladatos munkavégzést a legnagyobb előnyök között említik. (például a keresőmotor használatának képessége autóvezetés közben).

A Visiongain elemzői az intelligens digitális asszisztensek jelenlegi piaci értékét 1,138 milliárd dollárra becsülik.Egyre több ilyen mechanizmus létezik. A Gartner szerint már 2018 végén interakcióink 30%-a technológiával a hangrendszerekkel folytatott beszélgetéseken keresztül.

Az IHS Markit brit kutatócég becslései szerint az AI-alapú digitális asszisztensek piaca ez év végére eléri a 4 milliárd eszközt, és ez a szám 2020-ra akár 7 milliárdra is emelkedhet.

Az eMarketer és a VoiceLabs jelentései szerint 2017-ben 35,6 millió amerikai használt legalább havonta egyszer hangvezérlést. Ez közel 130%-os növekedést jelent az előző évhez képest. Egyedül a digitális asszisztensek piaca várhatóan 2018%-kal fog növekedni 23-ban. Ez azt jelenti, hogy már használni fogja őket. 60,5 millió amerikai, ami konkrét pénzt fog eredményezni a termelőiknek. Az RBC Capital Markets becslése szerint az Alexa interfész 2020-ra akár 10 milliárd dollár bevételt is generál az Amazon számára.

Moss, süss, takaríts!

A hangos interfészek egyre bátrabban lépnek be a háztartási gépek és a szórakoztatóelektronikai piacra. Ez már a tavalyi IFA 2017 kiállítás alkalmával is meglátszott.Az amerikai Neato Robotics cég bemutatta például azt a robotporszívót, amely számos okosotthon platform egyikéhez csatlakozik, köztük az Amazon Echo rendszerhez. Az Echo intelligens hangsugárzóval beszélve utasíthatja a gépet, hogy a nap vagy éjszaka bizonyos szakaszaiban kitakarítsa az egész házat.

A bemutatón más hangvezérlésű termékeket is bemutattak, a török Vestel cég Toshiba márkanév alatt forgalmazott okostévéitől a német Beurer cég fűthető takaróiig. Sok ilyen elektronikus eszköz távolról is aktiválható okostelefonok segítségével.

A Bosch képviselői szerint azonban még korai megmondani, hogy a háziasszisztensek közül melyik lesz a domináns. Az IFA 2017 kiállításon egy német műszaki csoport mosógépeket (7), sütőket és kávéfőzőket mutatott be, amelyek az Echo-hoz csatlakoznak. A Bosch azt is szeretné, ha készülékei a jövőben kompatibilisek lennének a Google és az Apple hangplatformjaival.

7. Amazon Echo-hoz csatlakoztatható Bosch mosógép

Az olyan cégek, mint a Fujitsu, a Sony és a Panasonic saját mesterségesintelligencia-alapú hangasszisztens megoldásokat fejlesztenek. A Sharp hozzáadja ezt a technológiát a sütőkhöz és a piacra kerülő kis robotokhoz. A Nippon Telegraph & Telephone hardver- és játékgyártókat vesz fel egy hangvezérelt mesterséges intelligencia rendszer adaptálására.

Régi koncepció. Eljött végre az ő ideje?

Valójában a Voice User Interface (VUI) koncepciója évtizedek óta létezik. Bárki, aki évekkel ezelőtt nézte a Star Treket vagy a 2001: A Space Odyssey-t, valószínűleg arra számított, hogy 2000 körül mindannyian a hangunkkal fogjuk irányítani a számítógépeket. Ezenkívül nem csak a sci-fi írók látták meg az ilyen típusú interfészben rejlő lehetőségeket. 1986-ban a Nielsen kutatói megkérdezték informatikai szakembereket, hogy szerintük mi lenne a legnagyobb változás a felhasználói felületekben 2000-re. Leggyakrabban a hangos interfészek fejlesztésére mutattak rá.

Van okunk reménykedni egy ilyen megoldásban. A verbális kommunikáció végül is a legtermészetesebb módja annak, hogy az emberek tudatosan cseréljenek gondolatokat, így ennek használata ember-gép interakcióra tűnik eddig a legjobb megoldásnak.

Az egyik első VUI, az ún cipősdobozA 60-as évek elején hozta létre az IBM. Ez volt a mai hangfelismerő rendszerek előfutára. A VUI-eszközök fejlesztését azonban a számítási teljesítmény korlátai korlátozták. Az emberi beszéd valós idejű elemzése és értelmezése sok erőfeszítést igényel, és több mint ötven évbe telt, mire eljutott odáig, hogy ez valóban lehetségessé vált.

A hanginterfésszel rendelkező eszközök a 90-es évek közepén kezdtek megjelenni a tömeggyártásban, de nem váltak népszerűvé. Az első hangvezérléssel (tárcsázással) rendelkező telefon az volt Philips Spark1996-ban jelent meg. Ez az innovatív és könnyen használható eszköz azonban nem volt mentes a technológiai korlátoktól.

Rendszeresen megjelennek a piacra más, hangos interfésszel felszerelt telefonok (például RIM, Samsung vagy Motorola), amelyek lehetővé teszik a felhasználók számára, hogy hanghívással tárcsázzanak vagy szöveges üzeneteket küldjenek. Ezek mindegyike azonban megkövetelte a konkrét parancsok memorizálását és kényszerített, mesterséges formában, az akkori eszközök képességeihez igazodó kiejtését. Ez nagyszámú hibát generált, ami viszont a felhasználók elégedetlenségéhez vezetett.

Most azonban a számítástechnika új korszakába lépünk, amelyben a gépi tanulás és a mesterséges intelligencia fejlődése felszabadítja a beszélgetés lehetőségét, mint a technológiával való interakció új módjait (8). A hang interakciót támogató eszközök száma fontos tényezővé vált, amely nagy hatással volt a VUI fejlődésére. Ma már a világ lakosságának csaknem 1/3-ának van okostelefonja, amely alkalmas erre a fajta viselkedésre. Úgy tűnik, hogy a legtöbb felhasználó végre készen áll hangfelületének adaptálására.

8. A hanginterfész fejlődésének újkori története

Mielőtt azonban szabadon beszélhetnénk a számítógéppel, ahogyan azt az Űrodüsszeia hősei tették, számos problémát le kell küzdenünk. A gépek még mindig nem túl jól kezelik a nyelvi árnyalatokat. kívül sokan még mindig kényelmetlenül érzik magukat, ha hangutasításokat adnak egy keresőmotornak.

A statisztikák azt mutatják, hogy a hangasszisztenseket elsősorban otthon vagy közeli barátok körében használják. A megkérdezettek egyike sem ismerte el, hogy hangos keresést használt nyilvános helyeken. Ez a blokád azonban valószínűleg megszűnik a technológia elterjedésével.

technikailag nehéz kérdés

Az a probléma, amellyel a rendszerek (ASR) szembesülnek, az, hogy hasznos adatokat nyernek ki egy beszédjelből, és azt egy bizonyos szóhoz társítják, amelynek bizonyos jelentése van egy személy számára. Az előállított hangok minden alkalommal eltérőek.

A beszédjel változékonysága természetes tulajdonsága, aminek köszönhetően felismerünk például egy akcentust vagy intonációt. A beszédfelismerő rendszer minden elemének meghatározott feladata van. A feldolgozott jel és paraméterei alapján akusztikus modell készül, amely a nyelvi modellhez kapcsolódik. A felismerő rendszer működhet kis vagy nagy számú minta alapján, ami meghatározza a szókincs méretét, amellyel működik. Lehet, hogy azok kis szótárak az egyes szavakat vagy parancsokat felismerő rendszerek esetében, valamint nagy adatbázisok a nyelvi halmaz megfelelőjét tartalmazó és a nyelvi modellt (nyelvtant) figyelembe véve.

A hangos interfészek problémái elsősorban helyesen érti a beszédet, amelyben például gyakran teljes nyelvtani sorozatokat hagynak ki, előfordulnak nyelvi és fonetikai hibák, hibák, kihagyások, beszédhibák, homonimák, indokolatlan ismétlések stb.. Mindezen ACP rendszereknek gyorsan és megbízhatóan kell működniük. Legalábbis ezek az elvárások.

A nehézségek forrása a felismerő beszédtől eltérő akusztikus jelek is, amelyek a felismerő rendszer bemenetére kerülnek, pl. mindenféle interferencia és zaj. A legegyszerűbb esetben szükséged van rájuk kiszűr. Ez a feladat rutinszerűnek és egyszerűnek tűnik - elvégre a különféle jelek szűrésre kerülnek, és minden elektronikai mérnök tudja, mit kell tennie ilyen helyzetben. Ezt azonban nagyon körültekintően és körültekintően kell megtenni, ha a beszédfelismerés eredménye megfelel az elvárásainknak.

A jelenleg alkalmazott szűrés lehetővé teszi a beszédjellel együtt a mikrofon által felfogott külső zaj és magának a beszédjelnek a felismerést megnehezítő belső tulajdonságainak eltávolítását is. Sokkal összetettebb technikai probléma merül fel azonban, ha az elemzett beszédjel interferenciája ... egy másik beszédjel, azaz például hangos beszélgetések. Ezt a kérdést a szakirodalom ún. Ehhez már komplex módszerek alkalmazása szükséges, az ún. dekonvolúció (kifejtve) a jelet.

A beszédfelismeréssel kapcsolatos problémák ezzel nem érnek véget. Érdemes felismerni, hogy a beszéd sokféle információt hordoz. Az emberi hang a tulajdonos nemére, életkorára, különböző karaktereire vagy egészségi állapotára utal. Az orvosbiológiai mérnökök kiterjedt osztálya foglalkozik különféle betegségek diagnosztizálásával a beszédjelben található jellegzetes akusztikai jelenségek alapján.

Vannak olyan alkalmazások is, ahol a beszédjel akusztikus elemzésének fő célja a beszélő azonosítása vagy annak ellenőrzése, hogy ő az, akinek mondja magát (kulcs, jelszó vagy PUK kód helyett hang). Ez különösen az intelligens építési technológiák esetében lehet fontos.

A beszédfelismerő rendszer első összetevője az mikrofon. A mikrofon által felvett jelnek azonban általában nem sok haszna van. A tanulmányok azt mutatják, hogy a hanghullám alakja és lefutása személytől, beszédsebességtől, részben a beszélgetőpartner hangulatától függően nagymértékben változik - kis mértékben a kimondott parancsok tartalmát tükrözik.

Ezért a jelet megfelelően kell feldolgozni. A modern akusztika, a fonetika és az informatika együttesen olyan eszközök gazdag tárházát biztosítják, amelyek segítségével a beszédjelek feldolgozhatók, elemezhetők, felismerhetők és megérthetők. A jel dinamikus spektruma, az ún dinamikus spektrogramok. Meglehetősen könnyű megszerezni, és a dinamikus spektrogram formájában bemutatott beszédet viszonylag könnyű felismerni a képfelismerésnél használt technikákhoz hasonló technikákkal.

A beszéd egyszerű elemei (például parancsok) a teljes spektrogramok egyszerű hasonlóságáról ismerhetők fel. Például egy hangvezérelt mobiltelefon-szótár csak néhány tíz-néhány száz szót és kifejezést tartalmaz, általában előre egymásra rakva, hogy könnyen és hatékonyan azonosíthatók legyenek. Ez elegendő egyszerű vezérlési feladatokhoz, de súlyosan korlátozza az általános alkalmazást. A séma szerint felépített rendszerek általában csak olyan hangszórókat támogatnak, amelyekhez a hangokat speciálisan kiképezték. Tehát ha van valaki, aki a hangjával szeretné irányítani a rendszert, nagy valószínűséggel nem fogadják el.

Ennek a műveletnek az eredményét ún spektrogram 2-W, azaz egy kétdimenziós spektrum. Ebben a blokkban van még egy tevékenység, amire érdemes odafigyelni - szegmentálás. Általánosságban elmondható, hogy a folyamatos beszédjel külön felismerhető részekre bontásáról beszélünk. Csak ezekből az egyéni diagnózisokból születik meg az egész felismerése. Erre az eljárásra azért van szükség, mert egy hosszú és összetett beszédet nem lehet egyszerre azonosítani. Már egész köteteket írtak arról, hogy egy beszédjelben mely szegmenseket kell megkülönböztetni, így most nem fogjuk eldönteni, hogy a megkülönböztetett szegmensek fonémák (hangekvivalensek), szótagok vagy esetleg allofónok legyenek.

Az automatikus felismerés folyamata mindig az objektumok bizonyos jellemzőire vonatkozik. Több száz különböző paraméterkészletet teszteltek a beszédjelre felismert keretekre osztva és miután kiválasztott funkciókatahol ezek a képkockák megjelennek a felismerési folyamatban, elvégezhetjük (minden képkockára külön-külön) besorolás, azaz azonosító hozzárendelése a kerethez, amely a jövőben azt reprezentálja.

Következő szakasz keretek összeállítása külön szavakba - leggyakrabban az ún. implicit Markov-modellek modellje (HMM-). Aztán jön a szavak montázsa egészítsd ki a mondatokat.

Most egy pillanatra visszatérhetünk az Alexa rendszerhez. Példája az ember gépi "megértésének" többlépcsős folyamatát mutatja be - pontosabban: egy általa adott parancsot vagy egy feltett kérdést.

A szavak megértése, a jelentés megértése és a felhasználói szándék megértése teljesen más dolog.

Ezért a következő lépés az NLP modul () munkája, melynek feladata az felhasználói szándék felismerése, azaz a parancs/kérdés jelentése abban a szövegkörnyezetben, amelyben elhangzott. Ha a szándékot azonosították, akkor az úgynevezett készségek és képességek hozzárendelése, azaz az intelligens asszisztens által támogatott speciális funkció. Az időjárással kapcsolatos kérdés esetén időjárási adatforrásokat hívunk meg, amelyeket beszéddé kell feldolgozni (TTS - mechanizmus). Ennek eredményeként a felhasználó hallja a választ a feltett kérdésre.

Hang? Grafika? Vagy esetleg mindkettő?

A legtöbb ismert modern interakciós rendszer egy ún grafikus felhasználói felület (grafikus felület). Sajnos a grafikus felhasználói felület nem a legkézenfekvőbb módja a digitális termékekkel való interakciónak. Ez megköveteli, hogy a felhasználók először megtanulják a felület használatát, és minden további interakciónál emlékezzenek erre az információra. Sok helyzetben a hang sokkal kényelmesebb, mert egyszerűen az eszközhöz beszélve kommunikálhat a VUI-val. Az a felület, amely nem kényszeríti a felhasználókat bizonyos parancsok vagy interakciós módszerek memorizálására és memorizálására, kevesebb problémát okoz.

A VUI kibővítése természetesen nem jelenti a hagyományosabb interfészek elhagyását, hanem hibrid interfészek lesznek elérhetők, amelyek többféle interakciót egyesítenek.

A hang interfész nem alkalmas minden feladatra mobil környezetben. Ezzel felhívjuk egy autós barátunkat, sőt SMS-t is küldünk neki, de a legfrissebb átutalások ellenőrzése túlságosan nehézkes lehet - a rendszernek továbbított () és a rendszer (rendszer) által generált információ mennyisége miatt. Ahogy Rachel Hinman a Mobile Frontier című könyvében javasolja, a VUI használata akkor válik a leghatékonyabbá, ha olyan feladatokat hajt végre, ahol kicsi a bemeneti és kimeneti információ mennyisége.

Az internethez csatlakoztatott okostelefon kényelmes, de kényelmetlen is (9). Minden alkalommal, amikor egy felhasználó vásárolni szeretne valamit, vagy új szolgáltatást szeretne igénybe venni, le kell töltenie egy másik alkalmazást, és új fiókot kell létrehoznia. Itt létrejött a hangfelületek használatának és fejlesztésének tere. Ahelyett, hogy a felhasználókat arra kényszerítenék, hogy több különböző alkalmazást telepítsenek, vagy minden szolgáltatáshoz külön fiókot hozzanak létre, a szakértők szerint a VUI ezeknek a nehézkes feladatoknak a terhét egy AI-alapú hangsegédre hárítja majd. Kényelmes lesz számára, hogy megerőltető tevékenységeket végezzen. Csak parancsot adunk neki.

9. Hang interfész okostelefonon keresztül

Ma már nem csak egy telefon és egy számítógép csatlakozik az internethez. Intelligens termosztátok, lámpák, vízforralók és sok más IoT-be integrált eszköz is csatlakozik a hálózathoz (10). Így körülöttünk vannak vezeték nélküli eszközök, amelyek kitöltik az életünket, de nem mindegyik illeszkedik természetes módon a grafikus felhasználói felületbe. A VUI használatával könnyedén integrálhatja őket környezetünkbe.

10. Hang interfész a dolgok internetével

A hangos felhasználói felület létrehozása hamarosan kulcsfontosságú tervezői készség lesz. Ez valós probléma – a hangrendszerek bevezetésének szükségessége arra ösztönzi Önt, hogy jobban összpontosítson a proaktív tervezésre, vagyis próbálja megérteni a felhasználó kezdeti szándékait, előre jelezve igényeit és elvárásait a beszélgetés minden szakaszában.

A hang hatékony módja az adatok bevitelének – lehetővé teszi a felhasználók számára, hogy a saját feltételeik szerint gyorsan parancsokat adjanak ki a rendszernek. Másrészt a képernyő hatékony módot biztosít az információk megjelenítésére: lehetővé teszi a rendszerek számára, hogy egyszerre nagy mennyiségű információt jelenítsenek meg, csökkentve ezzel a felhasználók memóriájának terhelését. Logikus, hogy ezek egy rendszerbe való egyesítése biztatóan hangzik.

Az olyan intelligens hangszórók, mint az Amazon Echo és a Google Home, egyáltalán nem kínálnak vizuális megjelenítést. Jelentősen javítva a hangfelismerés pontosságát mérsékelt távolságokban, lehetővé teszik a kihangosított működést, ami viszont növeli a rugalmasságukat és a hatékonyságukat – kívánatosak még azoknak a felhasználóknak is, akiknek már van hangvezérlésű okostelefonjuk. A képernyő hiánya azonban óriási korlát.

Csak hangjelzéssel lehet tájékoztatni a felhasználókat a lehetséges parancsokról, és a kimenet hangos felolvasása a legalapvetőbb feladatoktól eltekintve fárasztó lesz. Az időzítő hangutasítással történő beállítása nagyszerű főzés közben, de nem szükséges megkérdezni, mennyi idő van még hátra. A rendszeres időjárás-előrejelzés lekérése memóriapróbává válik a felhasználó számára, akinek egész héten át kell hallgatnia és el kell fogadnia egy sor tényt, ahelyett, hogy egy pillantással felvenné azokat a képernyőről.

A tervezők már megtették hibrid megoldás, Echo Show (11), amely kijelzővel bővítette az alap Echo intelligens hangszórót. Ez nagymértékben bővíti a berendezés funkcionalitását. Az Echo Show azonban még mindig sokkal kevésbé képes ellátni azokat az alapfunkciókat, amelyek már régóta elérhetőek az okostelefonokon és táblagépeken. Például (még) nem szörfölhet a weben, nem jeleníthet meg véleményeket, vagy nem jelenítheti meg például az Amazon bevásárlókosár tartalmát.

A vizuális megjelenítés eleve hatékonyabb módja annak, hogy az emberek számára rengeteg információhoz jussunk, mint a hang. A hangprioritással történő tervezés nagymértékben javíthatja a hang interakciót, de hosszú távon a vizuális menü önkényes nem az interakció érdekében történő használata olyan lesz, mintha egy kézzel a háta mögé kötözve harcolnánk. A végponttól végpontig terjedő intelligens hang- és kijelzőfelületek bonyolultsága miatt a fejlesztőknek komolyan fontolóra kell venniük az interfészek hibrid megközelítését.

A beszédgeneráló és -felismerő rendszerek hatékonyságának és sebességének növelése lehetővé tette azok alkalmazását olyan alkalmazásokban és területeken, mint például:

• katonai (hangutasítások repülőgépeken vagy helikoptereken, például F16 VISTA),

• automatikus szövegátírás (beszéd szöveggé),

• interaktív információs rendszerek (Prime Speech, hangportálok),

• mobil eszközök (telefonok, okostelefonok, táblagépek),

• robotika (Cleverbot – ASR rendszerek mesterséges intelligenciával kombinálva),

• autóipar (az autóalkatrészek, például a Blue & Me kihangosított vezérlése),

• otthoni alkalmazások (okos otthoni rendszerek).

Vigyázz a biztonságra!

Az autóipar, a háztartási gépek, a fűtési/hűtési és otthoni biztonsági rendszerek, valamint számos háztartási készülék kezdi használni a gyakran mesterséges intelligencia-alapú hanginterfészt. Ebben a szakaszban a gépekkel folytatott több millió beszélgetésből nyert adatokat a címre küldik számítási felhők. Nyilvánvaló, hogy a marketingesek érdeklődnek irántuk. És nem csak őket.

A Symantec biztonsági szakértőinek közelmúltbeli jelentése azt javasolja, hogy a hangutasítást használók ne irányítsák a biztonsági funkciókat, például az ajtózárakat, nem is beszélve az otthoni biztonsági rendszerekről. Ugyanez vonatkozik a jelszavak vagy bizalmas információk tárolására is. A mesterséges intelligencia és az intelligens termékek biztonságát még nem vizsgálták kellőképpen.

Amikor az otthoni eszközök minden szóra figyelnek, a rendszer feltörésének és a visszaélésnek a veszélye óriási aggodalomra ad okot. Ha egy támadó hozzáfér a helyi hálózathoz vagy a hozzá tartozó e-mail címekhez, az okoseszköz beállításai módosíthatók vagy visszaállíthatók a gyári beállításokra, ami értékes információk elvesztéséhez és a felhasználói előzmények törléséhez vezet.

Más szóval, a biztonsági szakemberek attól tartanak, hogy a hangvezérelt AI és VUI még nem elég okos ahhoz, hogy megvédjen minket a potenciális fenyegetésektől, és tartsa be a szánkat, ha egy idegen kér valamit.