Startuoliai vienaragiai: technologijas pritaikė balso atpažinimui
2021.05.10
Temos: Startuolis.
Startuolis „SoundHound“, vystantis garso atpažinimo technologijas, vienaragio ribą (organizacijos vertė – didesnė nei 1 mlrd. JAV dolerių) peržengė 2018-ųjų pradžioje. Tai yra dar viena sėkmės istorija Jungtinėse Amerikos Valstijose, kur telkiasi daugiausiai startuolių vienaragių. Kaip muzikos atpažinimo programėlė pritraukė pasaulinių kompanijų investicijas, o pati organizacija tapo verta daugiau nei 1 mlrd. JAV dolerių? Taip pat domimės, kaip Lietuvoje būtų galima įgyvendinti tokias idėjas ir technologijas. Apie balso atpažinimo technologijų plėtojimo galimybes ir inovacijas Lietuvoje kalbiname dirbtinio intelekto strategą ir „Satalia Lithuania“ vadovą Domą Janicką.
Sėkmė aplankė sukūrus dirbtinio intelekto platformą
2005 m. įkurtos įmonės startas ir pirmas sukurtas produktas buvo programa, atpažįstanti muziką. Šioje nišoje „SoundHound“ turėjo aktyvų konkurentą „Shazam“ – jų sukurta programa muzikai atpažinti pasaulyje yra bene labiausiai paplitusi. Pirmuosius 12 veiklos metų „SoundHound“ investicijas pritraukdavo iš lėto, per dešimtmetį įmonei pavyko surinkti apie 165 mln. dolerių.
Norėdami keistis ir stipriau įsitvirtinti rinkoje, „SoundHound“ įkūrėjai pradėjo vystyti balsu valdomą dirbtinio intelekto platformą „Houndify“ – ji šiuo metu yra tapusi pagrindiniu startuolio plėtojamu produktu. Būtent šis produktas ir padėjo „SoundHound“ 2017 m. pritraukti milijonines investicijas, o 2018-ųjų pradžioje įkopti į startuolių vienaragių sąrašą. Prie investuotojų sąrašo prisijungė tarptautinė technologijų įmonė „Tencent Holdings“, rizikos kapitalo fondas „Walden Venture Capital“ ir kiti. Šiuo metu „SoundHound“ yra tapusi tarptautine įmone, kuri atidarė savo padalinius Kanadoje, Azijos ir Europos šalyse.
Pranašumas prieš konkurentus: išmanieji technologiniai sprendimai
„SoundHound“ įkūrėjas ir vadovas (CEO) Keyvanas Mohajeris yra įsitikinęs, kad jų kuriama kalbos atpažinimo technologija veikia greičiau ir efektyviau nei konkurentų dėl paties veikimo principo. „SoundHound“ technologija šifruoja tiesiai iš kalbos į reikšmę, todėl ji veikia kitaip nei „Google“ ar „Amazon“ kalbos atpažinimo produktai, kurie šifruoja iš kalbos į tekstą, o tada – iš teksto į reikšmę. Pašalinus teksto dalį šifruojant informaciją, anot „SoundHound“ įkūrėjo, procesas vyksta greičiau ir šiek tiek primena žmogaus smegenyse vykstančius suvokimo procesus. Įmonės įkūrėjas taip pat teigia, kad klientai išreiškia poreikį, jog „Houndify“ technologijos atpažintų ir kitas kalbas, pavyzdžiui, Europos šalių ar Kinijos, todėl tai yra įtraukta į jų ateities planus. Pasak K. Mohajerio, šiuo metu jie aktyviai dirba su 14-os kalbų pritaikymu balso atpažinimo technologijose.
Balso atpažinimo technologijos Lietuvoje
Aptariant sėkmės istorijas užsienyje, kyla klausimas, kaip Lietuva atrodo šiame balso atpažinimo technologijų kontekste? Pašnekovas Domas Janickas yra įsitikinęs, kad „kalbos apdorojimo technologijos tiek verslui, tiek individualiems vartotojams atveria didelių galimybių: pokalbių turinio transkribavimas realiuoju laiku, kontaktų su klientais analizavimas, vartotojų įgalinimas valdyti programinę įrangą balsu“, – teigia dirbtinio intelekto strategas, atkreipdamas dėmesį, kad visgi šie sprendimai yra lėčiau kuriami ar pritaikomi mažai vartotojų turinčiai kalbai. „Didžiausias iššūkis, kuriant dirbtinio intelekto sprendimus lietuvių kalbai atpažinti, yra viešų duomenų rinkinių, reikalingų apmokymams, trūkumas“, – dalijasi ekspertas, pridurdamas, kad viešų duomenų problema yra opi ir kitose dirbtinio intelekto srityse.
Pašnekovo manymu, Lietuvoje yra aktualių projektų, kurie aktyviai plėtojami balso atpažinimo srityje. Vilniaus universiteto Matematikos ir informacijos fakultetas su partneriais (vadovas prof. Laimutis Telksnys, projekto ekspertas Gediminas Navickas) plėtoja projektą „LIEPA“ – lietuvių kalbos atpažinimo variklį. Tai yra programinė įranga, kuri atpažįsta lietuvių šneką ir su ja susijusius sprendimus. D. Janickas išskiria ir „AAI Labs“, kurie dirba natūralios kalbos apdorojimo, kalbos atpažinimo ir supratimo srityse. Jie yra sukūrę virtualaus balso asistentą ir giliųjų neuroninių tinklų pagrindu pagrįstą kalbos atpažinimo sistemą. „Oxus.AI“ kuria kalbos analizę skambučių centrams, o „Google Cloud“ produktas „Speech-to-Text“ jau palaiko ir lietuvių kalbą, nors, anot pašnekovo, dar tikrai turi kur tobulėti.
Dirbtinio intelekto strategas Domas Janickas taip pat atkreipia dėmesį, kad „Finansų ministerijos paskelbtame Ekonomikos gaivinimo ir atsparumo didinimo priemonės aprašyme yra numatytos tiesioginės viešosios investicijos į lietuvių kalbos technologinių išteklių sukūrimą, užtikrinant atvirą prieigą prie integruotų lietuvių kalbos ir raštijos išteklių“, – dalijasi pašnekovas. Tai gali apimti nenorminės kalbos garsyną, tekstyną, žodžių vektorius, kalbos generavimo, sakinio lygmens nuorodų ir panašius sprendimus.
Organizuojate renginį?
Tuomet „bzn start” gali pasiūlyti puikią galimybę išviešinti Jūsų renginį ir padėti pritraukti potencialių dalyvių.