Ember-robot interakció kutatás cégünknél
2019 nyarán megkeresett minket egy lelkes egyetemista. Balogh Marcell az Aalborgi Egyetemen folytat mesterséges intelligencia tanulmányokat. Ezen belül az ember-robot interakció kutatásával foglalkozik. Magyarországon keresett olyan gyakorlati helyet, ahol ezeket a mesterséges intelligencia technológiákat kutathatja.
Cégünk fejlesztése egy ember-robot interakció lebonyolítására képes voicebot, mely integrálható például humanoid robotokba, de bármilyen más platformba, mely tartalmaz mikrofont és hangszórót. Számunkra ezek az egyetemi kutatások rendkívül hasznosak. A mesterséges intelligencia kiváló lehetőségeket tartogat az emberiség számára.
Ezért fogadtuk nagy érdeklődéssel Marcell kutatását. A beszédfelismerés és-szintézis, alapvetően az ember-robot interakciók cégünk egyik fő fejlesztési területe.
Ebben a bejegyzésben Marcell kutatásait szeretném bemutatni.
Milyen problémát szeretnél megoldani?
„2010-től napjainkig a beszédfelismerés és a természetes nyelvfeldolgozás (NLP) alapvető funkcióvá vált az emberekkel kölcsönhatásba lépő rendszerek és gépek számára, és ezek a technológiai forradalmak új problémákat vetettet fel, például a beszelő azonosítása hang alapján.”
A természetes nyelvfeldolgozás a mesterséges intelligencia és a nyelvészet közös területe. A természetes nyelvek az emberek közötti kommunikáció során, évezredek alatt fejlődtek ki. A számítógépek számára azonban sok a nehezen értelmezhető elem. A nyelvtechnológia a nyelvészet, mesterséges intelligencia és a szoftverfejlesztés közös területe. Célja, hogy a technológiai eszközök segítségével tudják értelmezni a természetes nyelveket. A témáról bővebben: SZTE TTIK Informatikai Intézet; BME Automatizálási és Alkalmazott Informatikai Tanszék
Mi került kutatásod fókuszába?
„A gyakorlatom alatt arra összpontosítottam, hogyan implementálható egy beszélőt felismerő rendszer hang adatokkal betanított konvolúciós neurális hálózat felhasználásával. A beszélő felismerésének feladata az egyén azonosítási problémájának megoldása az egyedi hangminőségek jellemzői alapján.”
A konvolúciós (mesterséges) neurális hálózat egy információfeldolgozó eszköz. A mesterséges intelligencia technológiákhoz tartozik, lehetővé teszi a gépi tanulást. Az idegrendszer mintájára neuronokból épül fel, rendelkezik tanulási és előhívási algoritmussal. Erről bővebben: Mesterséges Intelligencia Elektronikus Almanach, 1.1. A neurális hálózat definíciója, működése.
Mi jelent nehézséget az egyén azonosításában egy ember-robot interakció során?
„A gépi tanulási tapasztalatok szerint a neurális hálók alacsony mintavételi hatékonyságot mutatnak az emberekhez képest, mivel óriási mennyiségű tanulási adatot vesznek igénybe a nagy teljesítmény elérése érdekében. A címkézett adatok gyűjtése azonban túl drága és időigényes feladat.
Ezért a megoldás az, hogy először megtanítsuk a gépet különbséget tenni az egyedi hangminőségek jellemzői között, majd az ember tanulási képességéhez mérve (valaki azonosítása a hangjának egyszeri meghallgatásával) azonosítjuk a beszélőt.
Az átviteli tanulás és a metrikus tanulás az aktív kutatás ígéretes területei a tanulási algoritmusok mintavételi hatékonyságának javítása érdekében. Ezek a megközelítések azon az intuíción alapulnak, hogy egy új feladat könnyen megtanulható különféle feladatok elvégzése után vagy azok bemutatása révén, mivel az előzetes ismeretek kihasználása hozzájárul a tanulás fejlesztéséhez.”
Milyen volt a fogadtatás az egyetemen?
„Tetszett a projekt a tanároknak! Elismerték, hogy nulláról implementáltam a neurális hálót és üdvözölték azt a módszert, ahogyan feldolgoztam a mintákat. Gépi tanulási oldalról is meg voltak elégedve. Egyetemi tanulmányaim szempontjából rendkívül előnyös választás volt a Netlife Robotics. Bátran ajánlom a csapatot más, robotika vagy szoftver szakos egyetemistáknak is. A humanoid robotika jelenleg egy nagyon pörgő terület, a cégnél pedig egyedülálló, úttörő fejlesztéseket végeznek.”
Milyen terveid vannak a továbbiakban?
„Eddig is a gépi tanulás, neurális hálókra specializáltam magam és ezen a vonalon folytatom a munkám. Főleg a generative modelek es a “trial and error” tanulás témakörökben. Jelenleg nincs konkrét projektem, de a tézisemet majd arról írom, hogy hogyan javítható a társalgó mesterséges intelligenciák (Siri, Google, ALexa, Cortana vagy épp a Netlife Robotics voicebot) felhasználói élménye automatikus vizuális tartalom generálás révén.
Egyetem után szívesen elhelyezkednék a Netlife Robotics-nál. Ezalatt a pár hónap alatt is nagyon sokat tanultam a gyakorlatba ültetett gépi tanulásról. Olyan munkát szeretnék, ahol lehetőségem van folyamatosan fejlődni.”
Marcell eredményeinek mi is nagyon örülünk, gyakorlatban abszolút hasznosítható megoldást ismertünk meg.