Hogyan működik a mesterséges intelligencia (AI)? Hogyan használható?

Cikkünkben a mesterséges intelligencia (AI) működési elveit, használatát, a használatához szükséges programokat ismerheted meg. Emellett beszélünk az AI veszélyeiről, arról, hogy miért tévednek gyakran ezek az algoritmusok, szó lesz a mesterséges intelligencia alapú chat, a ChatGPT és más alkalmazásokról. Témáink:

  • Mi az a mesterséges intelligencia (AI)?
  • Hogyan működik a mesterséges intelligencia?
  • Hogyan működik a gépi tanulás (Machine Learning)?
  • Classification algoritmusok
  • Regressziós eljárások
  • Clustering eljárások
  • Hogyan működik a mélytanulás (Deep Learning)?
  • Hogyan működik a megerősítő tanulás (Reinforcement Learning)?
  • Hogyan működik a természetes nyelvfeldolgozás (Natural Language Processing)?
  • A mesterséges intelligencia fejlesztéséhez szükséges programok
  • A mesterséges intelligencia használatához szükséges programok
  • A mesterséges intelligencia veszélyei
  • A mesterséges intelligencia előnyei
  • Közeleg az újabb AI tél (AI winter)?

Mi az a mesterséges intelligencia (AI)?

Angolul artificial intelligence (AI), azaz mesterséges intelligencia egy számítógépes algoritmus, program, mely képes az intelligens emberi viselkedést utánozni. A közvélekedéssel szemben az AI nem tud olyan módon gondolkodni, mint az ember. A mesterséges intelligencia nagy mennyiségű adatot elemezve, statisztikai algoritmusokat felhasználva keres összefüggéseket adatokban, és ezek alapján ad eredményt a felhasználóknak.

Az AI tehát nem működik nagy mennyiségű adatok nélkül, és az AI algoritmusai mögött olyan statisztikai eljárásokat kell érteni, melyeket már évtizedekkel ezelőtt kifejlesztettek. A mesterséges intelligencia azért lett mára ennyire népszerű téma, mert mostanra áll rendelkezésre óriási adatmennyiség szinte minden iparági területén, és a számítástechnikai kapacitás is olyan szintű, hogy ki tudja elégíteni a mesterséges intelligencia mögötti alkalmazások igényeit.

A mesterséges intelligencia tehát nem egy gondolkodó gép, hanem egy emberek által létrehozott statisztikai eljárásokkal adatokat elemző szoftver, mely a nagy adatmennyiségben képes összefüggéseket keresni, és ezek alapján előrejelzéseket készíteni, válaszokat adni.

Hogyan működik a mesterséges intelligencia?

A mesterséges intelligencia ma már különböző iparági területeken megtalálható. A google keresőjében, a youtube videók személyre szabott ajánló-listáiban, a facebook hírfolyam mögött, a közlekedésirányításban, az önvezető autókban, és legutóbb a nagy nyelvi modellek fejlesztése ért el egy olyan mérföldkövet, melyet az OpenAI ChatGPT modelljével ismert meg a világ. Bármelyik mesterséges intelligencia alkalmazásról beszélünk, mindegyik létrejöttének két feltétel van. Ezek az alábbiak:

  • Nagy mennyiségű adat
  • Egy betanítási technika, mely jellemzően statisztikai módszerekből áll

A „big data” korát éljük, azaz a vállalkozások, a kormányok az élet minden területén adatokat gyűjtenek a lakosság, vállalkozások döntéseiről. Amíg korábban a nagy adatmennyiség nagyrészt csak a pénzügyek, gazdasági adatok területén állt rendelkezésre, mára a kör a teljes iparágra kiterjed. Önmagában azonban az adat használhatatlan, az adatokat elemezni kell, és ezt a folyamatot nevezzük a mesterséges intelligencia betanításának. A betanításnak több módja közül az alábbiak a legismertebbek:

  • Gépi tanulás (Machine Learning)
  • Mélytanulás (Deep Learning)
  • Megerősítő tanulás (Reinforcement Learning)
  • Természetes nyelvfeldolgozás (Natural Language Processing)

Nézzük a fentieket részletesen.

Hogyan működik a gépi tanulás (Machine Learning)?

A gépi tanulás a legelterjedtebb módja a mesterséges intelligencia alkalmazások fejlesztésének. Ennek lényege, hogy a nagy adatmennyiségen különböző statisztikai eljárások segítségével összefüggéseket keresünk. Az algoritmus tehát óriási mennyiségű vizsgálatot végez, míg az összefüggések felfedezését követően a jövőre vonatkozó döntéseket, előrejelzéseket ad. Alapvetően három típusa van a gépi tanulásnak:

  • Unsupervised learning:
    • Clustering
  • Supervised learning:
    • Classification
    • Regression

A két főkategória között az a különbség, hogy a supervised learning olyan statisztikai eljárásokat tartalmaz, melynek során ismerik a fejlesztők az összefüggést és annak jövőbeni eredményét (rögtön mutatok példát). Az unsupervised learning során az algoritmus saját maga, különböző statisztikai eljárásokkal keres olyan összefüggéseket, melyekről a fejlesztőknek előzetesen nem volt tudomása. A fenti három módszercsalád természetesen nem különíthető el úgy, hogy egyik jobb, mint a másik. Mindegyik más, más feladatok feldolgozására alkalmas.

Classification algoritmusok

A classification algoritmusok jellemzően nem számok feldolgozásához köthetők, például egy levelező rendszerben annak eldöntése, hogy a levél spam vagy nem spam. De a gyógyászati célú képalkotás, betegség, tumor stb. felismerése is ebbe a kategóriába tartozik. Az algoritmus az adatokat felcímkézi, kategóriákba sorolja, és ezek alapján hoz döntést a vizsgált kérdésben.

A legismertebb statisztikai módszerek ebben a körben:

  • Classification Trees
  • Naive Bayes
  • Support Vector Machine Classification
  • Nearest Neighbors

A classification algoritmusra jó példa a spam szűrő. Egy mesterséges intelligenciát nem használó spam szűrő úgy nézett ki régebben, hogy volt egy szótár, melybe a fejlesztők felvitték a tiltott szavakat. Ha a program egyezést talált, azaz a levélben szerepelt a tiltott szó, akkor nem továbbította a felhasználónak a levelet, hanem a spam mappába irányította. Egy mesterséges intelligenciát alkalmazó algoritmus az előre elkészített szótár helyett figyeli a a felhasználók széles körét, a felhasználói aktivitást és ez alapján dönti el, hogy mi számít spam levélnek. Például a felhasználó azonnal kitörli a levelet vagy a felhasználó a spam mappába húzza a levelet. De ugyanígy jelezheti a felhasználói aktivitás azt is, hogy a levél nem spam, például a felhasználó rendszeresen levelet ír a levél feladójának. Ezek a lépések mind címkézésre kerülnek, és ez adja meg a spam szűrő válaszát.

Regressziós eljárások

A regressziós algoritmusok főként ott kerülnek felhasználásra, ahol számokkal kell dolgozni. Ilyen például a pénzügyek, gazdasági adatok és a mérnöki területek széles köre. A legismertebb regressziós eljárások:

  • Linear Regression
  • Nonlinear Regression
  • Support Vector Machine Regression
  • Gaussian Process Regression Regression Trees

A fentiek közül a lineáris regresszió példáján szemléltetjük a mesterséges intelligencia egyszerűsített működését. A lineáris regresszió jelentősége, hogy x változóból próbáljuk megjósolni y változó értékét. Ezért a múltbeli, statikus adatokon kivizsgáljuk a kapcsolatot x és y változó között, megkeressük az adatsorra legjobban illeszkedő egyenest, majd az egyenest használjuk a jövőben arra, hogy x változásában y jövőbeni értékét előre jelezzük. Képzeljünk el egy olyan döntéstámogatási rendszert, mely az adott ország foglalkoztatottságának változásával próbálja megjósolni az adott ország tőzsdéjének öt éves évesített hozamát. Ebben az esetben feltételezzük, hogy kapcsolat van a foglalkoztatottság bővülés és az ország tőzsdei társaságainak teljesítménye, részvényeinek hozama között. A kitalált példánkban tehát a foglalkoztatottság (x) és a következő 5 év évesített hozama (y) közötti kapcsolatot keressük a múltbeli adatokon. Az alábbi grafikonon látható a MatLab alatt elkészített lineáris regresszió eredménye (az adatok, melyeket betápláltam, kitaláltak).

A grafikonon a kék körök mutatják az összes múltbeli esetet, a piros vonal az esetekre legjobban illeszkedő egyenest. A módszer további lépése a megbízhatóság, az ún. korrelációs tényező (R2) kiszámítása lenne, de itt ebben az esetben szemmel is látható, hogy az illesztett egyenes közelében vannak a pontok, azaz magas R2, magas megbízhatóságú összefüggést találtunk a példánkban. Az alábbi adatok meg is erősítik a szemrevételezést, azaz 90,6% a megbízhatóság. Természetesen az adatokból jól látszik, hogy nagyon kevés esetet vizsgáltunk meg (19 megfigyelés), amely miatt a vizsgálat nem statisztikailag szignifikáns (lásd pValue nagyobb, mint 0,05).

Tegyük fel, hogy a vizsgálatunk 19 megfigyelés helyett több ezer megfigyelésen alapul és statisztikailag szignifikáns lett az eredmény. Ebben az esetben a jövőbeni előrejzések során x ismert, és y-t az egyenes segítségével az y értéktengelyre levetítve olvassuk le. Például a foglalkoztatottság az előző évben 4 százalékot nőtt (x = 0,04), akkor az egyenest levetítve az y tengelyre 0,086, azaz 8,6 százalékot kapunk. Tehát az algoritmus 8,6 százalékos évesített hozamot jelez előre a következő 5 évre a részvénypiacon.

Természetesen a lineáris regresszió a legegyszerűbb és sokszor nem pontos módja az előrejelzésnek. A fentiek tehát csak szemléltetési célt szolgálnak, hogy lássuk a mesterséges intelligencia mögött statisztikai módszerek húzódnak meg. A teljes képhez hozzátartozik, hogy egy-egy ilyen döntéstámogató rendszerben akár több száz a fentihez hasonló összefüggést is figyelembe vesz az algoritmus.

Clustering eljárások

A clustering eljárások olyan elemzési módszereket tartalmaznak, melynek során előre nem ismert a fejlesztők számára az alapvető összefüggés. A fenti példában volt egy előzetes elképzelése a fejlesztőnek (foglalkoztatottság és a tőzsdei hozamok kapcsolata), ugyanakkor a clustering eljárások során az adathalmazban keressük statisztikai módszerekkel a rejtett összefüggéseket, melyeket később felhasználunk a döntési folyamatban. A legismertebb módszerek:

  • Random forest
  • k-medoids clustering
  • Hierarchical clustering
  • Gaussian mixture models
  • Spectral clustering

Hogyan működik a mélytanulás (Deep Learning)?

A deep learning a gépi tanulás speciális formája. Az alapvető különbség, hogy amíg a gépi tanulásnál az adatokat nagyrészt manuálisan készítik elő, manuálisan hoznak létre kategóriákat, címkézési szabályokat, addig a deep learning során ez már automatikusan történik. Továbbá vannak olyan területek, elsősorban a képalkotás, ahol egy kategóriát nehéz leírni. Vegyük példaképpen egy autó felismerését. A gépi tanulás esetében az autó formája elsődlegesen definiálva van, egy kategóriához van rendelve, és ha ezzel egyezik az adat, akkor az algoritmus valóban autót fog azonosítani a képen. Azonban a gépi tanulásnál a nagyon sok megvizsgált kép alapján egy meghatározott valószínűséggel állapítja meg az algoritmus a látott tárgyat. Hol használják leginkább:

  • Önvezető technológiák
  • Űrkutatás, hadipar: objektumfelismerés
  • Egészségügy: betegségek felismerése képalkotó eljárások alapján
  • Ipar: biztonsági rendszerekben, melyek érzékelik a munkavállalókra veszélyt jelentő járműveket, eszközöket stb.

A legismertebb módszerek:

  • neural network
  • convolutional neural networks

Hogyan működik a megerősítő tanulás (Reinforcement Learning)?

A megerősítő tanulás az emberi tanulást mintázza, azaz a próbálkozunk, hibázunk, próbálkozunk.. (trial and error) eljárás alkalmazása, többnyire dinamikusan változó környezetekben. Amíg a gépi tanulás módszerei statikus adatokkal dolgoznak, addig a megerősítő tanulással eredményeket lehet elérni olyan adatbázisokon is, melyek folyamatosan változnak. A módszer lényege, hogy meghatároznak bizonyos teljesítménymutatókat, és az algoritmus addig próbálkozik az összefüggések keresésével, amíg a legjobb eredményt el nem éri. Dinamikusan változó környezetként képzeljünk el egy számítógépes játékot, egy sakkjátszmát, ahol az algoritmus próbálkozik, a lépésének lesz valamilyen következménye, amit megjegyez, majd sok száz, ezer próbálkozás után kitapasztalja a legjobb megoldást az adott helyzetben. A megerősítő tanulást a pénzügyek területén is alkalmazzák, klasszikus példája a mozgóátlagokon alapuló kereskedési stratégiák, ahol a statikus mozgóátlag értékek nem hoznak optimális eredményt, mert a piaci környezet változásához a mozgóátlag értékét igazítani kell időnként.

Hogyan működik a természetes nyelvfeldolgozás (Natural Language Processing)?

A természetes nyelvfeldolgozás a nagy nyelvi modellek (például ChatGPT) bemutatkozásával váltak ismertté. Érdemes tisztában lenni azzal, hogy a tőkepiaci, pénzügyi adatok algoritmikus feldolgozásának közel két évtizedes múltja van, azaz a ChatGPT bemutatkozása előtt is léteztek, és használtak hasonló algoritmusokat, nagyrészt a hírfeldolgozás, a hangulatmérés, a gyorsjelentések értelmezése területén. Én is beszámoltam többi ilyen vizsgálatról az elmúlt években, például a gazdasági adatok és a következő napok árváltozása közötti kapcsolat (lásd itt), a gyorsjelentések tartalmi változása és az árfolyam kapcsolata, illetve a gyorsjelentésekben előforduló negatív szavak és a jövőbeni hozam kapcsolata közötti összefüggések kutatása (lásd itt). Ezek a vizsgálatok mind a korábbi nyelvi modellek segítségével készültek.

A legegyszerűbbek egyszerűen szótárakat használnak, melyekben a vizsgálandó szavak, kifejezések felsorolásra kerülnek. A legkorábbi modellek a Harvard IV-4 szótárt használták erre a célra, de 2011-ben Loughran és McDonald összeállított egy specializált szótárt, mellyel sokkal pontosabban lehetett értelmezni a tőkepiaci tartalmakat. A szótárakat használó algoritmusok után a következő lépcsőfokot a Word2Vec és a Doc2Vec programok jelentették. Ezek már újabb, 2013-ban megjelenő nyelvfeldolgozási technikák, amelyeknél az algoritmus képes szóasszociációk megtanulására egy nagyobb szövegadatbázis segítségével. Ezek a modellek már képesek felismerni szavakat, kifejezéseket a betanítás után. A következő lépcsőfokot pedig a ChatGPT jelentette, ahol a betanulás után teljes mondatok, szövegek értelmezése vált lehetővé. A nagy nyelvi modellek pénzügyekre tanított változatát BERT néven találjuk meg, ennek módosított, gyorsjelentésekre, pénzügyi beszámolók értelmezésére készített változata az FtBert, FinBert. A témáról bővebben:

A mesterséges intelligencia fejlesztéséhez szükséges programok

Látható volt a fentiekből, hogy a mesterséges intelligencián alapuló alkalmazások nagyrészt statisztikai módszereket használnak. Ezen a területen három ismert alkalmazást lehet megemlíteni. Az egyik a Matlab, mely egy fizetős program, ennek alternatívája az R statisztikai program, mely ingyenes és nyílt forráskódú, és egy óriási közösség áll mögötte, azaz a különböző statisztikai módszerek is beszerezhetők hozzá. A fentieken túl a programozási részhez a Python a leginkább ismert programnyelv.

A mesterséges intelligencia használatához szükséges programok

Hol vannak azok az alkalmazások, melyeket az átlagos felhasználó igénybe vehet? Nos, a fentiekből látható volt, hogy a mesterséges intelligencia alkalmazások iparágak széles körében jelen vannak már napjainkban is. Amikor google keresést indítunk, amikor rápillantunk a youtube, a netflix videóajánlóira, vagy amikor nem találjuk a spam leveleket tucatját a bejövő üzeneteink között. Ugyanakkor a felhasználók többsége a ChatGPT típusú, tanácsadó jellegű alkalmazásokat szeretne igénybe venni. Ezek többsége ingyenesen korlátozottan használható, és számos új fejlesztés indult különböző tudományterületekre specializálva.

A mesterséges intelligencia veszélyei

Túl azon, amit a Terminátor filmben láttunk, a mesterséges intelligencia alkalmazásának valóban vannak veszélyei. Ha a jelenlegi fejlettségi szintet nézzük, akkor a „mesterséges intelligencia elpusztítja az emberiséget” típusú kijelentéseknek nem sok valóságalapja van, sokkal inkább a távoli jövő problémája, sci-fi. Ugyanakkor vannak valós veszélyek:

  • Számos munkahely veszélyben van a mesterséges intelligencia térnyerése miatt
  • Nemcsak az alacsonyabb, hanem a magasabb képzettséghez kötött szakmák területei is veszélyben vannak
  • A mesterséges intelligencia csak annyira megbízható, amennyire a mögötte levő adatok megbízhatók. Ezért a mesterséges intelligencia tévedhet.
  • Jogi aggályok merülhetnek fel a természetes nyelvfeldolgozás módszerei mögött, hiszen ha a jövőben az AI minden tartalmat elfogyaszt és összegezve visszaad a felhasználóknak, akkor a szerzők miért fognak új kutatásokat, tartalmakat készíteni, ha abból anyagi előnyük nem lesz.
  • A mesterséges intelligencia üzemeltetése, betanítása költséges, a beruházás igénye, hardverigénye, erőforrásigénye magas. A mesterséges intelligencia nem lesz olcsó, így nem mindenki férhet hozzá, azaz növelheti a társadalmon belüli egyenlőtlenséget.

A mesterséges intelligencia előnyei

A mesterséges intelligencián alapuló alkalmazások számos előnyét élvezhetjük már a napjainkban is. Többek között, nem kell naponta bajlódnod a beérkező néhány tucat spam levél miatt, kevesebb embert vernek át csalók, jobb minőségű tartalmakat, számodra releváns tartalmakat ajánl a youtube, a netflix, a facebook (ez néha erősen megkérdőjelezhető.). A vállalkozások számára sokkal jobb célzási lehetőség a hirdetéseknél, hatékonyabb, gyorsabb ügyfélszolgálat létrehozása, vállalati csalások, visszaélések megelőzése, hatékonyabb készletezés, gyártási folyamatok stb.. Azok az országok, melyek meg tudják fizetni, az egészségügyi szolgáltatásokban tapasztalhatnak minőségi javulást, például gyorsabb betegségfelismerés, nagyobb arányban felderített rosszindulatú megbetegedések a képalkotó eljárások alapján. A közlekedésben kevesebb dugó kialakulása, kevesebb baleset stb.. Összességében növekvő termelékenység, mely gazdasági növekedéshez vezet, és ahogy erről egy korábbi cikkben beszéltünk a fejlett országok esetében a gazdasági növekedés már nehezen fokozható a munkaerőkereslet fokozásával, mert nincs munkaerő (lásd itt).

Közeleg az újabb AI tél (AI winter)?

Kevesen vannak tisztába azzal, hogy a mesterséges intelligencia kifejezés már 1956-ban megszületett, ahogy erről a Dartmouth Egyetem egyik leirata is tanúskodik. Az ezt követő időszak nagyrészt még csak a rendszerek általános felépítésével teltek. Ekkor született meg Herbert Simon általános problémamegoldó (General Problem Solver) elképzelése, és a módszerek többsége a heurisztikus keresésen, problémamegoldáson alapult.

Egészen az 1970-es évekig tartott a fellendülés időszaka, és elsődlegesen a kormányzat és a hadsereg támogatta a kutatásokat, fejlesztéseket. Majd 1973-ban publikálták a Lighthill-jelentést, mely rámutatott arra, hogy az elért eredmények köszönőviszonyban sincsenek a beígért hatásokkal. Ennek nyomán a kormányzat és a hadsereg is csökkentette az AI fejlesztésre szánt összeget. Ezzel kezdetét vette az első AI winter időszaka, amely az 1970-1980-as évek közötti időszakot öleli fel.

Ebben az időszakban látványosan megálltak a fejlesztések, a média, a kutatók és a befektetők is más sztorikkal kezdtek el foglalkozni. Az újabb hype-ot az 1980-as évek hozták el. Ebben az időszakban terjedtek el a számítógépek és a vállalati döntéshozatalban számos programot, különböző szakértői programokat dolgoztak ki. Nagyrészt döntési folyamatokban alkalmazták ezeket. Itt már a kormányzat és a hadsereg mellett a magánvállalkozások is rengeteg pénzt fordítottak kutatásra, de az AI az 1990-es évekre elérte a korlátait. A tárhely, a számítási kapacitás akkoriban még sokkal drágább volt, a vállalatok internet hiányában zárt rendszerben működtek, és a legkorszerűbb AI megoldásokat helyettesíteni lehetett egyszerű if/and logikával működő programokkal (sok esetben ez még ma is igaz). Az 1990-es évekre eljutottunk oda, hogy az AI kifejezés felkerült a tiltólistára a vállalati, kutatói életben, mert széles körben elfogadott nézet volt, hogy az AI nem működik. Helyette kereső algoritmus, operációkutatás, üzleti modellezés stb.. kifejezések terjedtek el.

forrás: https://jaylatta.net

Végül eljutottunk 2010-es évekig, amikor az ImageNet mélytanuláson alapuló képfelismerő alkalmazása nagyobb médiafigyelmet kapott. Az eredeti kutatási anyag 2012-ben jelent meg (lásd itt). Ezzel megkezdődött az újabb AI hype, és innentől kezdve már ismét divat lett az AI szó használata, így ne is lepődjünk meg az AI-csengőhang, az AI-porszívó, -távirányító stb.. kifejezések használatán, azaz ma már ha egy algortmusban szerepel egy „if” logikai kapcsolat, akkor AI jelzővel illetik a fejlesztők.

Ráadásul a legnagyobb amerikai cégek óriási pénzeket fordítottak az AI területén kutatás fejlesztésre, bár többségük döntését a FOMO motiválta semmint konkrét elképzelések.

Ezzel tehát eljutottunk az újabb, harmadik nagy AI hype időszakába, amely először csak a kutatásokban, majd a médián keresztül a ChatGPT bemutatkozásával széles társadalmi körben ismertté vált. Azóta pedig napról napra olvashatjuk különböző szakértők jóslatait, felfokozott várakozásait. Befektetési bankházak vezérigazgatóinak (lásd portfolio.hu cikkét) várakozásaival van tele a gazdasági média (okokat könnyen megérthetjük, ha megnézzük a megszólalók részvénykitettségét). A kérdés csak az, hogy tényleg ezek a túlzónak tűnő jóslatok realizálódnak a jövőben, vagy ahogy a múltban is tapasztaltuk, elérjük az új módszerek korlátait, és az AI fejlődési szakaszában ismét egy AI tél időszak következik be. A továbbiakban ezt a témát tekintjük át.

Mielőtt tovább lépnék, először beszéljük meg, hogy mi a mesterséges intelligencia definíciója. Az egyik leggyakrabban hivatkozott definíciót Geoffrey De Smet fogalmazta meg, aki szerint a mesterséges intelligencia egy problémára nemdeterminisztikus választ tud adni egy elfogadható hibahatáron belül. A válasz ebben az értelemben tehát matematikai, statisztikai módszereken alapul, melyek alá elsődlegesen a gépi tanulás különböző típusait soroljuk (lásd itt). Ugyanakkor az ImageNet példájából is látható, hogy a 2010-es évek utáni időszak a deep learning (mélytanulás) módszerek sikereiről szóltak (ChatGPT működése is ezen alapul), és jelenlegi jövőbe mutató túlzásnak tűnő várakozások a deep learning közelmúltbeli sikereinek jövőbeni kivetítései.

Bár a híreket olvasva az a benyomásunk lehet, hogy a mesterséges intelligencia úgy gondolkodik, ahogy az emberek, és végtelen tudásával képes elvont módon gondolkozni, de ezek a várakozások nagyon távol vannak a valóságtól. Ma a mesterséges intelligencia név alatt elérhető összes alkalmazás statisztikai módszereket alkalmazva hoz döntést, mely az emberi döntéshozatal szimulációja, de semmi köze az elvont gondolkodáshoz.

A fentiekben már utaltam rá, hogy a jelenlegi felfokozott várakozás a mélytanulás algoritmusában elért sikereken alapul. A mélytanulás alapja a neurális hálózat, mely az emberi neurális hálózatból vett mintán, ötleten alapul (idegek aktiválása). Ennek a neurális hálózatnak alapvetően három eleme van. Az egyik a bemeneti réteg (input), mely a környezetből érkező adatokat tartalmazza. A rejtett rétegben (hidden layer) kerül az információ feldolgozásra, itt keresi meg a kapcsolatokat az algoritmus, hogy megadja a kimeneteli rétegben (output) az eredményt.

forrás: Deep Learning: A Critical Appraisal

A mélytanulást jellemzően képek, hangok, szövegek feldolgozásánál használják, azaz önvezető technológiákban, beszéd és képfelismerés, szövegértelmezés során. A mélytanulás adja a gépek fülét és szemét ebben az értelemben. Azonban egy gép számára a legegyszerűbb feladatok is óriási számításai kapacitással, betanítási idővel járnak.

Elég, ha csak arra gondolunk, hogy kézzel írott számokat kell felismerünk (a példa innen származik). Az alábbi ábrán egy kézzel írt 9-es számot láthatunk egy 28x28 mezőben, ahol minden egyes mező eltérő árnyalatú lehet.

A fenti példában a bemeneti réteg így azonnal ad 784 mezőt, melyek eltérő árnyalatúak lehetnek (az első információ az árnyalat, aktiválás). Természetesen egy kézzel írt számnak nemcsak az árnyalata fontos, hanem az egyes mezőkben levő alakzatok formája, így kerül felbontásra egy 9-es például egy 0 számra és l betüre, lásd alábbi képen.

Az alábbi képen pedig a 0 és az l kerül felbontásra.

Végül pedig az alábbi képen szemléltetve van, hogy a bemeneti kép az egyes rétegekben (hidden layer), hogy kerül tárolásra, és a felismerés során a fenti kapcsolódások eredményezik azt, hogy a számítógép nagy valószínűséggel megállapítja, hogy a képen egy 9-est, autót vagy bármi mást lát.

A mélytanulás tehát nem gondolkodás, hanem a kategorizálás, a térképezés automata módja. Ezen az elven működnek az önvezető programok, a beszédfelismerés, a kép és videófelismerés, beszédértelmezés, -generálás(lásd ChatGPT). Az emberi gondolkodással szemben az alapvető különbség, hogy amíg egy embernek megmutatják, hogyan néz ki egy kilences szám, addig az algoritmusnak ehhez több ezer képre van szüksége, hogy a jövőben képes legyen meghatározni a leírt számot.

Könnyen belátható, hogy a fenti módszernek vannak korlátai, melyekbe a jövőben előbb utóbb bele fogunk ütközni. Ezeket a korlátokat Gary Marcus a Cornell Egyetem professzora a Deep Learning: A Critical Appraisal cím alatti tanulány foglalja össze.

A fentiek lényege röviden, hogy a mélytanulás egy speciális problémakör megoldására alkalmas. Ez a kategorizálás, ahogy a fenti bekezdésben erre példákat mutattam. Tehát a mélytanulás csak egy módszer a sok közül és nem alkalmazható számos probléma megoldása során, tehát nem általános jellegű problémamegoldó. A mélytanulás tehát nagyon messze van az általános, ember módjára gondolkodó mesterséges intelligenciától.

A mélytanuláshoz nagyon sok adatra van szükség. Amíg az emberek egyszerűen megtanulnak összefüggéseket, addig az algoritmusnak ehhez milliónyi képre, videóra, hanganyagra van szüksége, és a közvélekedéssel szemben nincs végtelen mennyiségű adat, nincs végtelen mennyisűg hardver, energia a betanításra, és az azt követő tesztelésre. Ez tehát azt jelenti, hogy számos jövőbeni probléma esetén ilyen jellegű korlátokba is beleütköznek a fejlesztők. Arra is legyünk tekintettel, hogy a statisztikai módszereknek vannak korlátai. Ugyanis a legtöbb algoritmus alapja a korreláció keresése, de számos példa rámutat arra, hogy a korreláció nem egyenlő az ok-okozattal (lásd itt).

Példaképpen nézd meg az alábbi összefüggést, mely a medencébe fulladó emberek száma és Nicolas Cage filmszerepei között is közepesen magas (R2 =0,66) korrelációt mutat ki.

forrás: tylervigen.com

Illetve a margarin egy főre jutó fogyasztása és a válások aránya között is erős korreláció (0,99) mutatható ki.

forrás: tylervigen.com

Gary Marcus példaként említi meg, hogy a mélytanulás rendszere nagyon gyorsan korrelációt talál a testmagasság és a szókincs között. Ez azonban nem azt jelenti, hogy a magasabb emberek választékosabban beszélnek, hanem ahogy a gyerekek növekednek, úgy bővül a szókincsük, így valóban korrelációt találunk a testmagasság és a szókincs között, de a kettő között nincs oksági kapcsolat. A mélytanulás ráadásul korlátokba ütközik az olyan helyzetekben, amikor dinamikusak a szabályok, és amíg egy önvezető autó jól elboldogul a milliónyi képen betanult közlekedési jelekkel, de ha ezek a szabályok megváltoznának, akkor újabb milliónyi adat lenne szükséges a betanításukra. Ehhez tegyük hozzá, hogy a megerősítő tanulás ezt a problémát át tudja hidalni (a témával kapcsolatos előadásunkon példát mutatok erre, lásd itt).

Összegezve a fentieket, a 2010-es éveket követően a mélytanulás algoritmusa eljutott abba a fázisba, hogy számos gyakorlati problémát meg lehet vele oldani. Ez azonban messze áll egy általános mesterséges intelligenciától, és a sajtóban megjelenő felfokozott várakozások nagyrészt a mélytanulás lehetséges jövőbeni sikereinek eltúlzásán alapulnak. Ugyanakkor a mélytanulásnak vannak korlátai. Statisztikai módszereken alapul, és ennek semmi köze az elvont, emberi gondolkodáshoz. Elmondható, hogy nem működik hatékonyan, ha nem áll rendelkezésre elegendő adat, és korlátokba ütközünk akkor is, ha gyakran jelennek meg új adatok. Példaképpen gondoljunk arra, hogy a közlkedési táblák jelzéseit minden hónapban változtatjuk. Értelemszerűen ilyen nincs a valóságban, de a pénzügyek, gazdaság területén a szabályok, összefüggések nem állandóak. Sajnos azonban a felfokozott várakozások csalódásokhoz is vezethetnek, így olyan események is bekövetkezhetnek, melyekre a múltban is volt példa (AI winter).

Kapcsolódó téma:

Ha kérdésed van a fentiekkel kapcsolatban, hozzá szeretnél szólni a témához, csatlakozz facebook csoportunkhoz ide kattintva!

Tanfolyamaink:

Új tartalmak