A nyelvi modellek előretekintési torzításai, előrejelzési hibái

Az olyan nagy nyelvi modelleket, mint a ChatGPT nemcsak szövegek, tartalmak értelmezésére, létrehozására használják felhasználók, hanem előrejelzéseket is készítenek vele. Egy új vizsgálat azonban arra mutatott rá, hogy ezek az előrejelzések a tesztelések során (mintán belül) pontosabbak, mert a jövőbeni információk „beszivárognak” a modellbe. Cikkünkben a vizsgálat részleteit beszéljük meg. Témáink:

  • A nagy nyelvi modellek és az előrejelzés
  • Az előretekintési torzítás és az előrejelzés

A nagy nyelvi modellek és az előrejelzés

Az elmúlt hónapokban több esetben is beszámoltunk arról, hogy a nagy nyelvi modelleket előrejelzésre is lehet használni. Például Fieberg és szerzőtársai (2023) kimutatták, hogy a ChatGPT képes olyan befektetési tanácsokat adni a rendelkezésére álló információk alapján, melyet a hagyományos befektetési tanácsadók adnának (részletek itt). Lopez-Lira és Tang (2023) kutatásából pedig az derült ki, hogy a ChatGPT az előző modelleknél sokkal nagyobb pontossággal tudta megállapítani a megjelenő hírek társaságra gyakorolt negatív, pozitív árhatásait (cikkünk a témában itt). Chapados (2023) a tőzsdei gyorsjelentések értelmezésére használta fel a Bert pénzügyi adatok értelmezésére betanított változatát, és felülteljesítő stratégiát tudott ez alapján összeállítani (itt beszéltünk erről). A fenti pozitív vizsgálatok ellenére valódi piaci körülmények között eddig nem tapasztalhattuk a mesterséges intelligencián alapuló rendszerek előnyeit. A témával kapcsolatban 27 kutatást tekintettük át korábbi cikkünkben. Ezek nagyrészt olyan intézményi befektetők eredményeit vizsgálták, melyek mesterséges intelligencia segítségével értek el eredményeket. A végkövetkeztetések:

  • Nincs bizonyíték arra, hogy bármely gépi tanuláson alapuló algoritmus, befektetési alap kiemelkedő hozamot biztosított volna.
  • Minden vizsgált alap alulteljesítette a benchmarkként használt tőzsdeindexeket.

Újabban pedig már több kutatási anyagot is találunk az AI tévedésének okaival kapcsolatban. Ezek közül Frank (2023) kutatása a részvénypiaci elemzők és a mesterséges intelligencián alapuló elemzések összevetésén alapult. Ahogy erről korábbi cikkünkben beszámoltam a mesterséges intelligencián alapuló rendszerek előnye az emberekkel szemben, hogy amíg az emberek kognitív torzítások sokaságát követik el előrejelzéseik, döntéseik során, addig ez egy alogritmustól nem várható. A fenti vizsgálat azonban arra mutat rá, hogy az algoritmus is követ el kognitív torzításokat. Egy újabb, a napokban megjelent publikáció pedig további problémákat talált. Ez az előretekintési torzítás, melynek lényege, hogy egy döntést olyan információ alapján hoznak meg, amely nem volt elérhető vagy ismert az adott időpontban, amikor a döntést valójában meghozták volna. Ez a torzítás hamis elképzeléseket és hibás döntéseket eredményezhet.

Az előretekintési torzítás és az előrejelzés

Ahogy fentebb látható volt, a nagy nyelvi modelleket a gazdasági élet számos területén használják előrejelzésre. Intenzív kísérleteket láthatunk a tőzsdei társaságok gyorsjelentései, nagy mennyiségű hírek alapján a piaci hangulat előrejelzése, a gazdasági növekedés előrejelzése területén, de a társadalomtudományok más területei is láthatunk vizsgálatokat, például a választások győzteseinek előrejelzése életrajzi adatok alapján.

Sarkar és Vafa néhány héttel ezelőtt megjelent anyagában leírja annak a lehetőségét, hogy a nagy nyelvi modellek által készített előrejezéseket eltorzíthatja az, hogy a múltbeli adatokon végzett vizsgálatokba „beszivárognak” a jövőbeni információk. A problémát az alábbi példával szemléltették. Az alábbi képen az egyik nagy nyelvi modellnek (Llama 2-70B verzió) adtak utasítást arra, hogy a 2019. szeptember 5-én megjelent Zoom Inc gyorsjelentése alapján készítsen kockázatelemzést a céggel kapcsolatban úgy, hogy kizárólag a gyorsjelentés adataira támaszkodik a modell.

forrás: Sarkar és Vafa (2024)

Az alábbi képen olvashatjuk a nyelvi modell elemzését, melyben erős utalást találhatunk a Covid-19 járványra, az otthoni munkavégzésre. Ugyanakkor a koronavírus járvány tényleges kitörése fél évvel későbbre tehető, azaz az előrejelzésbe bekerült olyan információ, mely az adott pillanatban a valóságban nem állt rendelkezésre. Emiatt felmerül annak a lehetősége, hogy a modell pontosabb előrejelzést tudott adni a tesztelés során, de kizárólag azért, mert rendelkezett jövőbeni információkkal.

forrás: Sarkar és Vafa (2024)

A fentiek miatt a múltbeli adatokon (mintán belül, in sample) végzett tesztelések jobb eredményeket mutathatnak, mint a valóságban (mintán kívül).

A fenti egyetlen példa mellett szélesebb adatkörön is megvizsgálták, hogy milyen nagyságrendben, milyen mértékben torzítja el az előrejelzéseket a jövőből beszivárgó információ. Ehhez összesen 1000 társasági gyorsjelentést használtak fel, melyek 2018. szeptember 1. és 2018. november 30. között kerültek publikálásra, és a nyelvi modellnek azt az utasítást adták, hogy készítsen kockázati előrejelzést az adatok alapján a 2019-es évre. Ahogy erről az alábbi grafikon tanúskodik, a járvány kitörése előtti évben 6-8 százalék közötti gyakorisággal említette meg a nyelvi modell a járványt, mint kockázati tényezőt.

forrás: Sarkar és Vafa (2024)

A fentiekhez hasonló eredményre jutottak a szerzők abban az esetben, amikor a kongresszusi választások győzteseit jelezték előre a nyelvi modellel életrajzi adatok alapján. Ezekbe az előrejelzésekbe is beszivárogtak az előrejelzés pillanatában nem létező adatok.

A fentiek arra mutatnak rá, hogy a hagyományos előrejelzési technikák teszteléséhez képest sokkal könnyebb tesztelési hibákat elkövetni a nyelvi modellekkel. Ennek pedig az lesz az eredménye, hogy a tesztelési adatokon magas megbízhatóságot, jó előrejelző képességet látunk, de ez csak azért van, mert a jövőbeni adatok beszivárogtak a tesztelésbe. Amíg egy hagyományos technika esetében a mintán belüli (in sample) és mintán kívüli (out of sampe) tesztelések mellett a robusztussági vizsgálatok is segítségünkre lehetnek (részletek itt), addig a nyelvi modellek esetében a betanításra használt adatokat kell megfelelően kezelni. Ez tehát azt jelenti, hogy a teszt készítésekor nem tartalmazhat a modell az előrejelzésnél újabb szöveges információt. Ennek technikai kivitelezésére azonban nincsenek tökéletes eljárások jelenleg. Kísérletek azonban már vannak, például Schweter és szerzőtársai (2022) olyan nyelvi modellt hoztak létre erre a célra, melyet 1914 előtti nyelvi adatokon tanítottak be. Hasonlóan járt el Manjavacas és Fontey (2021), akik 1450-1950 közötti szöveges adatokon tanították be nyelvi modelljeiket.

A fenti megoldásokkal van azonban egy fontos probléma. Nincsenek benne azok a statisztikai adatok, összefüggések, melyek alapján a modell pontos előrejelzést végezhetne. Gondoljunk csak arra, hogy egy 100 évvel ezelőtti szövegek nyilvánvalóan nem tartalmazzák azokat az összefüggéseket, melyekkel egy gyorsjelentésből pénzügyi kockázatokat elemezni, előrejelezni lehetne.

A probléma megoldását feltételezhetően az jelentené, hogy időcímkével ellátott nyelvi modelleket kellene használni a tesztelések során. Eszerint minden egyes év előrejelzését külön nyelvi modellel kellene elvégezni. A cikkben szereplő példánál maradva ez azt jelenti, hogy a 2019-es részvénypiaci kockázatok előrejelzésére olyan modellt kellene használni, mely csak 2018-ig tartalmaz adatokat, a 2020-as előrejelzés esetén pedig már olyan modellt, melyben a 2019-es év adatai is szerepelnek. A fentiek egyúttal azt is jelentik, hogy az elmúlt évben megjelent, a nyelvi modellek előrejelzési képességeivel foglalkozó vizsgálatok jelentős részét érinti a probléma, azaz a kimutatott jó eredményeket, mintán kívül nem tudják biztosítani.

Ha kérdésed van a fentiekkel kapcsolatban, hozzá szeretnél szólni a témához, csatlakozz facebook csoportunkhoz ide kattintva!

Tanfolyamaink:

Új tartalmak