A ChatGPT használata csökkentheti a nyelvi sokféleséget, ami hosszú távon különféle káros következményekkel járhat.

Technológia

Írnál egy jó motivációs levelet, álláshirdetésre jelentkeznél vagy hivatalos választ kellene küldeni egy ügyintézés miatt? Ezekre a feladatokra, és persze még sok másra is, kiválóan alkalmasak az olyan szöveggenerátorok, mint az OpenAI-féle ChatGPT vagy a Google chatbotja, a Gemini. Olyannyira, hogy a legfrissebb statisztikák szerint az előbbit hetente mintegy 400 millióan használják világszerte, annak ellenére, hogy kínai riválisa, a DeepSeek is elkezdte rohamtempóban magához csábítani a felhasználókat. Az összes generatív AI-eszközt eddig közel hárommilliárdszor próbálták ki.

Ilyen adatok mellett nem csoda, hogy a Dél-kaliforniai Egyetem kutatói úgy kezdik a 2025 februárjában a preprinteket, vagyis tudományos bírálaton (peer-review) nem átesett tanulmányokat gyűjtő ArXiv portálon megjelent kutatásukat, hogy a ChatGPT, a Gemini és más csetbotok képében elérhető nagy nyelvi modellek veszélyeztetik a nyelvi sokféleséget. "Uniformizálják a nyelvet, csökkentik a nyelvi sokféleséget és megváltoztatják, ahogy a szövegeken keresztül megjelenítődnek a személyes tulajdonságok. Ezeknek a változásoknak az identitásra, a kultúrára és a méltányosságra is mélyreható következményeik vannak" - írta Linkedin-oldalán Zhivar Sourati, a Dél-Kaliforniai Egyetem doktori hallgatója, a tanulmány első szerzője.

A nagy nyelvi modellek tréningje során a cél, hogy a lehető legvalószínűbb folytatást biztosítsák bármilyen adott szöveghez. Ez a megközelítés azonban előnyben részesíti a domináns nyelvi struktúrákat és mintázatokat. Bár a felhasználók a promptolás révén finomíthatják a válaszokat, például megadhatják a kívánt nyelvi stílust, a kutatók úgy vélik, hogy ez nem orvosolja a rendszer alapvető korlátait. Sőt, fennáll a veszélye annak, hogy a nyelvhasználat homogenizálódik, ami már most is megfigyelhető a gyakorlatban.

A téma alaposabb megértéséhez négy különböző kutatás eredményeit elemezték. Az első vizsgálat célja az volt, hogy feltárja, miként alakult át az írásmód különféle platformokon a nagy nyelvi modellek megjelenése óta. A második kutatás rámutatott, hogy a ChatGPT és hasonló eszközök használata az ember által írt szövegek finomítására jelentősen csökkenti a nyelvi sokszínűséget, miközben a tartalom lényegében változatlan marad. A harmadik kutatás arra összpontosított, hogy mennyire nehéz az írásból következtetni a személyiségjegyekre, ha azt egy nagy nyelvi modell alakítja át. Végül a negyedik kutatás feltárta, hogy a nagy nyelvi modellek erőteljesen gyengítik a nyelvi mintázatok és a személyes jellemzők közötti összefüggéseket, ami potenciálisan átalakíthatja a nyelv és az identitás viszonyát.

A kutatás első részében Sourati és társai három különböző adatforrást választottak ki a szövegek gyűjtésére. Először is a Reddit egyik aloldalán (r/WritingPrompts) gyűjtötték a hozzászólásokat. Több mint 310 ezer, 2018 január és 2024 novembere között keletkezett történetet szedtek össze, amelyek nyelvi és stilisztikai megkötések nélkül tartalmazták a felhasználók saját kreatív történeteit.

A kutatás során a szakértők több forrást is felhasználtak, köztük a Patch News nevű amerikai híroldal-aggregátort, amely helyi híreket szolgáltat az Egyesült Államok ötven államának 488 megyéjéből. Ez a platform közel 20 ezer szerző írásait fogadja folyamatosan, így a cikkek stílusa sokkal szabadabb és változatosabb, mint a nagyobb híroldalak esetében, lehetőséget adva az egyéni hangok sokszínűségének kifejeződésére. A kutatók 2018 januárja és 2023 novembere között közel 380 ezer cikket gyűjtöttek össze ebből a forrásból. Ezen kívül az ArXiv online adatbázis is fontos szerepet játszott a kutatásban, ahol a tudósok olyan tanulmányokat osztanak meg, amelyek még nem estek át tudományos ellenőrzésen (peer review). A kutatók összesen több mint 80 ezer tanulmány absztraktját elemezték 2018 januárjától 2024 novemberéig.

A kutatás kezdeti szakasza rávilágít arra, hogy a ChatGPT debütálása óta drámai mértékben csökken a nyelvi sokféleség ezen platformokon. Az írások stílusa fokozatosan szűkül és egységesedni kezdett, ami aggasztó trendet mutat a kifejezésmódok terén.

A nyelvi variabilitás rengeteg plusz információt hordoz az egyénekről és a közösségekről egyaránt. Az, hogy ki milyen kifejezéseket, szavakat, mondatszerkezeteket használ, utalhat a földrajzi tájegységre, ahonnan az illető származik, a társadalmi státuszára, az iskolázottsági szintjére, azokra a kisebb-nagyobb társadalmi, kulturális, generációs csoportokra, amelynek tagja. Ha a nagy nyelvi modellek elkezdik az írást egységesíteni, sokkal nehezebben lehet kimutatni az ilyen személyiségjegyeket.

A kutatók állítása szerint ez számos területen problémákat okozhat. Az utóbbi években több kutatócsoport is olyan eszközöket fejlesztett ki, amelyek a depresszió felismerésére specializálódtak, és a hang, a szöveg vagy az arckifejezések finom részleteit elemzik a diagnózis felállításához. Ezek az eszközök például nyilvános közösségi média posztok és egyéb szövegek alapján működnek. A hatékonyságuk azonban megkérdőjeleződhet, ha a jövőben még elterjedtebbé válnak a nagy nyelvi modellek. Egy másik példa a szövegelemzésre épülő marketingtevékenység, ahol a mesterséges intelligencia segítségével próbálják személyre szabni és célzottan eljuttatni a hirdetéseket. Azonban a generatív AI elterjedésével ezek a megoldások is elveszíthetik relevanciájukat, mivel ha a szövegek homogenizálódnak, akkor nehezebbé válik azok személyre szabása.

Ezek a példák csupán elszigetelt esetek, és messze nem tükrözik azt a súlyos problémát, amelyet a nyelvhasználat uniformizálódása jelent a jövő nyelvi örökségének és kulturális sokszínűségének megőrzésében. Ezek a jelenségek létfontosságúak, mivel a gondolkodásmódok változatossága elengedhetetlen az emberi faj fennmaradásához.

Mesterséges intelligencia Média (kommunikáció)Kína Statisztikák Reddit Google ChatGPT Stilisztika Regiszter (szociolingvisztika)Depresszió Iskola