Är största hotet mot ChatGPT – ChatGPT?
Skriven av: Leif Pettersson, ArkivIT.
På sex månader har användning av lösningar för generativ AI som ChatGPT fullständigt exploderat. Vad de olika lösningarna har gemensamt är att de använder sig av large language models (LLM).
Det betyder i realiteten att de främst använder Internet, men också andra textuella källor, och skördar härvid otroliga mängder data som de sedan använder för att ge svar på våra frågor. GPT-3 använder en modell med 175 miljarder parametrar till exempel. Nu finns det en stor mängd motsvarande lösningar som alla går ut och hämtar data från samma källor. Vad som också med stor sannolikhet kommer att hända, om det inte redan hänt, är att vi kommer att börja publicera texter genererade av generativ AI.
I slutet av maj 2023 publicerade en grupp forskare en uppsats – ”The Curse of Recursion: Training on Generated Data Makes Models Forget” – som väcker en del tankar. Det visar sig att de av AI genererade texterna förvånansvärt snabbt kommer att korrumpera hela idén med generativ AI, då kvalitén snabbt kommer att bli sämre på de svar som lösningarna ger på grund av de tidigare svaren från samma lösningar. Forskarna kallar fenomenet model colaps. En av författarna till uppsatsen, Ila Shumailov, försöker förklara fenomenet så att en lekman, som undertecknad, kanske kan förstå vad som händer.
Grunden i problemet är att generativ AI tydligen har svårt att hantera udda data, data som skiljer sig eller är märklig. Den premierar ”vanlig” data och missförstår eller feltolkar mer speciella eller mindre populära data. Shumailov ger följande mycket förenklade och hypotetiska exempel.
Vi har en uppsättning data som består av 100 bilder av katter. 10 av katterna har blå päls och de övriga 90 katterna har gul päls. Modellen lär sig att det är mycket vanligare med gula katter än blå katter och representerar de blå katterna som mer gula än vad de egentligen är. Det resulterar i att de blå katterna visas som lite grönaktiga och publiceras. Nu hämtas den data, iteration nummer ett, som ny träningsdata och så vidare. De blå katterna kommer att presenteras först som mer gröna för att sedan gå över till att bli alltmer gula. På så sätt förloras minoritetsdata över tid och det är det fenomenet som forskarna kallar för en kollaps av modellen. Ett annat sätt att se på fenomenet är att det fungerar som en JPEG-bild. Om den sparas om tillräckligt många gånger kommer allt fler artefakter att uppträda och bilden blir all alltmer suddig samt pixiliserad.
Det verkar vara mycket svårt att förhindra att detta händer över tid. De lösningar som har hämtat sin data nu kommer att ha tydliga fördelar framför andra lösningar som kommer att komma i framtiden. Men även dagens lösningar kommer att drabbas av detta då de kommer att behöva förnya sin data för att fånga ny information som framkommit sedan deras första omgång av data hämtades. Det är viktigt att förstå; de modeller som generativ AI använder hämtas inte ”live” från källor utan är sparad isolerat från källorna.
Det finns redan tecken på att det hämtas alltmer data från Internet Archive. På något sätt måste vi börja skydda den informationen som skapats av människor från att förorenas av information skapad av maskiner. Ett sätt är att arkivera korrekt information på så sätt att den blir skyddad och användbar även för framtidens AI-lösningar. Förhoppningsvis kommer forskningen att hitta en lösning för detta men innan dess kan vi bara hoppas att detta tas på allvar och att vi inte publicerar AI-genererad information på webben.
https://arxiv.org/abs/2305.17493 – Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson; Training on Generated Data Makes Models Forget
Mer läsning:
https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html