Ai-model DeepSeek uit China, de ChatGPT-killer?

Meer kunnen met minder rekenkracht, dat is de grote wens van elke bouwer van Ai-modellen en dit lijkt het Chinese DeepSeek gelukt: het model presteert net zo goed als de bekendere concurrenten zoals ChatGPT uit de VS.

Vrijwel niemand had ooit van DeepSeek gehoord tot een dag na kerst. Het bedrijf introduceerde DeepSeek V3, een chatbotmodel dat de kunsten van de best beoordeelde chatbots uit de VS evenaarde, zoals ChatGPT’s model 4o van OpenAI.

En nu kwam DeepSeek op 20 januari met een nieuw model, DeepSeek R1. Dat was de druppel voor beleggers in de VS: dit model kan redeneren, net als ChatGPT o1, en wel zo goed dat experts zich realiseerden dat er blijkbaar veel minder geld en rekenkracht nodig is om bepaalde resultaten te behalen.

Want dat laatste is interessant. Al jaren wordt beweerd dat je enorme hoeveelheden rekenkracht, lees computerchips en energie, nodig hebt om taalmodellen te trainen. En hier komt een Chinese chatbot langs die voor een fractie van de kosten en met veel minder energie dezelfde resultaten weet te behalen. Een staaltje goede programmeerkunst.

Fractie van de kosten en aandelencrash

Het R1 model van DeepSeek weet namelijk dezelfde resultaten te behalen als OpenAI’s o1-model op zaken als wiskunde en het bedenken van computercode terwijl het trainen van het model 20 tot 50 keer goedkoper is en ook significant minder rekenkracht vereist.

Dit zorgde bij beleggers in de VS direct voor kopzorgen en een stevige daling van de waarde van aandelen van onder andere chipmaker Nvidia, niet in de laatste plaats omdat de ontwikkelaars van DeepSeek zeggen dat ze ongeveer 6 miljoen dollar aan ruwe computerkracht nodig hadden om hun laatste systeem te trainen, zo’n tien keer minder dan wat bijvoorbeeld Meta aan z’n laatste project uitgeeft, schrijft de New York Times.

Want daar zit een extra interessant addertje onder het gras: door de exportrestricties sinds oktober 2023 vanuit de VS naar China draaien datacenters in China op iets oudere computerchips dan die in de VS. Deze restricties moeten ervoor zorgen dat China minder snel mee kan komen met de opmars van kunstmatige intelligentie, wat het interessant maakt dat het land dit met iets oudere chips toch weet te bereiken. Aan de andere kant denken twee experts, Lennart Heim en Sihao Huang, dat het wachten is op de volgende generatie chips die niet meer beschikbaar komt voor China.

Open source: vrij beschikbaar

Een andere interessante ontwikkeling is dat DeepSeek de bron van z’n werk open source beschikbaar stelt, met andere woorden: iedereen kan het model kopiëren en gebruiken. Dit zou de prijzen die de concurrenten in de VS vragen voor hun diensten wel eens kunnen drukken. Aan de andere kant is nog onduidelijk hoe het V3-model presteert ten opzichte van het nog niet uitgebrachte nieuwste model van OpenAI dat ook zelf kan redeneren, o3. Toch blijft het saillant: ondanks het woord ‘open’ in de naam, geeft OpenAI zijn modellen niet meer prijs. Ook houden bedrijven in de VS over het algemeen de kaarten dicht tegen de borst om te voorkomen dat de concurrentie weet hoe ver ze al zijn met hun ontwikkelingen, schrijven Heim en Huang.

Computerkracht DeepSeek

Hoe zit het dan met de onderzoekspaper van DeepSeek en waarom zijn experts hier van onder de indruk? De Times schrijft hierover dat de onderzoekers van DeepSeek hebben laten zien dat ze efficiëntere manieren hebben bedacht om data te analyseren met minder chips. Dit wisten ze te doen door de data-analyse te verspreiden over verschillende Ai-modellen waarbij als het ware de verschillende Ai-’experts’ gemixt worden. In tegenstelling tot andere modellen, stuurt het DeepSeek-model de data niet heen en weer tussen de modellen, wat de efficiëntie verhoogt.

De bottom line in dit proces is dat de restricties er blijkbaar toe leiden dat onderzoekers creatiever moeten worden in hun benadering: minder geld zorgt voor creatievere en, wellicht, betere oplossingen.

Beeldgeneratie Janus

Ondertussen zit DeepSeek ook op andere vlakken niet stil: het bracht op 28 januari zijn laatste model uit met de naam Janus-Pro, de opvolger van Janus. Dit model is zowel voor analyse van beelden als voor het maken van beelden aan de hand van tekst.

Het Janus-Pro-model zou een score halen van 80 procent op de GenEval-test. Dit is een manier om te meten of een Ai-model beelden maakt die mensen zouden verwachten aan de hand van de ingevoerde tekst. Hiermee scoort het model beter dan bijvoorbeeld DALL-E, al zegt dit niet alles: het analyseren kan de app maar tot een resolutie van 384×384 pixels en genereren tot maximaal 768×768 pixels. Ook dit model is open source en de verwachtingen zijn dan ook hoog: als de opensourcegemeenschap helpt zou dit snel kunnen verbeteren.

Chinese restricties

DeepSeek is en blijft wel een Chinese app met de benodigde censuur. Zoeken naar wat er op het Tiananmenplein in Peking gebeurde in 1989, de studentenprotesten die bloedig neergeslagen werden, geeft wisselende resulaten. Je ziet dat het ook voor China lastig is censuur toe te passen op chatbots, vooral omdat die zelf de informatie samenstellen en een gesprek willen voeren. De R1-bot lijkt beter met censuur dan de V3-bot.

Dat er minder censuur op de bot zit dan je zou verwachten bij een Chinees product lijkt te kunnen komen doordat DeepSeek niet direct producten maakt voor consumenten, schrijft de Times. Het project is voor onderzoek en wordt daardoor niet zo strikt gevolgd, al kun je je afvragen hoelang dit duurt met de populariteit van de app.

Bronmateriaal

Fout gevonden?

Interessant voor jou

Voor jou geselecteerd