Diepe Verkenning: De Controverses Rondom DeepSeek’s Gedurfde Claims
AI Game-Changer of Overhyped? DeepSeek Staat Onder Vuur om Gedurfde Claims
Na het veroorzaken van schokgolven met een AI-model dat de capaciteiten van Google en OpenAI evenaart, wordt het Chinese DeepSeek geconfronteerd met vragen over de geloofwaardigheid van zijn gedurfde beweringen.
De aankondiging van de in Hangzhou gevestigde startup dat het R1 heeft ontwikkeld voor een fractie van de kosten van de nieuwste modellen uit Silicon Valley, zette vraagtekens bij de veronderstellingen over de dominantie van de Verenigde Staten in AI en de torenhoge marktwaarderingen van de toptechnologiebedrijven.
Enkele sceptici hebben echter de beweringen van DeepSeek over het werken met een beperkt budget betwist, en gesuggereerd dat het bedrijf waarschijnlijk toegang had tot meer geavanceerde chips en meer financiering dan het heeft erkend.
“Het is plausibel dat ze een model kunnen trainen met $6 miljoen,” voegde Domingos toe. “Maar het is ook goed mogelijk dat dat alleen de kosten zijn van het verfijnen en nabewerken van modellen die meer kosten, en dat DeepSeek dit niet had kunnen doen zonder te bouwen op duurdere modellen van anderen.”
In een onderzoeksdocument dat vorige week werd uitgebracht, verklaarde het ontwikkelingsteam van DeepSeek dat ze 2.000 Nvidia H800 GPU’s hadden gebruikt – een minder geavanceerde chip die oorspronkelijk was ontworpen om te voldoen aan de Amerikaanse exportcontroles – en $5,6 miljoen hadden uitgegeven aan het trainen van het fundament van model R1, V3.
OpenAI CEO Sam Altman heeft verklaard dat het meer dan $100 miljoen kostte om zijn chatbot GPT-4 te trainen, terwijl analisten schatten dat het model gebruik maakte van maar liefst 25.000 meer geavanceerde H100 GPU’s.
De aankondiging van DeepSeek, opgericht eind 2023 door de serieondernemer Liang Wenfeng, doorbrak de algemeen aanvaarde overtuiging dat bedrijven die aan de voorhoede van AI willen staan, miljarden dollars moeten investeren in datacenters en grote hoeveelheden dure high-end chips.
Het roept ook vragen op over de effectiviteit van de inspanningen van Washington om de AI-sector van China te beperken door de export van de meest geavanceerde chips te verbieden.
Aandelen van het in Californië gevestigde Nvidia, dat een bijna-monopolie heeft op de levering van GPU’s die generatieve AI aandrijven, daalden maandag met 17 procent, wat bijna $593 miljard van de marktwaarde van de chipgigant afhaalde – een bedrag dat vergelijkbaar is met het bruto binnenlands product (BBP) van Zweden.
Terwijl er brede consensus bestaat dat de release van R1 door DeepSeek op zijn minst een significante prestatie vertegenwoordigt, hebben enkele prominente waarnemers gewaarschuwd om de claims niet voor waar aan te nemen.
Palmer Luckey, de oprichter van het virtual realitybedrijf Oculus VR, noemde woensdag het beweerde budget van DeepSeek “nep” en beschuldigde te veel “nuttige idioten” die in “Chinese propaganda” trapten.
“Het wordt gepusht door een Chinese hedgefonds om investeringen in Amerikaanse AI-startups te vertragen, hun eigen shorts tegen Amerikaanse titanen zoals Nvidia te bedienen, en sanctie-ontduiking te verbergen,” zei Luckey in een post op X.
In een interview met CNBC vorige week betwijfelde Alexandr Wang, CEO van Scale AI, ook het verhaal van DeepSeek, en zei dat het zijn “begrip” was dat het toegang had tot 50.000 meer geavanceerde H100-chips waarover het niet kon praten vanwege de Amerikaanse exportcontroles.
Wang gaf geen bewijs voor zijn claim.
Tech-miljardair Elon Musk, een van de dichtstbijzijnde vertrouwelingen van de Amerikaanse president Donald Trump, steunde de sceptici van DeepSeek en schreef “Vanzelfsprekend” op X onder een post over Wang’s claim.
DeepSeek heeft niet gereageerd op verzoeken om commentaar.
Maar Zihan Wang, een PhD-kandidaat die aan een eerder DeepSeek-model werkte, verdedigde de critici van de startup en zei: “Praat is goedkoop.”
“Als ze meer tijd zouden besteden aan het werken aan de code en het DeepSeek-idee zelf zouden reproduceren, zou dat beter zijn dan alleen maar op papier te praten,” zei Zihan Wang, met een Engelse vertaling van een Chinese uitdrukking over mensen die zich bezighouden met nutteloze praat.
Hij reageerde niet direct op de vraag of hij geloofde dat DeepSeek minder dan $6 miljoen had uitgegeven en minder geavanceerde chips had gebruikt om het fundament van model R1 te trainen.
In een interview in 2023 met het Chinese mediakanaal Waves, zei Liang dat zijn bedrijf 10.000 van Nvidia’s A100-chips had opgeslagen – die ouder zijn dan de H800 – voordat de regering van de toenmalige Amerikaanse president Joe Biden hun export verbood.
Gebruikers van R1 wijzen ook op beperkingen die het ondervindt vanwege zijn oorsprong in China, met name de censuur van onderwerpen die door Beijing als gevoelig worden beschouwd, waaronder het bloedbad op het Tiananmenplein in 1989 en de status van Taiwan.
In een teken dat de aanvankelijke paniek over de potentiële impact van DeepSeek op de Amerikaanse technologiesector begon af te nemen, herstelde de aandelenprijs van Nvidia zich dinsdag met bijna 9 procent.
De technologie-zware Nasdaq 100 steeg met 1,59 procent, nadat deze de vorige dag met meer dan 3 procent was gedaald.
Tim Miller, een professor gespecialiseerd in AI aan de Universiteit van Queensland, zei dat het moeilijk te zeggen is hoeveel waarde moet worden gehecht aan de claims van DeepSeek.
Miller zei dat hij geen “alarmbellen” had gehoord, maar dat er redelijke argumenten zijn voor en tegen het vertrouwen op het onderzoeksdocument.
“De doorbraak is ongelooflijk – bijna van het ‘te mooi om waar te zijn’ type. De kostenstructuur is onduidelijk,” zei Miller.
Aan de andere kant zei hij dat doorbraken af en toe plaatsvinden in de computerwetenschappen.
“Deze grootschalige modellen zijn een zeer recent fenomeen, dus efficiënties zullen ongetwijfeld worden gevonden,” zei Miller.
“Aangezien ze wisten dat dit redelijkerwijs eenvoudig te reproduceren zou zijn voor anderen, zouden ze geweten hebben dat ze er dom uit zouden zien als ze iedereen voor de gek hielden. Er is al een team dat zich inzet om het werk te reproduceren.”
Dalen van Kosten
Lucas Hansen, mede-oprichter van de non-profitorganisatie CivAI, zei dat het moeilijk was om te weten of DeepSeek de Amerikaanse exportcontroles had omzeild, maar dat het beweerde trainingsbudget betrekking had op V3, dat ruwweg gelijkwaardig is aan OpenAI’s GPT-4, en niet op R1 zelf.
“DeepSeek heeft R1 gemaakt door een basismodel – in dit geval V3 – te nemen en enkele slimme methoden toe te passen om dat basismodel beter te laten nadenken,” voegde Hansen toe.
“Dit onderwijsproces is relatief goedkoop vergeleken met de prijs van het trainen van het basismodel. Nu DeepSeek details heeft gepubliceerd over hoe je een basismodel kunt opbouwen tot een denkmodel, zullen we een enorme hoeveelheid nieuwe denkmodellen zien.”