China’s DeepSeek Ontwikkelt Innovatieve Methode om AI te Verbeteren in Vraagbeantwoording
DeepSeek en de Tsinghua Universitiet in China hebben een manier gevonden die AI-modellen slimmer en efficiënter kan maken.
De Chinese AI-startup DeepSeek heeft een nieuwe methode geïntroduceerd om de redeneervaardigheden van grote taalmodellen (LLM’s) te verbeteren, zodat deze betere en snellere resultaten kunnen leveren voor algemene vragen dan hun concurrenten. DeepSeek veroorzaakte in januari een sensatie toen het met R1, een kunstmatige intelligentie (AI) model en chatbot, op de markt kwam. Het bedrijf beweerde dat dit model goedkoper was en net zo goed presteerde als het rivaliserende ChatGPT-model van OpenAI.
In samenwerking met onderzoekers van de Tsinghua Universiteit in China heeft DeepSeek in een recent gepubliceerde paper op vrijdag een techniek ontwikkeld voor zelfverbeterende AI-modellen. De onderliggende technologie, genaamd self-principled critique tuning (SPCT), leert AI om zijn eigen regels voor het beoordelen van inhoud te ontwikkelen en gebruikt deze regels vervolgens om gedetailleerde kritiek te geven. Dit resulteert in betere uitkomsten doordat er verschillende evaluaties gelijktijdig worden uitgevoerd in plaats van het gebruik van grotere modellen.
Deze aanpak staat bekend als generative reward modeling (GRM), een machine learning-systeem dat controleert en beoordeelt wat AI-modellen produceren, waarbij wordt gegarandeerd dat deze overeenkomen met wat mensen vragen met behulp van SPCT.
Hoe werkt het? Gewoonlijk vereist het verbeteren van AI dat modellen groter worden tijdens de training, wat veel menselijke inspanning en rekenkracht kost. In plaats daarvan heeft DeepSeek een systeem ontwikkeld met een ingebouwde “rechter” die de antwoorden van de AI in real-time evalueert. Wanneer je een vraag stelt, vergelijkt deze rechter de geplande reactie van de AI met zowel de kernregels van de AI als met wat een goed antwoord zou moeten zijn. Als er een nauwe overeenkomst is, ontvangt de AI positieve feedback, wat helpt bij de verbetering.
DeepSeek noemt dit zelfverbeterende systeem “DeepSeek-GRM”. De onderzoekers hebben aangegeven dat dit modellen zal helpen beter te presteren dan concurrenten zoals Google’s Gemini, Meta’s Llama, en OpenAI’s GPT-4o. DeepSeek is van plan om deze geavanceerde AI-modellen beschikbaar te stellen als open-source software, maar er is nog geen tijdlijn gegeven.
De publicatie van de paper komt op een moment waarop geruchten de ronde doen dat DeepSeek van plan is om zijn nieuwste R2-chatbot te onthullen. Het bedrijf heeft echter niet publiekelijk gereageerd op dergelijke nieuwigheden.