#79 - DeepSeek-R1 Deep Dive

Verbos: AI og Softwareudvikling - En podcast af Kasper Junge - Torsdage

Kategorier:

I denne episode af Verbos Podcast dykker værterne ned i DeepSeek og deres R1 reasoning model, som har skabt betydelig opmærksomhed på aktiemarkedet og i medierne. De diskuterer, hvordan DeepSeek har trænet deres model, dens indflydelse på aktiemarkedet, og hvordan open source tilgangen kan ændre landskabet for AI. Derudover udforsker de brugen af reinforcement learning med verificerbare belønninger og de fremtidige perspektiver for reasoning modeller. I denne samtale diskuterer Jonas Høgh Kyhse-Andersen og Kasper Junge forskellige aspekter af token generering, verifikation, og forskellene mellem reinforcement learning og supervised learning. De dykker ned i emner som preference tuning, usikkerhed i modeller, og hvordan selvrefleksion kan forbedre output. Derudover taler de om cold start og model distillering, samt hvordan reasoning oriented reinforcement learning kan forbedre modellerne. I denne samtale diskuterer værterne innovative tilgange til AI-modeller, herunder brugen af reinforcement learning og GPU-optimering. De udforsker, hvordan forskellige metoder kan forbedre præstationen af AI-systemer og hvordan fremtidige eksperimenter kan ændre landskabet for AI-træning. Samtalen dækker også vigtigheden af verifiable rewards i træningsprocessen og de potentielle anvendelser af reasoning-modeller. Ugens Repo: https://github.com/Jiayi-Pan/TinyZero Kapitler 00:00 Introduktion til DeepSeek og R1 modellen 03:03 DeepSeek's indflydelse på aktiemarkedet 05:51 Reasoning modeller og deres træningsmetoder 08:47 DeepSeek's open source tilgang 12:07 Reinforcement learning med verificerbare belønninger 15:09 Fremtidige perspektiver for reasoning modeller 28:45 Verifikation af Token Generering 31:12 Reinforcement Learning vs. Supervised Learning 32:55 Preference Tuning og Human Feedback 36:33 Verifikation og Usikkerhed i Modeller 39:43 Selvrefleksion i Modeller 42:51 Cold Start og Model Distillering 50:00 Reasoning Oriented Reinforcement Learning 54:01 Innovative Tænkning i AI Modeller 57:50 GPU Innovation og Performance Optimering 01:01:03 Reinforcement Learning og Verifiable Rewards 01:05:26 Eksperimenter med Reasoning Modeller 01:10:54 Fremtidige Perspektiver for AI Træning