#46 - AI Robotter, Figure 01, Vision-Language-Action Modeller, Multimodalitet med Nicolai Nielsen

Verbos: AI og Softwareudvikling - En podcast af Kasper Junge - Torsdage

Prøv Podimo gratis! i 30 dage

Et univers fyldt med hundredvis af eksklusive podcasts & lydbøger, klik her for at prøve

Kategorier:

Hvem bliver den første til at få en røvfuld af en AI-robot? I denne uge har vi ladet os inspirere af virksomheden Figures speech-to-speech-demonstration af deres robot, Figure 01, som de har udviklet i samarbejde med OpenAI. Vi taler om vision-language-action (VLA) modeller, som højst sandsynligt er den model, som ligger bag Figure 01s sprog-billede-action-forståelse. Vi har fået Nicolai Nielsen med på episoden, der har en solid baggrund i computer vision og også ved en hel del om robotter, og derfor kan hjælpe os med at forstå, hvad der sker i forskningen på dette område! Shownote Links: Figure 01 speech-to-speech demo: https://youtu.be/Sq1QZB5baNw?si=OxcqQU_9tCjFuXU0 3D-VLA: A 3D Vision-Language-Action Generative World Model: https://arxiv.org/abs/2403.09631 Find Nicolai Nielsen her: YouTube: https://www.youtube.com/@NicolaiAI LinkedIn: https://www.linkedin.com/in/nicolaiai/