El serverless llega al BigData: Dataproc Serverless.
Apasionados por la tecnología - En podcast af Paradigma Digital - Tirsdage
Kategorier:
Poco a poco el serverless se está extendiendo a más y más casos de uso: procesamiento, bases de datos, sistemas de mensajería o de CI/CD son solo algunos de los ejemplos. El procesamiento de grandes volúmenes de datos era uno de los campos que aún no había sido colonizado por el serverless pero parece que esto está a punto de cambiar. Hoy vamos a hablar de Dataproc serverless, que nos permite ejecutar trabajos de Spark sin necesidad de tener un cluster. Empecemos definiendo un poco qué es Spark y qué es Dataproc: Spark es un framework de procesamiento escalable sucesor de Hadoop MapReduce aunque la idea es la misma. Tiene gran aceptación en la comunidad BigData al ser uno de los frameworks más utilizados y queridos. Cloud Dataproc es la manera de tener clusters gestionados por Google Cloud para ejecución de trabajos Hadoop MapReduce, Hive, Spark, Flink…. Gracias a Dataproc podemos levantar clusters de manera sencilla y económica. El uso del serverless para la ejecución de nuestras cargas Spark nos ofrece ciertas ventajas como el poder abstraernos de la infraestructura, tener capacidad de cómputo inmediata o una gran flexibilidad de costes. El nuevo Dataproc Serverless nos permite la ejecución de cargas Spark sin tener que preocuparnos por otra cosa distinta al código y los datos, lo que como desarrolladores, es algo que agradecer. Si quieres saber más sobre este producto, cual es su experiencia a usarlo y sus puntos menos fuertes no te pierdas este programa de Cómo conocí a nuestro Cloud. Intervienen Andrés Navidad, Óscar Ferrer y Tomás Calleja, miembros del equipo de Goodly.