La inteligencia artificial es el avance más importante de la historia reciente del sector tecnológico. En consecuencia, parece normal que las empresas más grandes e importante de la industria estén participando en la carrera por desarrollar el modelo más complejo, eficiente y rápido del mercado. Por detrás de OpenAI, Microsoft y Anthropic, nos encontraremos con la gigante tecnológica que alguna vez fue líder incuestionable en innovación: Alphabet, o como mejor le conocemos, Google.

En este artículo, exploraremos el impacto de Google en la inteligencia artificial, junto a la evolución de sus productos relacionados. Así es, veremos qué ha ocurrido con Gemini, antes conocida como Bard.

El papel de Google en el desarrollo de IA

El talento tecnológico de todo el mundo frecuentemente le echa un vistazo al futuro de la inteligencia artificial, pero siempre es importante y enriquecedor mirar al pasado y aprender de él. Google, como muchas otras organizaciones, se aventuró dentro de la investigación de desarrollo de inteligencia artificial con un incentivo muy claro: no ser desplazada por la competencia.

Cuando Apple lanzó Siri al mercado en 2011, a Google se le encendieron las alarmas. Esto se debe a que la empresa depende grandemente de los ingresos generados por la publicidad en su red de búsqueda. En 2023, 77% de sus ingresos totales procedieron de la publicidad, lo que se traduciría en la facturación de unos 237.850 millones de 307.390 millones de dólares.

El modelo de negocio de Google
El modelo de negocio de Google. Fuente: FourWeekMBA

Así pues, que otras empresas estuviesen tomando la iniciativa para responder las consultas de sus usuarios, entraba en el radar de Google como una amenaza para su modelo de negocio. En 2013, Amazon siguió el patrón de Apple y lanzó Alexa, por lo que, para Google, era evidente que estaban quedándose atrás.

Fue de esta inquietud que Google empezó a invertir fuertemente en la investigación relacionada con inteligencias artificiales. En 2014, adquirieron a la empresa británica DeepMind, que ha contribuido con avances impresionantes en la creación de modelos de redes neuronales.

De este avalancha en favor de la investigación, nació uno de los papers más importante e influyente en el mundo de la ciencia de datos, la madre de la inteligencia artificial: Attention Is All You Need (En español, “atención es todo lo que necesitas”) en 2017.

La investigación más importante para el desarrollo de IA: Attention is All you need

En tan solo 11 páginas escritas por 8 grandes mentes de la industria, el desarrollo de IA cambió para siempre. Tristemente, Google no sacó el mayor provecho de esta investigación en el momento de su publicación y, en cambio, resultó sentar las bases para OpenAI en el desarrollo del ChatGPT, el modelo de lenguaje de gran tamaño (LLM, según sus siglas en inglés) que “acabará” con los programadores y programadoras (Spoiler: no lo ha hecho ni lo hará).

¿Cómo? Con uno de los nuevos conceptos introducidos en este paper, conocido como transformer (transformador), una arquitectura indispensable para los LLM modernos. Si sientes curiosidad y quieres aprender mucho más a fondo sobre la inteligencia artificial para trabajar en el sector, ¡échale un vistazo al Bootcamp de Data Science & IA!

Cómo funciona Gemini

Google se percató tarde del error cometido al no aprovechar la investigación realizada por su talento y desde entonces ha intentado volver a posicionarse en la carrera de las IA.

La respuesta principal de Alphabet ante el ritmo marcado por Microsoft, fue el anuncio de LaMDA en 2021, una familia de modelos de lenguaje neuronal conversacional. De aquí nacería Gemini, anteriormente conocida como Bard.

Como dato curioso, en 2023, Alphabet invirtió en Anthropic, la empresa que le da vida a Claude, la IA que, en términos técnicos, es la competencia principal de ChatGPT.
Las diferentes versiones de Gemini: Ultra, Pro y Nano

En diciembre de 2023, Google lanzó Gemini al público. Según la documentación de esta versión, la característica principal que marca la diferencia es la capacidad de procesar contextos de gran tamaño.

En el contexto del procesamiento del lenguaje natural (PLN) y la inteligencia artificial, un "token" se refiere a una unidad mínima de procesamiento. En el caso de una IA generativa de texto, un token equivaldría a la secuencia de caracteres que compone a una palabra.

La ventana de contexto equivale a la cantidad de “tokens” que un modelo puede inferir a la vez. En el caso de trabajar con texto, este límite estaría en la cantidad de palabras que se pueden facilitar a la IA para que lo tome en consideración al momento de hacerle una solicitud.

Del mismo modo, en caso de usar IA en un proyecto de programación, este límite se encontraría en la cantidad de scripts que pudiese procesar para tener una visión “completa” del programa que se está desarrollando.

A su vez, una “inferencia” en el aprendizaje automático hace referencia al proceso en que se toman decisiones consecuentes basadas en datos. Para una IA, este proceso estará condicionado por el entrenamiento a la que fue sometida.

En el colegio aprendimos la diferencia entre “vaya”, “valla”, “baya”, “haya”, “halla” y “allá”. La IA debe ser instruida para lograr hacer lo mismo (y en diferentes idiomas), especialmente si va a estar especializada en la transcripción de voz a texto.

Para febrero de 2024, Google ya estaba lanzando la nueva versión de su IA, Gemini 1.5, junto a la explicación de sus mejoras.

Arquitectura MoE

La arquitectura de Mixture-of-Experts (conocida por sus siglas en inglés como “MoE”) ofrece la capacidad de entrenar modelos más grandes, usando menos recursos. También podemos encontrarla detrás de otros modelos de IA como GPT-4, ya que ha resultado ser una técnica muy efectiva de machine learning.

Esta invención ha logrado que el coste computacional y el coste de inferencia se reduzca al distribuir el procesamiento en distintos sistemas expertos.

Para ilustrar cómo funciona la arquitectura MoE, veamos esta ilustración:

Cómo funciona la arquitectura MoE

Al solicitar una información como, por ejemplo “explícame cómo alinear un texto a la derecha con CSS”, la arquitectura activará solo a las redes especializadas con programación y creatividad, de tal forma que todo el conocimiento que no esté asociada al prompt se mantenga inactivo.

Ilustrándolo de otro modo: estás leyendo este artículo, y por ende, estás usando activamente lo que ya sabes del tema, pero eso no implica que hayas olvidado cómo se prepara una tortilla. En la hora de la cena, se activará automáticamente este conocimiento en tu cerebro, pero no mientras estudias activamente. Este es el proceso que emula Gemini por medio de la arquitectura MoE.

Las muchas controversias de Google en la actualidad

La constante iteración de Google sobre sus productos causa una gran controversia en la industria digital. Recientemente, estas decisiones impulsivas de la empresa están convirtiéndose en un problema para su reputación. Incluso existe una página que recopila todas las iniciativas que nacieron y murieron a manos del gran gigante: Google Graveyard.

Relacionados con la IA, veremos los más recientes altercados a los que se ha enfrentado Google:

El drama de un desarrollador que se enamoró de una IA

Añadido a la mala maña de Google por cambiar el nombre de sus productos, la IA de Google tuvo un traspiés monumental cuando uno de sus ingenieros, Blake Lemoine, aseguró que LaMDA tenía consciencia propia.

Obviamente, esta convicción no era correcta, pero desató mucha polémica sobre la efectividad de la prueba de Turing y afectó la confianza hacia el desarrollo de inteligencias artificiales. Esto no da un preludio de otro de los puntos clave dentro de la ética en IA: la humanización de los programas.

Cuando esto sucedió, Gemini seguía llamándose “Bard”, por lo que existe la teoría de que el renombre haya tomado lugar para dejar atrás este incidente.

La mentira en la demo de Gemini

El vídeo demostrativo que explica la capacidades multimodales de Gemini causó un revuelo en el sector, al final resultó ser una “representación” y no una grabación en tiempo real. Es decir, todos los aciertos dados por la IA durante la presentación y su interacción con el mundo, eran mentira.

Al querer exaltar las capacidades de su producto, Google tuvo que escribir un artículo para explicar la verdadera interacción entre usuario-IA, ya que la empresa fue recriminada públicamente por jugar con la percepción de los resultados reales.

Esto le ha pesado a la compañía, aunque, queremos pensar, las habilidades deductivas de la IA podrían llegar al mismo nivel que se muestra en la demostración. Una vez Sora esté disponible a todo el público, será interesante comparar el resultado entre ambas.

Las extrañas respuestas de Gemini

La inclusión y la diversidad son valores esenciales para la humanidad, pero en nuestra historia, esto no siempre fue así. Lo que sucedió con Gemini recientemente es que ha demostrado una serie de respuestas sesgadas que no representan la realidad, desde la generación de imágenes hasta las respuestas escritas.

Internet se ha encargado de poner a Gemini a prueba, haciéndole “preguntas incómodas” y recibiendo respuestas altamente sesgadas en temas raciales y sociopolíticos.

Un ejemplo de las polémicas alrededor de Gemini

La polémica nace en la simple noción de que la historia no es ficción. Tristemente, el “es” no es igual al “debería ser” o al “quisiera que hubiese sido así”. Google, como marca, tuvo por muchos años la confianza de que todo se podía conseguir en su buscador y que, en la mayoría de los casos, los resultados serían fidedignos. Su reto ahora es mantener el listón en alto.

Cuando Gemini sea implementada en el buscador, las respuestas deben ser transparentes, confiables y realistas, porque si esto no es así, nos encontraremos ante un gran dilema ético. Actualmente, Google sigue trabajando para perfeccionar las funcionalidades de Gemini.

Aprende sobre la IA desde dentro

¿Recuerdas cómo todo inició? Google se puso las pilas por los avances de su competencia. La industria de la tecnología es muy curiosa, se mueve muy rápido y parece que todo el mundo se conoce entre sí. Este año, Google y Apple están considerando un acuerdo para implementar Gemini en los iPhone, algo que, hace 10 años, hubiésemos catalogado como “imposible”.

Gemini es un producto de uno de los gigantes tecnológicos, y por sobre todo, es un producto del talento tecnológico que usó su creatividad para desarrollar cosas nuevas. ¡Tú también tienes este potencial!

Aprende ciencia de datos e inicia tu camino en inteligencia artificial desde cero en nuestro bootcamp. Completa el formulario debajo de este artículo y recibe toda la información.