window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'UA-79651946-1');

¿Es el Deep Learning el futuro de la Inteligencia Artificial?

El deep learning (“aprendizaje profundo” en castellano, aunque no se suele traducir) es quizá el avance más destacado en inteligencia artificial (IA) de la última década. Sin duda una revolución que ha redirijido la investigación y especialización de una gran masa científico-técnica en todo el mundo.

 

Antes de seguir, no está de más abordar el tema con cierta precaución, porque las palabras pueden inducir a engaño. El uso común de términos tan llamativos como “deep learning”, “machine learning”, o la misma “inteligencia artificial”, sumado a las expectativas creadas por algunos científicos ye infladas por la prensa, suelen generar en la sociedad la sensación de que estamos en un estado tecnológico más avanzado del real. Por ejemplo, el tan familiar término “inteligencia artificial”, ¿sabemos realmente qué significa? La concepción popular de la IA se refiere más bien a lo que los expertos denominan “autoconciencia artificial”, “conciencia artificial” o “inteligencia general artificial”. La autoconciencia artificial, o conciencia artificial, designa la capacidad de una máquina de ser consciente de su propia existencia y proceso de pensamiento, mientras que la inteligencia general artificial se refiere a máquinas capaces de comprender y aprender cualquier tarea intelectual que pueda realizar un ser humano. El uso de la cursiva aquí no es arbitrario, pues estos conceptos también requieren definiciones precisas dentro del mundo tecnológico, las cuales pueden no coincidir plenamente con el significado que se les da en ámbitos menos técnicos. De todas formas, ¿qué quieren decir los expertos cuando hablan simple y llanamente de IA?

La verdad es que incluso entre ellos el término se ha convertido en un cajón de sastre. Por lo general, IA se refiere a la tecnología que muestra capacidades que se asemejan a los procesos cognitivos, básicamente aprendiendo y resolviendo problemas de cierta complejidad. Alguien podría argumentar aquí que una calculadora de bolsillo debería ser considerada legítimamente IA, aunque no parece que muchas personas vayan a suscribir dicha opinión. El hecho es que lo que consideramos “complejo” evoluciona año tras año. Al final, la mezcla de expectativas humanas y los desarrollos científico-técnicos han acabado por crear un fenómeno algo paradójico conocido como el efecto de la IA, a saber: “tan pronto como la IA resuelve con éxito un problema, el problema ya no forma parte de la IA”. Douglas Hofstadter lo expresa con elegancia al citar el Teorema de Larry Tesler: “IA es aquello que no se ha hecho todavía”, revelando además, en mi opinión, cierta sombra de duda filosófica detrás de los propósitos subyacentes a la IA.

Desde una perspectiva más cotidiana, cuando un experto dice que trabaja en IA suele significar dos cosas: o bien está hablando con un público no especializado que podría confundirse con términos más técnicos, o bien quiere expresar que su enfoque para solucionar problemas tecnológicos está abierto a métodos que no se consideran “aprendizaje automático” (machine learning) o que no están incluidos dentro de las técnicas de aprendizaje automático, por lo general refiriéndose a sistemas complejos de distintas capas o diseñados con arquitecturas ad-hoc.

¿Y qué es el “aprendizaje automático”? El aprendizaje automático ocupa el corazón de la IA y tiene que ver fundamentalmente con ciertas familias de algoritmos que, o bien extraen modelos de datos, o bien recuperan rápidamente instancias ya procesadas para resolver un problema por aproximación. Dado que el aprendizaje automático ha copado la mayor parte de la atención de la IA en las últimas décadas, también podemos convenir que la IA tiene un cariz más práctico, mientras que el aprendizaje automático se asienta a un nivel más teórico. Dicho de otra manera, el aprendizaje automático aspira a consolidar metodologías de resolución de problemas, mientras que la IA (que comúnmente incorpora el aprendizaje automático) pretende ser la solución técnica a un desafío real. La Figura 1 nos sirve para ilustrar cómo los conceptos discutidos en este artículo se enmarcan unos dentro de otros en un sentido amplio.

 

 

¿Deep learning o redes neuronales?

 

Dentro del universo del aprendizaje automático, el deep learning está atrayendo una atención casi absoluta desde hace ya tiempo, aunque es importante mencionar que el aprendizaje automático incluye muchas más técnicas que no son deep learning. Tales alternativas se han utilizado y se utilizan continuamente en investigación base, así como en aplicaciones industriales y comerciales. De hecho, algunas de ellas presentan peculiaridades que, en determinados casos, superan las limitaciones del deep learning e incluso pueden hacer frente a problemas que están fuera del alcance de las arquitecturas de deep learning más habituales. También es importante aclarar que algunas de las debilidades y problemas que se comentan más abajo como propias del deep learning son comunes también en otras formas de aprendizaje automático.

Dejando a un lado otras opciones, es prácticamente imposible hablar de deep learning sin mencionar las también muy trilladas redes neuronales, ya que ambos términos se utilizan indistintamente incluso por expertos. Sin embargo, nótese que las redes neuronales existen desde la década de los 60, mientras que el deep learning surgió alrededor de 2010. ¿Son entonces lo mismo o no? Una red neuronal no es más que un tipo de arquitectura computacional que emula al cerebro biológico e intenta sacar el máximo partido de su estructura paralela y altamente interconectada. El deep learning se construye sobre redes neuronales con muchas capas internas, proporcionando así “profundidad” a la estructura y haciéndola capaz de crear mapas en los que se forman y almacenan abstracciones que son clave para lograr el aprendizaje deseado. Esta habilidad se denomina “extracción de rasgos” (feature extraction). Por poner un ejemplo sencillo de sus implicaciones, un algoritmo de deep learning que haya sido entrenado para identificar a personas en imágenes debería ser capaz de abstraer un rasgo que corresponda al concepto “cara”. En otras palabras, el deep learning consiste de alguna manera en capturar internamente lo que hace que una cosa sea ella misma (algo así como la esencia platónica). Pero nótese —aquí una primera limitación del deep learning— que se trata de una aspiración ideal, y que la capacidad del deep learning para aprender características esenciales está fuertemente vinculada a la riqueza y variabilidad de los datos utilizados durante su entrenamiento. Las abstracciones obtenidas pueden perfectamente contener elementos que no son necesarios, sino contingentes. A los estudiantes es común ilustralos con el caso de un algoritmo de deep learning, al cual se le enseñó a identificar animales en fotografías, pero que luego durante las pruebas de evaluación identificaba como “lobo” cualquier imagen que contuviese intensos cielos azules y fondos nevados. Esta es una consecuencia de haber entrenado el algoritmo con una colección de imágenes en las que lo más coincidente y discriminante en aquellas etiquetadas como “lobo” eran los cielos azules y los fondos nevados.

Aclarando una vez más la terminología, las redes neuronales tradicionales no tienen la mencionadad capacidad de extraer rasgos (o no de manera tan eficaz y flexible), lo que por otra parte es un componente intrínseco del deep learning. Desde otro enfoque podemos decir que, mientras que las redes neuronales se refieren a un tipo de estructura computacional, el deep learning se refiere a una capacidad atribuible a determinados algoritmos. Lo que permitió pasar de las redes neuronales al deep learning fueron algunos descubrimientos técnicos específicos sobre las primeras, pero sobre todo el espectacular y continuo aumento en la potencia de computación y en la generación de datos que ha dado lugar en las últimas dos décadas. Después de todo, el deep learning es un método de aprendizaje por fuerza bruta.

 

Limitaciones del deep learning

Pero, ¿cuál es el potencial del deep learning? ¿Qué puede hacer? En realidad, muchas cosas, y, por expresarlo de forma somera, puede resolver cualquier reto tecnológico en el que la mencionada capacidad de extraer rasgos y patrones a diferentes niveles juegue un papel importante para generalizar conocimiento; por ejemplo, reconocimiento de voz, traducción de idiomas, vehículos que se conducen solos, identificación de objetos, animales o personas en imágenes, o aprender a jugar ciertos juegos mejor que los expertos de más alto nivel. En resumen, el deep learning es capaz de hacer que las máquinas abstraigan y sinteticen un contexto determinado; por lo tanto, las habilita para realizar descripciones, predicciones, prescripciones y recomendaciones precisas dentro de dicho contexto. El esquema de trabajo más elemental del deep learning (y, en general, del aprendizaje automático supervisado) es una aplicación en la que se entrena a la máquina proporcionándole un enorme conjunto de ejemplos etiquetados; más adelante, la máquina es capaz de etiquetar por sí misma objetos o situaciones nunca vistos.

 

Quizá una buena manera de valorar el potencial del deep learning es fijarse en lo que no puede hacer, o bien estudiar sus limitaciones. No en vano, las limitaciones del deep learning también esbozan las limitaciones de la IA y, por lo tanto, también algunos de los desafíos que los investigadores de IA enfrentan actualmente o deben enfrentar en el futuro. Ya avancé un poco más arriba que el deep learning es fuerza bruta; como tal, lleva a cabo un doloroso aprendizaje por bombardeo en el que la pobre máquina procesa toneladas de datos (instancias, ejemplos, escenarios). Dichos datos tratan de abarcar todas las formas posibles que se desean aprender en su máxima variabilidad y representación. No hay sutileza en el deep learning. Para explicar este proceso con un ejemplo, para llegar a aprender a identificar un gato en una imagen, el deep learning requiere ser entrenado con cientos de imágenes que contengan gatos. Esta forma tan brutal de entender el aprendizaje revela por qué el deep learning funciona tan bien para desarrollar IAs competitivas en la mayoría de juegos (hablamos tanto de juegos de tablero como de computador). En los juegos, los contextos son cerrados y controlados; el universo de posibilidades, aunque pueda ser enorme, es limitado y expresable con una representación textual o numérica que lo abarca por completo. En un juego prácticamente toda la información que necesitamos saber para optar por una estrategia ganadora está siempre disponible y cualquier jugada que lleve a nuevas situaciones es potencialmente estimable y predecible aplicando las reglas del propio juego.

De todas formas, ¿por qué el deep learning necesita tantos datos? ¿Por qué ese bombardeo? ¿Por qué ese despilfarro de potencia computacional? ¿Por qué tantas fotos? La respuesta a estas preguntas señala una de las deficiencias más inmediatas del deep learning. El problema es que no comprende las propias abstracciones. Es profundo solo en cuanto a la arquitectura, pero no en la internalización de los patrones o modelos descubiertos. Por lo tanto, no conceptualiza ni es capaz de llevar a cabo inferencias o estructuras jerárquicas de conocimiento como lo hace un ser humano o incluso un animal. Si queremos imaginar el deep learning como un ser pensante, está mucho más cerca de un idiot savant que de un filósofo, un teórico o un ingeniero (en el sentido más puro del término). De hecho, el deep learning en realidad ni siquiera piensa, es simplemente un método muy eficiente de detectar correlaciones. Sus patrones no son conceptos, reglas de relación lógicas o causales, sino la superposición de factores coincidentes en contextos planos. Por lo tanto, las abstracciones que genera no son solo opacas para el propio deep learning, sino también para nosotros. Para referir este aspecto con un ejemplo sencillo, incluso si el deep learning es capaz de aprehender una función numérica y adivinar correctamente resultados ante valores no entrenados, difícilmente vamos a poder obtener una ecuación del modelo aprendido. Hay líneas de investigación punteras que tratan de mejorar la explicabilidad del deep learning, pero no porque se espere encontrar de forma directa reglas que nos permitan comprender los fenómenos, o bien formas revolucionarias de expresar el conocimiento, sino porque queremos obtener indicios sobre dónde centrar la atención para comprender mejor el problema que se está analizado. En otras palabras, entender los modelos aprendidos por el deep learning es tan fustrante como tratar de entender lo que la gente está pensando mediante la observación de la activación de sus neuronas.

En el deep learning el conocimiento aprendido está fuertemente vinculado a la estructura de la red neuronal, difícilmente se puede transportar, por lo que no se puede separar la información del contenedor, o apenas expresar la información aprendida más allá de la estructura de fondo. En resumen, el deep learning no puede formalizar o explicar su conocimiento, ni siquiera para otras estructuras de deep learning. Esta misma incapacidad de formalizar ideas también lo vuelve incapaz de comprenderlas. El deep learning solo se alimenta de datos, de hechos no interpretados (más allá de que el formato de representación implique en sí una interpretación). Debido a la oscuridad de las representaciones, combinar lo que aprende con otras formas de conocimiento es muy difícil, normalmente forzado y superficial cuando se intenta. Por ejemplo, si se quiere que el deep learning juegue bien al ajedrez, está obligado a descubrir por sí mismo conceptos del tipo “el enroque suele ser conveniente”. No se puede inyectar esto directamente en el deep learning, ya que ignoramos cómo trasladar la idea de “enroque” a su mapa interno de conocimiento. Debe ser aprendido por las malas; esto es, introduciendo miles de partidas en las que el enroque haya probado ser un buen movimiento estratégico. Ni siquiera la abstracción que el deep learning pueda alcanzar de la idea de “enroque” se acerca de lejos a la profundidad que tiene el concepto para nosotros. En otras palabras, como el aprendizaje profundo carece de ese último paso de formalización, no se le pueden suministrar ideas descontextualizadas, y no se puede esperar que la máquina aprenda tales ideas mediante un par de ejemplos solitarios. La línea de investigación que trata de mejorar este aspecto se conoce como transfer learning (transferencia de conocimiento).

A pesar de que el deep learning es muy flexible en su capacidad de aprender, hemos visto que el conocimiento adquirido es rígido y difícilmente transportable. En parte, formalizar significa disociar la esencia de los casos específicos que la inspiraron, cosa que nunca ocurre realmente en el deep learning. Por lo tanto, cualquier desviación de contextos degrada severamente la calidad de la información aprendida. Esto significa que la adaptabilidad del deep learning es baja. Volviendo al ejemplo del ajedrez, si a un deep learning experto en ajedrez clásico se le hace jugar la variante conocida como ajedrez-960, en la que las piezas de la primera fila se colocan de forma aleatória, el nivel de la máquina será mucho peor del esperado, probablemente incurriendo en movimientos perdedores que un jugador novato no haría, y esto es debido a que no posee la flexibilidad que sí tiene el ser humano para aprovechar el conocimiento adquirido a pesar de cambios en el marco general del contexto. El deep learning de por sí no es robusto ni se controla a sí mismo. Esto significa que no podemos confiar en él para tareas delicadas o de alto riesgo sin añadir antes algún tipo de control externo. Nótese que si dejamos en manos del deep learning una tarea cuya complejidad exceda la capacidad humana y en la que no tengamos forma de evaluar la validez de la respuesta de la máquina, las consecuencias de un fallo pueden ser dramáticas. Lo peor es que podemos no darnos cuenta, o darnos cuenta demasiado tarde. Asusta pensar en una red de máquinas con el mismo tipo de IA (y por lo tanto destinadas algorítmicamente a cometer el mismo tipo de errores) coincidiendo simultáneamente en la misma decisión errónea. La paradoja del deep learning es que se le entrena para trabajar en entornos en los que no ha sido entrenado, pero su respuesta sólo es fiable dentro de los límites establecidos por el entrenamiento.

Incluso dentro del marco de entrenamiento el deep learning está severamente limitado. Como ya hemos dejado entrever, al deep learning se le tiene por un buen interpolador, pero un mal extrapolador. Sin embargo, en el contexto del aprendizaje automático, donde los espacios se retuercen y se utilizan trucos y proyecciones para evitar las limitaciones de métodos lineales, la diferencia entre interpolación y extrapolación se difumina. Expresado de una forma más intuitiva, el deep learning no posee una buena imaginación (o es demasiado inconsistente). Al carecer de una conceptualización fuerte y significativa, y debido a que puede capturar artefactos arbitrarios como componentes esenciales, el conocimiento resultante es débil y susceptible al engaño. Entre académicos, son populares algunos experimentos de identificación de imágenes en las que estas son manipuladas de forma tal que cambios imperceptibles para el ojo humano hacen que el deep learning fracase estrepitosamente (haciendo que, por ejemplo, identifique a un “cerdo” como un “avión”). Este campo de investigación es conocido como adversarial machine learning (aprendizaje automático frente adversarios). Más allá de la importancia que tiene dicha debilidad en ámbitos como la detección de fraudes o la ciberseguridad, pone de manifiesto la falta de robustez e impredicibilidad inherentes al deep learning, el cual no sigue necesariamente una ley de respuesta proporcional y al que una pequeña deriva en el entorno lo puede proyectar a las antípodas de su impenetrable mapeado interno.

Por último, sin entrar en otros aspectos que quizá sean demasiado técnicos para el propósito de este artículo, merece la pena mencionar una sutil desventaja que tiene que ver con las implicaciones del deep learning en la mentalidad y la metodología de los expertos. Hemos mencionado antes la capacidad de extraer características como una de sus principales virtudes. De ahí que cada sea más común utilizar el deep learning para evitar tener que enfrentar la engorrosa tarea de averiguar las variables que mejor resuelven un problema —que es en realidad el verdadero reto del aprendizaje automático clásico. Tal desafío se conoce como “ingeniería de variables” (feature engineering). Tradicionalmente, el arte de los expertos en aprendizaje automático y análisis de datos se centraba más en la selección de una representación adecuada que no en la técnica de análisis. Esta habilidad humana tiene más que ver con una larga experiencia y un entendimiento profundo del dominio de aplicación —quizás también se require un tanto de pensamiento divergente— que no con los conocimientos en aprendizaje automático y análisis de datos. En cierto modo, los métodos de fuerza bruta también hacen que sus usuarios se vuelvan brutos, y así el deep learning seduce el lado más perezoso de los expertos y enerva su talento inquisitivo, ya que se tiende a presentar las datos crudos a los algorithmos y confiar en su capacidad de extraer “características” por sí mismos. Es importante recordar aquí dos o tres observaciones que deberían ser casi canónicas: que, en muchos casos, los datos crudos pueden ser intratables para el algoritmo; que el deep learning no sustituye a la ingeniería de variables; que cuanto más esfuerzo se dedica en la representación y el preproceso, mejor se aprovecha luego el potencial del algoritmo; y que muchas de las aplicaciones que se plantean con aprendizaje automático pueden resolverse a menudo de forma más limpia, transparente y elegante con simples matemáticas.

 

Concluyendo…

No es mi intención transmitir una impresión pesimista sobre el deep learning, pues en realidad el potencial es francamente asombroso. Sin embargo, he pretendido ofrecer una visión más realista del estado actual de la IA e insistir en que todavía hay un largo camino por recorrer para alcanzar algo lejanamente parecido a la inteligencia artificial general. El deep learning por sí solo no es la solución, pero probablemente sea una parte fundamental de ella. Mi opinión al respecto es que el futuro de la IA no reside en soluciones monolíticas, sino en estructuras complejas que integren adecuadamente deep learning con otros enfoques (también muy interesantes, pero quizá con menos marketing) como el aprendizaje no supervisado, estructuras simbólicas, etc.; y, sin duda, métodos con los que formalizar, transportar, manipular y jerarquizar el conocimiento abstraído por los algoritmos. Para concluir respondiendo a la pregunta inicial, el deep learning es el presente de la IA, muy probablemente también un componente nuclear de su futuro, pero no en solitario, y sin olvidar que todavía se espera, al menos, un paso revolucionario.

 

Disclaimer

 

Este artículo puede contener inexactitudes, quizá errores, e incluso algún concepto equivocado. Soy consciente de que hay investigaciones recientes que están encarando con éxito algunas de las deficiencias del deep learning aquí mencionadas. Confío en que el avispado lector, aquí como en todo lo demás, leerá mi opinión con un sano escepticismo. Aunque a menudo utilizo deep learning en mi  investigación, no estoy 100% al día de los últimos avances (si es que alguien puede) y los hay mucho más expertos que yo en este campo. Además, me equivoco con bastante frecuencia, muy a mi pesar. En tales ocasiones, mi primera reacción es siempre sentir un poco de vergüenza, pero debo admitir que a menudo sigue un tanto de alegría e incluso de alivio. Al final, suelo recordar una frase que leí hace muchos años, creo que era de E. R. Dodds, y decía algo así como que “la verdad de hoy son los errores del mañana”.

 

Autor:

Félix Iglesias

Científico senior de la TU Wien
By |noviembre 6th, 2020|Transformación digital|

About the Author:

Avatar

Leave A Comment