Aprendizaje reforzado (aprendizaje reforzado), un subcampo del aprendizaje automático, relacionado con las técnicas de entrenamiento de IA que utilizan ‘recompensas’ para promover la política de software hacia objetivos específicos. En otras palabras, este es el proceso mediante el cual la IA intentará diferentes acciones, aprenderá cada retroalimentación, independientemente de si brinda mejores resultados o no, y luego reforzará las acciones que se desencadenaron. usar, es decir, rehacer y modificar automáticamente sus algoritmos en múltiples iteraciones proporciona los mejores resultados. En los últimos años, se ha explorado el aprendizaje intensivo para modelar el impacto de las reglas sociales con el fin de crear modelos de juego extremadamente buenos para IA o robots de programación de autoservicio. Una operación activa después de incidentes de software desagradables.
- Winnow utiliza la visión por computadora para ayudar a reducir el desperdicio en el procesamiento de alimentos
Aunque tiene una gran flexibilidad, se puede aplicar a muchos modelos y propósitos diferentes, las técnicas de aprendizaje por refuerzo contienen una omisión lamentable: es menos eficaz. Para entrenar un modelo de IA con técnicas de aprendizaje mejoradas, se requieren muchas interacciones diferentes en entornos simulados o reales, mucho más que cuando las personas necesitan aprender una tarea en particular. Para superar este problema, especialmente en el campo de los videojuegos, los investigadores de inteligencia artificial de Google propusieron recientemente el uso de un nuevo algoritmo llamado Simulated Policy Learning (abreviatura de SimPLe), que utiliza modelos simples de videojuegos para aprender y mejorar las políticas de calidad en el mundo. elección de técnicas de aprendizaje por refuerzo.
Los investigadores describieron este algoritmo en un nuevo artículo impreso titulado ‘Aprendizaje por refuerzo basado en modelos para Atari’ (traducido aproximadamente: Aprendiendo a fortalecer en base al modelo Atari) y simultáneamente en un documento que viene con código abierto.
“En un nivel alto, la idea de los investigadores de desarrollar algoritmos SimPLe es alternar entre establecer un modelo de características y características del juego y usar ese modelo para optimizar una política (con técnicas de aprendizaje mejoradas sin modelos) en el entorno de simulación de juegos. Los principios básicos detrás de este algoritmo se han establecido y se han utilizado en una variedad de métodos de aprendizaje intensivo basados en modelos recientes ‘, dijeron los científicos Łukasz Kaiser y Dumitru Erhan del equipo de IA de Google.
- Admire la nueva aplicación de inteligencia artificial de Nvidia: convierta el doodle de MS Paint en una ‘obra maestra’ artística
Como explicaron los dos investigadores, entrenar un sistema de IA para jugar requiere predecir la siguiente estructura del juego objetivo, que viene dada por una serie de cuadros y comandos. combinar (por ejemplo, ‘izquierda’, ‘en’, ‘derecha’, ‘adelante’, ‘atrás’). Además, los investigadores también señalaron que un modelo exitoso puede crear las ‘órbitas’ que se pueden usar en las políticas del programa de entrenamiento de agentes de juegos, lo que reducirá la necesidad de cálculos complejos en el juego.
El algoritmo SimPLe hace precisamente eso. Se necesitan 4 fotogramas como datos de entrada para predecir el siguiente fotograma junto con la recompensa y, después de estar completamente entrenado, el algoritmo generará ‘despliegues’ (la secuencia de secuencias de acción, observación y resultados) que se utilizan para mejorar la política (2 expertos Kaiser y Erhan señalan que el algoritmo SimPLe usa solo implementaciones de longitud media para minimizar los errores predictivos).
En pruebas largas equivalentes a 2 horas de juego (100,000 interacciones), los programas de la agencia (agentes) con la política SimPLe ajustada lograron puntajes máximos en dos juegos de prueba (Pong y Freeway), mientras creaban predicciones casi perfectas de hasta 50 etapas. En el futuro.
- El 91% de los gerentes de tecnología creen que la IA será el centro de la próxima revolución tecnológica
A veces, dos investigadores también intentan recopilar detalles pequeños pero muy relevantes en los juegos, lo que resulta en un fracaso. Kaiser y Erhan admiten que este algoritmo todavía no es realmente consistente con el desempeño de los métodos de aprendizaje por refuerzo estándar. Sin embargo, SimPLe es capaz de proporcionar el doble de formación y el equipo espera que la investigación futura ayude a mejorar significativamente el rendimiento del algoritmo.
«El objetivo principal de los métodos de aprendizaje intensivo basados en modelos es en entornos donde las interacciones parecen requisitos de etiquetado complejos, lentos o humanos, por ejemplo, en muchas tareas de robots. En tal entorno, un emulador nos permitirá comprender mejor el entorno de los programas del agente y, a partir de ahí, puede conducir a formas nuevas, mejores y más rápidas de hacer las cosas. aprender la mejora multitarea ‘.
Aprendizaje profundo refuerzo del aprendizaje automático ai aprendizaje inteligencia artificial google
Aprendizaje reforzado (aprendizaje reforzado), un subcampo del aprendizaje automático, relacionado con las técnicas de entrenamiento de IA que utilizan ‘recompensas’ para promover la política de software hacia objetivos específicos. En otras palabras, este es el proceso mediante el cual la IA intentará diferentes acciones, aprenderá cada retroalimentación, independientemente de si brinda mejores resultados o no, y luego reforzará las acciones que se desencadenaron. usar, es decir, rehacer y modificar automáticamente sus algoritmos en múltiples iteraciones proporciona los mejores resultados. En los últimos años, se ha explorado el aprendizaje intensivo para modelar el impacto de las reglas sociales con el fin de crear modelos de juego extremadamente buenos para IA o robots de programación de autoservicio. Una operación activa después de incidentes de software desagradables.
- Winnow utiliza la visión por computadora para ayudar a reducir el desperdicio en el procesamiento de alimentos
Aunque tiene una gran flexibilidad, se puede aplicar a muchos modelos y propósitos diferentes, las técnicas de aprendizaje por refuerzo contienen una omisión lamentable: es menos eficaz. Para entrenar un modelo de IA con técnicas de aprendizaje mejoradas, se requieren muchas interacciones diferentes en entornos simulados o reales, mucho más que cuando las personas necesitan aprender una tarea en particular. Para superar este problema, especialmente en el campo de los videojuegos, los investigadores de inteligencia artificial de Google propusieron recientemente el uso de un nuevo algoritmo llamado Aprendizaje de políticas simulado (abreviado SimPLe), que utiliza modelos simples de videojuegos para aprender y también para mejorar. calidad en la elección de técnicas de aprendizaje por refuerzo.
Los investigadores describieron este algoritmo en un nuevo artículo impreso titulado ‘Aprendizaje por refuerzo basado en modelos para Atari’ (traducido aproximadamente: Aprendiendo a fortalecer en base al modelo Atari) y simultáneamente en un documento que viene con código abierto.
“En un nivel alto, la idea de los investigadores de desarrollar algoritmos SimPLe es alternar entre establecer un modelo de características y características del juego y usar ese modelo para optimizar una política (con técnicas de aprendizaje mejoradas sin modelos) en el entorno de simulación de juegos. Los principios básicos detrás de este algoritmo han sido bien establecidos y utilizados en una variedad de métodos de aprendizaje intensivo basados en modelos recientes ‘, dijeron los científicos scientistsukasz Kaiser y Dumitru Erhan del equipo de IA de Google.
- Admire la nueva aplicación de inteligencia artificial de Nvidia: convierta el doodle de MS Paint en una ‘obra maestra’ artística
Como explicaron los dos investigadores, entrenar un sistema de inteligencia artificial para jugar requiere predecir la siguiente estructura del juego objetivo, que viene dada por una serie de cuadros y comandos. combinar (por ejemplo, ‘izquierda’, ‘en’, ‘derecha’, ‘adelante’, ‘atrás’). Además, los investigadores señalaron que un modelo exitoso puede crear las ‘órbitas’ que se pueden utilizar en las políticas del programa de entrenamiento de los agentes del juego, lo que reducirá la necesidad de cálculos complejos en el juego.
El algoritmo SimPLe hace precisamente eso. Se necesitan 4 marcos como datos de entrada para predecir el siguiente marco junto con la recompensa y, después de estar completamente entrenado, el algoritmo generará ‘implementaciones’ (la secuencia de secuencias de acción, observación y resultados) que se utilizan para mejorar la política (2 expertos Kaiser y Erhan señalan que el algoritmo SimPLe usa solo implementaciones de longitud media para minimizar los errores predictivos).
En pruebas largas equivalentes a 2 horas de juego (100,000 interacciones), los programas de la agencia (agentes) con la política SimPLe ajustada lograron puntajes máximos en dos juegos de prueba (Pong y Freeway), mientras creaban predicciones casi perfectas de hasta 50 etapas. En el futuro.
- El 91% de los gerentes de tecnología creen que la IA será el centro de la próxima revolución tecnológica
A veces, dos investigadores también intentan recopilar detalles pequeños pero muy relevantes en los juegos, lo que resulta en un fracaso. Kaiser y Erhan admiten que este algoritmo todavía no es realmente consistente con el desempeño de los métodos estándar de aprendizaje por refuerzo. Sin embargo, SimPLe es capaz de proporcionar el doble de formación y el equipo espera que la investigación futura ayude a mejorar significativamente el rendimiento del algoritmo.
«El objetivo principal de los métodos de aprendizaje intensivo basados en modelos es en entornos donde las interacciones parecen requisitos de etiquetado complejos, lentos o humanos, por ejemplo, en muchas tareas de robots. En tal entorno, un emulador nos permitirá comprender mejor el entorno de los programas del agente y, a partir de ahí, puede conducirnos a formas nuevas, mejores y más rápidas de hacer las cosas. aprender la mejora multitarea ‘.