Un equipo de investigadores chinos y de Microsoft logró entrenar un modelo de inteligencia artificial (IA) a partir de datos completamente sintéticos y chips de Nvidia, un avance que permitió superar el rendimiento de sistemas de mayor tamaño y que abre nuevas vías para sortear la creciente escasez de información real en este ámbito.

El trabajo, desarrollado por científicos de las universidades chinas de Tsinghua y de Wuhan, además del Microsoft Research Asia, describe un nuevo sistema de generación de datos sintéticos, denominado SynthSmith, capaz de entrenar modelos de programación sin recurrir a conjuntos de información del mundo real, reportó este lunes el diario hongkonés South China Morning Post.

El avance se apoya en chips de Nvidia, principal proveedor de procesadores gráficos para el entrenamiento de modelos de inteligencia artificial, en un momento marcado por las restricciones impuestas por Estados Unidos a la exportación de semiconductores avanzados a China y por los esfuerzos de Pekín por reducir su dependencia tecnológica exterior.

De acuerdo con el estudio, publicado en el repositorio científico de acceso abierto arXiv, el equipo entrenó un modelo de codificación con 7.000 millones de parámetros que superó en las principales pruebas de rendimiento a otros de hasta 14.000 millones, pese a emplear menos información y prescindir por completo de datos reales.

Los investigadores explican que su método permite generar grandes volúmenes de ejemplos sintéticos con alta diversidad y coherencia, lo que facilita mejorar la capacidad de razonamiento y programación de los sistemas sin depender de nuevas fuentes externas.

"Un análisis detallado muestra que las leyes de escalado se mantienen en nuestro conjunto sintético", señalan en el artículo.

Los datos sintéticos, generados por algoritmos que imitan patrones del mundo real, se han convertido en una de las principales vías de trabajo del sector ante la dificultad creciente para acceder a grandes volúmenes de información humana de alta calidad, identificada como uno de los principales límites para el desarrollo de modelos avanzados.

En este contexto, grandes tecnológicas y centros de investigación recurren cada vez más a este tipo de soluciones para mantener el ritmo de mejora de sus sistemas, aunque diversos estudios también advierten de los riesgos de entrenar modelos únicamente con datos artificiales, lo que podría afectar a su rendimiento.

Los autores subrayan que su sistema puede mejorar la eficiencia del entrenamiento y reducir la necesidad de grandes volúmenes de datos reales, aunque reconocen que los modelos basados en información sintética requieren validación continua para evitar distorsiones

China ha situado la autosuficiencia en semiconductores y tecnologías estratégicas entre sus prioridades para los próximos años, al tiempo que impulsa el desarrollo de alternativas nacionales y métodos que permitan optimizar el uso del hardware disponible.