El método de entrenamiento TST de Nous Research genera controversia por su similitud con trabajos anteriores

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Nous Research anunció una nueva publicación de token con su método Token Stacking Training (TST) el 14 de mayo (UTC+8), afirmando que reduce el tiempo de preentrenamiento en 2 a 3 veces bajo la misma carga computacional. El método apila tokens adyacentes durante la etapa temprana de entrenamiento y predice paquetes de tokens en lugar de tokens individuales. Los críticos rápidamente señalaron la similitud de TST con el artículo de 2024 "Beyond Next Token Prediction". El equipo reconoció la superposición como "una desafortunada investigación convergente" y prometió agregar las citas adecuadas. Las nuevas listas de tokens suelen atraer escrutinio, y este caso no es la excepción.

Noticias de ME, 14 de mayo (UTC+8): según el monitoreo de Beating, Nous Research ha lanzado un nuevo enfoque para el preentrenamiento de modelos grandes llamado Token Stacking Training (TST). Este método reduce el tiempo de preentrenamiento entre 2 y 3 veces con la misma cantidad de cálculo, comprimiendo y agrupando tokens adyacentes durante las primeras etapas del entrenamiento. TST consta de dos fases: durante el 20% al 40% inicial del entrenamiento, el modelo ya no procesa tokens individualmente, sino que agrupa tokens adyacentes, calcula su promedio y lo ingresa como entrada, prediciendo en la salida qué tokens estarán incluidos en el siguiente paquete (sin considerar su orden interno). Luego, el modelo vuelve a la predicción convencional del siguiente token. Al no modificar la arquitectura subyacente, los modelos generados son idénticos a los modelos convencionales durante la inferencia. Este método ha sido validado en modelos MoE de hasta 10 mil millones de parámetros. La esencia de este enfoque es "intercambiar datos por potencia de cómputo", acelerando el consumo de corpus para reducir el tiempo de cálculo. Sin embargo, si en el futuro se agotan los textos de alta calidad, esta característica de consumo acelerado podría convertirse en una desventaja. Además, pocas horas después del lanzamiento del artículo, algunos lectores señalaron que el mecanismo de TST es extremadamente similar al trabajo publicado en 2024 titulado "Beyond Next Token Prediction". El equipo de autores reconoció posteriormente en Hugging Face que se trató de una "convergencia desafortunada en la investigación" y se comprometió a actualizar el artículo para incluir las referencias correspondientes. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.