Google представила алгоритм TurboQuant для сжатия больших языковых моделей (LLM). TurboQuant сокращает использование памяти в 6 раз без потери качества вывода, в отличие от других методов сжатия.
Сокращение использования памяти в 6 раз
Это позволяет запускать мощные ИИ-модели на устройствах с ограниченной памятью, снижая затраты на инфраструктуру и расширяя доступность ИИ.
Google TurboQuant делает ИИ-модели эффективнее без ущерба для качества.