AWS Trainium

Новости

Ускорение инференса на чипах AWS Trainium

Метод спекулятивного декодирования может ускорить инференс LLM на чипах AWS Trainium

Метод спекулятивного декодирования на чипах AWS Trainium позволяет сократить задержку генерации текста до 15 мс для структурированных задач.