Google розгортає багатотокенне прогнозування на Pixel 9 і 10, підвищуючи швидкість інференції Gemini Nano більш ніж на 50%

За даними Beating, компанія Google розгорнула архітектуру Multi-Token Prediction (MTP) на пристроях Pixel 9 та Pixel 10, що значно прискорило роботу моделі Gemini Nano v3 на пристрої. Нова архітектура збільшила швидкість інференції більш ніж на 50%, зберігши безпекове узгодження моделі та якість виведення.

Механізм нульового копіювання дозволяє голові передбачення безпосередньо повторно використовувати кешовані ознаки основної моделі через крос-увагу, усуваючи накладні витрати окремого кешу ключ-значення традиційних чернеткових моделей. Така конструкція зекономила приблизно 130 МБ пам’яті, одночасно зменшивши затримку запуску.

У реальних сценаріях, як-от підсумовування сповіщень і розумні відповіді, MTP досягла 55% збільшення рівня прийняття токенів, зменшивши частоту пробудження процесора та знизивши енергоспоживання системи.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів