Beating сообщает, что Nous Research открыла исходный код Lighthouse Attention — механизма обучения для длинного контекста, который обеспечивает 17-кратное ускорение при обработке текста длиной 512 тыс. на одном GPU B200, а также 1,4–1,7-кратное ускорение обучения end-to-end при длине 98 тыс. В основе подхода лежит схема coarse-to-fine: сначала он сканирует сжатые сводки на разных уровнях, чтобы определить ключевые сегменты, затем передаёт отфильтрованный текст в FlashAttention для обработки. В тестах на модели с 512k параметров, обученной на 50 миллиардах токенов, метод не только сократил время обучения, но и соответствовал базовой производительности обучения с полностью attention-механизмом или превзошёл её.
Related News
OpenAI добавила обнаружение кризисных диалогов в ChatGPT, улучшив способность предупреждать о самоповреждающем насилии
Bittensor TAO поднимается выше $300 на фоне всплеска спроса на AI-криптовалюты
Эксперты: zk-доказательства дают DePIN’ам преимущество по мере роста спроса на доверие к ИИ