На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия
Ok
1 Подписывайтесь на RusTopNews.Ru в MAX Все ключевые события — в нашем канале. Подписывайтесь!
Все новости
Новые материалы +
Размер текста
А
А
А

Т-Банк представил метод интерпретации нейронных сетей без потери точности

Специалисты T-Bank AI Research нашли способ сделать работу моделей прозрачнее
true
true
true

Исследователи T-Bank AI Research представили новый метод обучения нейросетей так, чтобы они смогли объяснить свои решения на разных уровнях детализации, сообщили в Т-Банке.

Новый метод сохраняет высокую интерпретируемость, позволяет более точно описать поведение модели, предотвращает «мертвые признаки» (характеристики, которые перестают работать при смене параметров) и снижает вычислительные затраты.

Как отметил руководитель научной группы LLM Foundations, T-Bank AI Research Никита Балаганский, сейчас для понимания внутренних решений языковых моделей приходится обучать множество отдельных подмоделей.

«HierarchicalTopK позволяет заменить их одной универсальной моделью, которая сохраняет интерпретируемость на любом уровне разреженности. Метод особенно полезен для аудита языковых моделей, анализа их поведения и быстрой корректировки ответов, что важно для бизнеса и сфер с повышенными требованиями к надежности и прозрачности», — сказал он.

Балаганский подчеркнул, что новый подход сделает ИИ понятнее и доступнее для исследователей и индустрии.

Также исследователи совместно с лабораторией Центрального университета Omut AI разработали новый способ обучения больших языковых моделей рассуждению. В T-Bank AI Research рассказали, что обычно для развития рассуждения у больших языковых моделей применяется обучение с подкреплением (reinforcement learning). Исследователи предложили альтернативу, в которой вместо корректировки параметров языковой модели добавляются векторы-настройки (steering vectors), представляющие собой компактные подсказки для усиления правильных логических шагов.

Исследователи добавили, что новый метод не требует изменений миллиардов параметров языковой модели, увеличивает скорость обучения и занимает намного меньше памяти.

«Наш метод показывает, что обучать модели рассуждать можно без изменения миллионов параметров. Это открывает новый этап в развитии доступного искусственного интеллекта для бизнеса», — отметил исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research Вячеслав Синий.

Что думаешь?