Краткий дайджест новостей в области ИИ и технологий
Обзор ключевых событий и исследований в сфере искусственного интеллекта и технологий.
- Проблема спурийных вознаграждений в новых методах ИИ: высокие метрики на Qwen-2.5, но низкая генерализация на других моделях.
- Эксперименты с Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B выявили три бенчмарка для оценки результатов.
- Анализ логитов показал, что на 21-22 слоях моделей наблюдается пик верного ответа при правильной траектории.
- Метрики на MinervaMath и MATH-500 значительно выросли, что подчеркивает их важность.
- В Reddit сообщают о снижении качества работы Нано Банана Про, включая проблемы с следованием промтам и цензурой.
Для подробной информации и анализа, посетите [RBC](https://pro.rbc.ru/demo/)!