Краткий дайджест новостей в области ИИ
Обзор последних событий и исследований в сфере искусственного интеллекта.
- Исследования показывают, что новые методы не всегда хорошо работают на разных моделях, несмотря на высокие метрики на Qwen-2.5.
- Эксперименты с Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B выявили три ключевых бенчмарка для оценки результатов.
- Анализ Logit Lens показал, что на определённых слоях моделей наблюдается пик верного ответа.
- Метрики моделей значительно улучшились на MinervaMath и MATH-500.
- В Reddit сообщают о снижении качества работы Нано Банана Про, включая проблемы с следованием промтам и цензурой.
Подробности и источники можно найти [здесь](https://t.me/gonzo_ML/4701).