Краткий дайджест новостей в области ИИ
Обзор ключевых событий и исследований в сфере искусственного интеллекта.
- Проблема спурийных наград в методах GRPO: новые модели показывают высокие метрики на Qwen-2.5, но не генерализуются на другие модели.
- Эксперименты с Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B выявили три бенчмарка для проверки результатов.
- Анализ Logit Lens показал,