AI: дайджест за 13-20 июня 2026
1. Новый бенчмарк для видеомоделей: «вращать язык 10 секунд»
Предложен простой тест на физику и управляемость движения в видеогенерации: моделям дали промпт про круговое вращение языка на 10 секунд и по 4 попытки. По описанию результатов лучше всех справилась Gemini Omni Flash, затем Grok Imagine 1.5; Seedance 2.0 и Kling 3.0 Pro не выполнили ключевую инструкцию стабильно, что подсвечивает разрыв между реалистичностью картинки и корректностью динамики.
Источники: t.me/cgevent
2. Latent Thought Flow: латентный «CoT» через GFlowNets для более дешёвого рассуждения
В работе Latent Thought Flow предложен фреймворк, который переносит промежуточные рассуждения из текстового CoT в непрерывное латентное пространство и обучает траектории переменной длины через лосс GFlowNet. Заявляется рост точности на логико-математических задачах при резком сокращении числа генерируемых токенов и возможность адаптивно масштабировать вычисления на инференсе.
Источники: t.me/gonzo_ML
3. MiniMax Sparse Attention и открытый MiniMax-M3: ускорение на контекстах до 1M токенов
MiniMax представили механизм разреженного блочного внимания MSA поверх GQA с отдельной «индексной» веткой для выбора KV-блоков и точным вниманием по выбранным блокам. Заявлены существенные снижения FLOPs и ускорения на H800 (в т.ч. на prefill и decode), а также опубликованы код и веса модели MiniMax-M3 (109B MoE).
Источники: t.me/gonzo_ML
4. Boogu Vision: опенсорсный генератор изображений 10B с версиями Base/Turbo/Edit и демо
Анонсирован Boogu Vision — открытая модель генерации/редактирования изображений (10B) с несколькими вариантами (Base, Turbo, Edit) и заявленным упором на улучшение понимания и мультимодальности при меньших датасетах. Опубликованы сайт с демо, интеграции (включая ComfyUI и fal.ai) и отмечены сильные/слабые стороны в сравнении Boogu Turbo и ZIMAG Turbo по отзывам.
Источники: t.me/cgevent
5. DeepSeek добавил распознавание изображений (Vision) в чат
В интерфейсе DeepSeek появилась функция распознавания изображений с отдельной кнопкой, которая может работать даже без промпта и выдаёт текстовое описание картинки. Это расширяет сценарии использования сервиса в сторону мультимодальности и быстрых визуальных разборов.
Источники: t.me/cgevent
6. Google обновляет Home Speaker и добавляет интеграцию с Gemini для голосового помощника
Сообщается о новом Google Home Speaker примерно за $100 с интеграцией Gemini для голосового управления умным домом и более контекстных диалогов (включая уточнение событий вроде даты матча и прогноза погоды на него). Также упоминается подписка Google Home Premium за $10/мес с акцентом на Gemini Live, но различия между базовым и премиальным режимом общения в описании выглядят не до конца ясными.
Источники: t.me/cgevent
7. Suno улучшил разделение трека на стемы: появился Advanced split
Suno обновил инструмент разделения трека на стемы: кроме Autosplit и Split from mix добавлен Advanced split, который вместо частотной изоляции пересоздаёт стемы «чище» на актуальной модели (V5.5). Функция доступна в Premiere-подписке, стоит 10 кредитов за стем, можно извлечь до 12 дорожек; гранулярные стемы (kick/snare и т.п.) пока в бете.
Источники: t.me/cgevent
8. LTX выпустили собственные LoRA и инструменты для обучения в своей экосистеме
Команда LTX представила набор собственных LoRA (включая water, ingredients, inpaint/outpaint, колоризацию, день/ночь и др.) и упоминается LTX Trainer, что снижает порог входа в обучение внутри экосистемы. Отдельно отмечен Just LTX Trainer с GUI и автоматизацией процесса (вплоть до аренды железа и регулярной выдачи промежуточных результатов).
Источники: t.me/cgevent
9. Snap Spectacles: автономные AR-очки за $2200 и негативная реакция рынка
Snap анонсировал AR-очки Spectacles с автономной ОС, 6DoF/hand tracking, низкой задержкой, переводчиком и рядом техособенностей, но с высокой ценой $2200 и депозитом $200 на предзаказ. По сообщению, после анонса акции Snap упали на 14%, что подчёркивает риск слабого спроса на дорогие AR-устройства.
Источники: t.me/cgevent
10. intheweights.com: сервис для проверки, «попали ли вы в веса» LLM
Появился/обсуждается сайт, который по имени показывает, что разные LLM «знают» о человеке, с акцентом на то, что часть ответов может быть галлюцинациями. Инструмент иллюстрирует, как модели могут уверенно выдавать биографические детали с ошибками и как это воспринимается пользователями.
Источники: t.me/cgevent, t.me/denissexy