AI: дайджест за 13-20 июня 2026

AI: дайджест за 13-20 июня 2026

1. Новый бенчмарк для видеомоделей: «вращать язык 10 секунд»

Предложен простой тест на физику и управляемость движения в видеогенерации: моделям дали промпт про круговое вращение языка на 10 секунд и по 4 попытки. По описанию результатов лучше всех справилась Gemini Omni Flash, затем Grok Imagine 1.5; Seedance 2.0 и Kling 3.0 Pro не выполнили ключевую инструкцию стабильно, что подсвечивает разрыв между реалистичностью картинки и корректностью динамики.

Источники: t.me/cgevent

2. Latent Thought Flow: латентный «CoT» через GFlowNets для более дешёвого рассуждения

В работе Latent Thought Flow предложен фреймворк, который переносит промежуточные рассуждения из текстового CoT в непрерывное латентное пространство и обучает траектории переменной длины через лосс GFlowNet. Заявляется рост точности на логико-математических задачах при резком сокращении числа генерируемых токенов и возможность адаптивно масштабировать вычисления на инференсе.

Источники: t.me/gonzo_ML

3. MiniMax Sparse Attention и открытый MiniMax-M3: ускорение на контекстах до 1M токенов

MiniMax представили механизм разреженного блочного внимания MSA поверх GQA с отдельной «индексной» веткой для выбора KV-блоков и точным вниманием по выбранным блокам. Заявлены существенные снижения FLOPs и ускорения на H800 (в т.ч. на prefill и decode), а также опубликованы код и веса модели MiniMax-M3 (109B MoE).

Источники: t.me/gonzo_ML

4. Boogu Vision: опенсорсный генератор изображений 10B с версиями Base/Turbo/Edit и демо

Анонсирован Boogu Vision — открытая модель генерации/редактирования изображений (10B) с несколькими вариантами (Base, Turbo, Edit) и заявленным упором на улучшение понимания и мультимодальности при меньших датасетах. Опубликованы сайт с демо, интеграции (включая ComfyUI и fal.ai) и отмечены сильные/слабые стороны в сравнении Boogu Turbo и ZIMAG Turbo по отзывам.

Источники: t.me/cgevent

5. DeepSeek добавил распознавание изображений (Vision) в чат

В интерфейсе DeepSeek появилась функция распознавания изображений с отдельной кнопкой, которая может работать даже без промпта и выдаёт текстовое описание картинки. Это расширяет сценарии использования сервиса в сторону мультимодальности и быстрых визуальных разборов.

Источники: t.me/cgevent

6. Google обновляет Home Speaker и добавляет интеграцию с Gemini для голосового помощника

Сообщается о новом Google Home Speaker примерно за $100 с интеграцией Gemini для голосового управления умным домом и более контекстных диалогов (включая уточнение событий вроде даты матча и прогноза погоды на него). Также упоминается подписка Google Home Premium за $10/мес с акцентом на Gemini Live, но различия между базовым и премиальным режимом общения в описании выглядят не до конца ясными.

Источники: t.me/cgevent

7. Suno улучшил разделение трека на стемы: появился Advanced split

Suno обновил инструмент разделения трека на стемы: кроме Autosplit и Split from mix добавлен Advanced split, который вместо частотной изоляции пересоздаёт стемы «чище» на актуальной модели (V5.5). Функция доступна в Premiere-подписке, стоит 10 кредитов за стем, можно извлечь до 12 дорожек; гранулярные стемы (kick/snare и т.п.) пока в бете.

Источники: t.me/cgevent

8. LTX выпустили собственные LoRA и инструменты для обучения в своей экосистеме

Команда LTX представила набор собственных LoRA (включая water, ingredients, inpaint/outpaint, колоризацию, день/ночь и др.) и упоминается LTX Trainer, что снижает порог входа в обучение внутри экосистемы. Отдельно отмечен Just LTX Trainer с GUI и автоматизацией процесса (вплоть до аренды железа и регулярной выдачи промежуточных результатов).

Источники: t.me/cgevent

9. Snap Spectacles: автономные AR-очки за $2200 и негативная реакция рынка

Snap анонсировал AR-очки Spectacles с автономной ОС, 6DoF/hand tracking, низкой задержкой, переводчиком и рядом техособенностей, но с высокой ценой $2200 и депозитом $200 на предзаказ. По сообщению, после анонса акции Snap упали на 14%, что подчёркивает риск слабого спроса на дорогие AR-устройства.

Источники: t.me/cgevent

10. intheweights.com: сервис для проверки, «попали ли вы в веса» LLM

Появился/обсуждается сайт, который по имени показывает, что разные LLM «знают» о человеке, с акцентом на то, что часть ответов может быть галлюцинациями. Инструмент иллюстрирует, как модели могут уверенно выдавать биографические детали с ошибками и как это воспринимается пользователями.

Источники: t.me/cgevent, t.me/denissexy

Read more

AI: дайджест за 4 июля 2026

AI: дайджест за 4 июля 2026

1. DeepSeek представила DSpark для ускорения спекулятивного декодирования Команда DeepSeek-AI описала фреймворк DSpark: полуавторегрессионный параллельный «драфтер» и шедулер префиксов на основе уверенности, чтобы ускорять инференс LLM под высокой конкурентной нагрузкой. Заявлено ускорение генерации на 60–85% для DeepSeek-V4 при сохранении пропускной способности и без деградации качества в «хвосте» последовательности; код

By Kirill Brusenskiy
AI: дайджест за 27 июня 2026 - 4 июля 2026

AI: дайджест за 27 июня 2026 - 4 июля 2026

1. Anthropic временно вернули Fable 5 в подписку с лимитами и усиленными гардрейлами Fable 5 снова доступна в подписке Anthropic: с 1 по 7 июля её можно использовать бесплатно до 50% недельного лимита без активации, после 8 июля — только через API за доплату. Сообщается, что Anthropic усилили ограничения и в

By Kirill Brusenskiy
AI: дайджест за 3 июля 2026

AI: дайджест за 3 июля 2026

1. Утечки о Seedance 2.5: режимы, 4K и long-video до 180 секунд Появились утечки о Seedance 2.5: релиз ожидают примерно через две недели, заявлены варианты Full/Mini/Fast, генерация до 30 секунд и 4K, а также упоминание beta long-video mode с возможностью расширения до 180 секунд. Также опубликованы

By Kirill Brusenskiy
AI: дайджест за 2 июля 2026

AI: дайджест за 2 июля 2026

1. Сбер открыл в open source диффузионную языковую модель GFusion и интегрировал её в SGLang Сбер выложил экспериментальную диффузионную LLM GFusion (на базе GigaChat) и сопутствующие инструменты обучения, заявив ускорение генерации текста до 45% относительно GigaChat 3. Важно тем, что это публичный опенсорс-эксперимент с альтернативной (не автогрессивной) схемой генерации и

By Kirill Brusenskiy