AI: дайджест за 1 июня 2026
1. NVIDIA и Microsoft представили платформу RTX Spark для «AI-PC» с локальными агентами
Анонсирована платформа RTX Spark (SoC с ARM CPU, Blackwell GPU и unified memory), ориентированная на запуск локальных AI-агентов в Windows с акцентом на безопасный доступ к данным и приложениям. Заявлены до 128 ГБ общей памяти, до 1 петафлопа AI-производительности и возможность локального запуска моделей до 120B параметров, что позиционируется как конкурент Apple Silicon и шаг к «персональным ассистентам» на устройстве.
Источники: t.me/cgevent, t.me/How2AI
2. NVIDIA показала Sana-Streaming: локальное реалтайм-редактирование видео промптами
NVIDIA представила Sana-Streaming — подход к потоковому редактированию видео в реальном времени на локальной машине, похожий на Stream Diffusion, но с возможностью редактирования. Демонстрация работает на RTX 5090 в 720p и требует около 5.56 GB VRAM, что указывает на движение к интерактивным видеогенеративным пайплайнам на пользовательском железе.
Источники: t.me/cgevent
3. Вышел Grok Imagine Video 1.5 Preview: 15 секунд 720p и доступ по API
Сообщается о релизе Grok Imagine Video 1.5 Preview для image-to-video: генерация до 15 секунд в 720p, доступность через API (в т.ч. на FAL) и цена порядка $2.10 за 15 секунд. По впечатлениям из источников, модель сильна в эмоциях/диалогах и мимике, но в динамичных сценах может уступать Seedance; приведены примеры и сравнения.
Источники: t.me/cgevent
4. MiniMax анонсировала модель M3 с контекстом до 1M токенов и мультимодальностью
MiniMax выпустила M3: заявлены мультимодальность и контекст до 1 миллиона токенов, а также планы выложить веса (и пейпер) позже. Названы цены API ($1.2/$4.8 за миллион токенов) и промо-скидка на первую неделю для запросов до 512k, что делает модель заметным игроком в сегменте длинного контекста.
Источники: t.me/ai_newz
5. Исследование The Thinking Pixel: рекурсивное разреженное reasoning в латентах диффузии
В работе предложен фреймворк Recursive Sparse Reasoning, который встраивает разреженные MoE-модули в joint attention мультимодальных диффузионных моделей и итеративно уточняет визуальные токены через внутренние латентные шаги с LoRA-адаптерами. Это переносит идею test-time reasoning в генерацию изображений и нацелено на улучшение выполнения сложных композиционных инструкций без грубого масштабирования базовой модели.
Источники: t.me/gonzo_ML