Update: 2025-02-01
AI: Искусственный интеллект на структурированных данных
- [EN] Video-stream object grounding technologies in general artificial intelligence systems.
- [RU] Применение технологий видео-потоковой привязки объектов в системах общего искусственного интеллекта
Назначение
Тема для исследовательской работы аспирантам МФТИ/ФРКТ по специальностям 1.2.1 / 1.2.2 / 1.2.3. По всем интересующим вопросам обращаться по адресу lyashev.va(at)ict-lab.ru.
Цель
Видео-потоковая привязка объектов (video-stream object grounding) – это перспективная область исследований, которая имеет большое значение для таких областей, как интеллектуальные транспортные системы, безопасность инженерных сооружений и другие сферы. Привязка натуральных чисел объектов к каждому кадру видео может существенно улучшить автоматизацию процессов и точность анализа данных.
Введение
Основные направления будущих исследований:
- Определение задач:
- Разработка новых типов задач, связанных с подсчетом объектов в видеопотоке, включая задачи классификации, сегментации и трекинга.
- Определение критериев успешности выполнения этих задач.
- Создание наборов данных:
- Сбор и аннотирование больших объемов данных для различных сценариев применения, таких как транспорт, промышленность, медицина и др.
- Обеспечение разнообразия данных, чтобы модели могли обучаться на реальных условиях эксплуатации.
- Разработка метрик оценки:
- Создание универсальных метрик для оценки точности привязки объектов в видеопотоке.
- Учет специфики разных приложений при разработке метрик.
- Методологии и подходы:
- Исследование и разработка новых методов машинного обучения и компьютерного зрения для решения задач привязки объектов.
- Оптимизация существующих подходов для повышения их эффективности и точности.
Задача
Самонастраиваемое предварительное обучение для гроундинга
Исследования, такие как GLIP и MRefM, уже изучали парадигмы предварительного обучения на основе гроундинга, но они все еще зависят от точных ограничивающих рамок, что ограничивает масштабируемость этого подхода на больших наборах данных. Будущие исследования должны сосредоточиться на разработке методов самонастройки для предварительного обучения гроундингу, чтобы улучшить точность межмодальной привязки и понимания моделей, приближая нас к цели «гроундинг всего».
Применение технологий гроундинга в системах общего искусственного интеллекта
Помимо новых приложений гроундинга, таких как гроундинг высокого разрешения и мультиспектральный гроундинг, технологии гроундинга могут применяться в широком спектре задач и сценариев. Например, при использовании дронов, роботов безопасности и систем воплощенного интеллекта необходимо решать проблемы интерактивного и непрерывного гроундинга между роботами и людьми. К техническим аспектам относятся гроундинг видеопотоков в реальном времени, моделирование потоков данных гроундинга и интеграция обратной связи от людей. Актуальным остается Medical Visual Grounding (MVG), который может быть существенно улучшен за счет динамического наблюдения пациента и интерпритации результатов на основе последовательности снимков (результатов сканирования).