Home Team Academic Papers Journals Topics Photo Telegram

Update: 2025-02-01

AI: Искусственный интеллект на структурированных данных

Назначение

Тема для исследовательской работы аспирантам МФТИ/ФРКТ по специальностям 1.2.1 / 1.2.2 / 1.2.3. По всем интересующим вопросам обращаться по адресу lyashev.va(at)ict-lab.ru.

Цель

Training data adjustment (“cleaning”) for parametric redundancy deflation by information theory methods. This approach has to provide 2 methodological benefits: Help to evaluate input data for training to improve quality of training sets automatically (without manual tuning); Help to setup optimization problem of LLM pruning and deflation (also automatically to exclude handmade job). Final benefit: minimal* LLM size with requested precision.

Введение

Исследования в области очистки данных для обучения с использованием теории информации Шеннона и рангов линейных пространств охватывают несколько ключевых направлений. Вот основные из них:

  1. Теория информации Шеннона в очистке данных
    • Информационная энтропия: Используется для оценки неопределенности в данных. Высокая энтропия может указывать на шум или избыточность, что помогает в фильтрации нерелевантной информации.
    • Взаимная информация: Применяется для выявления зависимостей между переменными, что полезно для удаления избыточных признаков.
    • Информационное сжатие: Методы сжатия данных, основанные на теории информации, помогают уменьшить объем данных без потери важной информации.
  2. Ранги в линейной алгебре
    • Ранг матрицы: Используется для определения линейной независимости признаков. Низкий ранг может указывать на избыточность данных, что помогает в их очистке.
    • Сингулярное разложение (SVD): Позволяет выделить наиболее значимые компоненты данных, что полезно для уменьшения размерности и удаления шума.
    • Методы низкого ранга: Применяются для аппроксимации данных, что помогает в фильтрации шума и выделении полезной информации.
  3. Комбинированные подходы
    • Информационно-алгебраические методы: Сочетание теории информации и линейной алгебры для более эффективной очистки данных. Например, использование энтропии для оценки значимости компонент, полученных с помощью SVD.
    • Оптимизация ранга и энтропии: Методы, которые одновременно минимизируют ранг матрицы данных и максимизируют информативность, что помогает в очистке и сжатии данных.
  4. Практические применения
    • Обработка изображений: Использование рангов и теории информации для удаления шума и сжатия изображений.
    • Текстовые данные: Применение информационных мер для фильтрации стоп-слов и избыточных признаков в текстовых данных.
    • Биоинформатика: Очистка и анализ геномных данных с использованием методов теории информации и линейной алгебры.
  5. Современные исследования
    • Глубокое обучение и теория информации: Исследования, направленные на использование теории информации для улучшения качества данных, используемых в глубоком обучении.
    • Алгоритмы низкого ранга: Разработка новых алгоритмов для аппроксимации данных низкого ранга, что помогает в их очистке и сжатии.
Эти направления активно развиваются и находят применение в различных областях, таких как машинное обучение, обработка сигналов, биоинформатика и другие.