Update: 2025-02-01
AI: Искусственный интеллект на структурированных данных
- [EN] Information theory utilization in LLM size reduction with constant precision
- [RU] Теория информации в очистке данных для обучения с целью снижения размера модели ИИ без существенной потери точности
Назначение
Тема для исследовательской работы аспирантам МФТИ/ФРКТ по специальностям 1.2.1 / 1.2.2 / 1.2.3. По всем интересующим вопросам обращаться по адресу lyashev.va(at)ict-lab.ru.
Цель
Training data adjustment (“cleaning”) for parametric redundancy deflation by information theory methods. This approach has to provide 2 methodological benefits: Help to evaluate input data for training to improve quality of training sets automatically (without manual tuning); Help to setup optimization problem of LLM pruning and deflation (also automatically to exclude handmade job). Final benefit: minimal* LLM size with requested precision.
Введение
Исследования в области очистки данных для обучения с использованием теории информации Шеннона и рангов линейных пространств охватывают несколько ключевых направлений. Вот основные из них:
- Теория информации Шеннона в очистке данных
- Информационная энтропия: Используется для оценки неопределенности в данных. Высокая энтропия может указывать на шум или избыточность, что помогает в фильтрации нерелевантной информации.
- Взаимная информация: Применяется для выявления зависимостей между переменными, что полезно для удаления избыточных признаков.
- Информационное сжатие: Методы сжатия данных, основанные на теории информации, помогают уменьшить объем данных без потери важной информации.
- Ранги в линейной алгебре
- Ранг матрицы: Используется для определения линейной независимости признаков. Низкий ранг может указывать на избыточность данных, что помогает в их очистке.
- Сингулярное разложение (SVD): Позволяет выделить наиболее значимые компоненты данных, что полезно для уменьшения размерности и удаления шума.
- Методы низкого ранга: Применяются для аппроксимации данных, что помогает в фильтрации шума и выделении полезной информации.
- Комбинированные подходы
- Информационно-алгебраические методы: Сочетание теории информации и линейной алгебры для более эффективной очистки данных. Например, использование энтропии для оценки значимости компонент, полученных с помощью SVD.
- Оптимизация ранга и энтропии: Методы, которые одновременно минимизируют ранг матрицы данных и максимизируют информативность, что помогает в очистке и сжатии данных.
- Практические применения
- Обработка изображений: Использование рангов и теории информации для удаления шума и сжатия изображений.
- Текстовые данные: Применение информационных мер для фильтрации стоп-слов и избыточных признаков в текстовых данных.
- Биоинформатика: Очистка и анализ геномных данных с использованием методов теории информации и линейной алгебры.
- Современные исследования
- Глубокое обучение и теория информации: Исследования, направленные на использование теории информации для улучшения качества данных, используемых в глубоком обучении.
- Алгоритмы низкого ранга: Разработка новых алгоритмов для аппроксимации данных низкого ранга, что помогает в их очистке и сжатии.