В SberDevices разработали, внедрили и развивают платформу управления данными для обучения генеративного искусственного интеллекта (ИИ) – семейства фундаментальных моделей GigaChat, Kandinsky, GigaCode и др. О ходе этого проекта и его роли для Сбера рассказывает Андрей Евтихов, лидер продукта SaluteEye компании SberDevices и номинант на премию Data Award.

- Каков функционал и задачи созданной платформы?

Ключевой задачей платформы является формирование актуальных и полных массивов данных для обучения всей линейки фундаментальных ИИ-моделей Сбера (GigaChat, SymFormer, Kandinsky, GigaCode и др.). Платформа предоставляет командам аналитиков полный спектр возможностей для управления данными. Это включает сбор данных из открытых источников, пакетную загрузку больших массивов данных от партнеров, извлечение метаданных из сырых массивов информации, быстрый полнотекстовой поиск по массивам данных для обучения, автоматизированную оценку уникальности данных, фильтрацию массивов данных, обработку видео-, аудиоданных и изображений с использованием больших кластеров графических ускорителей.

- Откуда берете данные и какие?

Платформа собирает данные всех модальностей: текст, видео, аудио, изображения, код. В качестве источников используются публично доступные данные на онлайн-ресурсах компаний и организаций, web-архивы, открытые репозитории кода, открытые датасеты для обучения ИИ. Мы сотрудничаем с партнерами, которые предоставляют высокачественные датасеты по отдельным доменам знаний.

- На каких технологиях построена платформа?

Платформа реализована на технологическом стеке одного из ведущих провайдеров облачных и ИИ-технологий России. Используются сервисы управления объектными хранилищами, MPP-хранилищами, реляционными базами данных, динамической инфраструктурой вычислительных ресурсов на GPU-ускорителях.

- Что получилось особенно удачно?

Удалось объединить в одном решении инструменты и готовые компоненты, обеспечивающие полный цикл подготовки данных для обучения фундаментальных моделей ИИ от сбора исходных данных до формирования готовых датасетов, непосредственно используемых в процесс обучения моделей.

- Какие результаты уже достигнуты?

По итогам 2024 года сформированы сверхбольшие постоянно обновляемые массивы данных для всей линейки фундаментальных ИИ-моделей Сбера. Общий размер массивов данных для обучения составляет десятки петабайт и включает в себя несколько миллионов часов видео, миллиарды высококачественных изображений и десятки миллиардов строк кода. Массивы данных растут на несколько петабайт каждый месяц. Достигнутые показатели позволяют создавать фундаментальные ИИ-модели, не уступающие возможностям моделей от ведущих мировых провайдеров.

- В чем роль проекта для бизнеса компании и в целом отрасли данных?

Платформа является одним из ключевых компонентов ИИ-ландшафта банка, обеспечивающего реализацию стратегии по трансформации в человекоцентричную компанию. ИИ трансформация компании уже стала ведущим фактором повышения эффективности внутренних процессов, роста удовлетворенности клиентов и создания новых продуктов.

Успешная разработка и внедрения платформы обеспечила динамичное развитие ИИ-моделей и их вывод на рынок в качестве B2B-сервисов.

Собственные массивы данных для обучения передовых фундаментальных моделей являются необходимым условием укрепления технологической независимости в условиях динамичного развития индустрии искусственного интеллекта.

- Каковы направления развития платформы?

Сейчас мы сконцентрированы в том, чтобы обеспечить формирование массивов данных для обучения фундаментальных ИИ-моделей, уровня «старших» моделей ведущих мировых технологических компаний (OpenAI, Anthropic, Mistral, Google). Для этого запланирован рост размеров массива данных более чем в пять раз, внедрение новых инструментов обработки и управления качеством данных.