Демократизация и создание датацентричного ИИ

Технологии искусственного интеллекта и машинного обучения переживают знаковое десятилетие. Мы стали свидетелями ударного развития машинного восприятия и фантастических побед AlphaGo, появления на сцене AGI (общего искусственного интеллекта) и SSL (самостоятельного обучения). Компания PwC предполагает, что к 2030 году вклад ИИ в мировую экономику составит $15.7 трлн., а IDC прогнозирует, что к 2024 году объём вложений в исследование и применение ИИ достигнет $500 млрд.

Развитие ИИ будет означать упрощение всех требовательных информационных процессов как для отдельных пользователей, так и для организаций и целых корпораций. Но для этого нам необходимо будет демократизировать эту технологию! Автоматизация машинного обучения стала хорошей практикой для создаваемых моделей ИИ, а ведущие инструменты в этой области предоставляют опенсорсные MLflow и Kubeflow, а также Amazon SageMaker.

Насколько практичны MLOps (операции машинного обучения)?

Согласно Википедии, MLOps — это набор процедур эффективного внедрения моделей с машинным обучением в производство. Но достаточно ли эффективны MLOps? Чтобы ответить на этот вопрос, нужно вспомнить два уникальных свойства ИИ.

С 2016 года ИИ/МО развивались очень активно. Насколько серьёзный путь прошли эти технологии за последние годы! Взглянуть хотя бы на AlphaFold от DeepMind bkb yf GPT-3 и DALL·E 2 от OpenAI. Ион Стойка отметил, что требования МО к вычислительным мощностям растут почти в 17.5 быстрее, чем предсказывает известный закон Мура. При таком стремительном росте работа ИИ должна производиться на открытой масштабируемой платформе, а это будет значить серьезное усложнение автоматизации и обновления приложений AI.

Кроме того, ИИ-приложения привлекают всеобщее внимание. Всё больше и больше организаций начинают внедрять их для повышения эффективности работы и цифровизации. Но при этом компании сталкиваются с “узким местом” внедрения ИИ — скоростью и работоспособностью. 

Именно MLOps можно будет просто и быстро внедрить машинное обучение и обслуживать его. Иначе же основательно усложнится весь жизненный цикл МО от первого до последнего звена. 

Проблемы демократизации искусственного интеллекта

Демократизация искусственного интеллекта жизненно необходима для развития этой технологии. Однако это, кажется, займет немало времени! Существует как минимум пять основных проблем:

  1. Обмен новыми алгоритмами и фреймворками для использования их в разных сценариях. Сложности тут две: как подойти к разработке алгоритмов, чтобы они быстро масштабировались? И как обеспечить проприетарное моделирование в опенсорсных, коммерческих  и прочих API?
  2. Демократизация искусственного интеллекта означает и демократизацию данных. Значит, проблема обмена данными (а также вопрос безопасности и конфиденциальности этих данных) встаёт так же остро, как и проблема обмена моделями.
  3. Третья проблема — этика ИИ, то есть обширный комплекс ограничений, связанных с ответственным применением технологии: с её безопасностью, надёжностью, учётом интересов человека и окружающей среды. 
  4. Недавние достижения ИИ меркнут по сравнению с тем, чего можно добиться, раскрыв весь его потенциал. Скорее всего, далее нас ждёт AGI, самообучение и RL (обучение с подкреплением). Каждый этот шаг имеет значение и несёт в себе определённые сложности и даже угрозы. 
  5. И наконец, с экспоненциальным ростом данных и моделей, инфраструктура и платформы ИИ становятся всё дороже, хотя с этой проблемой могут помочь облачные решения.

Что такое датацентричный искусственный интеллект? В чем его значение?

Данные — это пища для ИИ/МО. Датацентричный ИИ — технология, которая решит все наши моделеориентированные проблемы. Датацентричный ИИ предполагает датацентричное мышление с тремя методами обработки данных: принцип «data first», интеллектуальная архитектура данных и проверка на соответствие закону. В подходе «data first» во главу угла ставится качество данных, их доступность и наблюдаемость. Качество данных измеряется семью показателями:

  1. Точность: данные по определению должны быть точны.
  2. Согласованность: одни и те же данные не должны отличаться в разных процессах.
  3. Цельность: записи и значения не должны теряться. 
  4. Метаданные: нам нужно как можно больше данных для изучения и наблюдения.
  5. Актуальность: данные должны своевременно обновляться, своевременно должна приниматься обратная связь.
  6. Релевантность: данные должны отвечать поставленным перед ними требованиям.
  7. Эффективность: теперь объем и точность данных имеет значение!

В общем, важен не просто объём данных, а их качество, т.к. именно от него будет зависеть эффективность работы датацентричного ИИ. Доступность данных отражает их готовность согласно SLA (соглашению об уровне сервиса) к экспериментам с ИИ, моделированию, обучению и обслуживанию. Тут уже недостаточно будет их просто постоянно обновлять! Возможно, поклонники облачных сервисов даже сочтут такой подход к обеспечению слишком простым, но они бы точно передумали, если бы им пришлось обучать или обслуживать крупномасштабную модель со всеми её функциями. По сравнению с S3 это совершенно другой мир. Наблюдаемость данных позволяет изучать их свойства, закономерности, а также увидеть происхождение данных, метрики, статистику, которые затем можно использовать для отладки системы. 

Соответствие закону о защите данных гарантирует, что данные для ИИ будут использоваться корректно. Таким образом можно решить проблему безопасности и конфиденциальности в соответствии с нормативными актами. Здесь же можно упомянуть и федеративное обучение. 

Внедрение датацентричного ИИ

Сегодня новые разработки в области ИИ нацелены на улучшение технологии, оптимизацию ее применения и масштабирования в производстве. Возможно, обозначенные выше проблемы также будут решены через ИИ-проектирование, но для этого технологию нужно будет реформировать и демократизировать. Нам нужен мост между исследованием искусственного интеллекта и его практическим применением. Его сооружение выходит за пределы практики MLOps, нам недостаточно просто оперативно автоматизировать машинное обучение, нам нужно будет также поработать со сбором данных, проектированием функций, моделированием, тренингом, верификацией данных, нам придется дорабатывать обслуживание и мониторинг. Так мы решим комплексную проблему качества данных, оптимизируем модели, повысим пользовательскую эффективность и легче сможем управлять данными и моделями с инженерной дисциплиной.

Сегодня на фронтире технологии ИИ находится интеллектуальная архитектура данных. Прежде чем переходить к науке о данных и модельному тренингу, нужно собрать данные, предварительно их обработать, а также обеспечить должную сохранность. Создание и настройка ИИ/МО очень требовательны и включают множество этапов от сбора данных до проектирования функций, моделирования, тренинга, верификации и обслуживания. Всё это зависит от платформы, на которой хранятся данные, и её архитектуры. Эффективный пайплайн работы с данным и эффективное хранилище данных жизненно важны для успеха ИИ/МО. Так что для дата-инжиниринга необходимо умное и современное хранилище данных.

Учитывая всё это, проектирование датацентричного ИИ — это проектирование фреймворка для датацентричных ИИ, который поможет системно организовать жизненный цикл этой технологии. И его можно описать с помощью трёх инженерных уровней: studio (или IDE), низкий код/без кода, со встроенным интеллектом. 

Каждый уровень можно разбить на подуровни, например, Amazon SageMaker Studio поддерживает notebook/IDE, Data Wrangler (для проектирования функций), Autopilot (способность AutoML) и JumpStart (готовые решения и тренированные модели). Amazon SageMaker Canvas — это пример ML-сервиса с низким кодом или без кода. SageMaker, выросший из Amazon EML (Elastic ML), сейчас является ведущим фреймворком MLOps, однако история проектирования ИИ только начинается. 

Встроенный интеллект — это полностью интегрированное и управляемое ИИ-решение, где интеллект является частью данных без специальной подготовки и обслуживания. Это может быть готовый вариант интеллектуального интерфейса. Все три уровня должны быть надёжными, эффективными и масштабируемыми, хотя там допустимы разный уровень оперативной автоматизации и ориентация на разных пользователей.

Подытожим

Эффективным решением проблемы трансформации и демократизации ИИ является проектирование датацентричного искусственного интеллекта. Также хорошей практикой станет разработка и применение искусственного интеллекта с нуля, а не использование зрелых моделей.

Написано по переводу статьи «Что такое разработка датацентричного ИИ» эксперта Лухуи Ху. Источник

 

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: