Генеративный ИИ — это общий термин для любого вида автоматизированного процесса, использующего алгоритмы для создания, обработки или синтеза данных, часто в форме изображений или удобочитаемого текста. Это называется порождающий потому что ИИ создает то, чего раньше не было. Вот что отличает его от дискриминационный ИИ, который проводит различия между различными видами ввода. Другими словами, различающий ИИ пытается ответить на вопрос вроде «Это изображение — рисунок кролика или льва?» тогда как генеративный ИИ отвечает на такие подсказки, как «Нарисуй мне изображение льва и кролика, сидящих рядом друг с другом».
В этой статье вы познакомитесь с генеративным ИИ и его использованием с популярными моделями, такими как ChatGPT и DALL-E. Мы также рассмотрим ограничения технологии, в том числе то, почему «слишком много пальцев» стало бесполезной приманкой для искусственно созданного искусства.
Появление генеративного ИИ
Генеративный ИИ существует уже много лет, возможно, с тех пор, как ЭЛИЗА, чат-бот, который имитирует разговор с терапевтом, был разработан в Массачусетском технологическом институте в 1966 году. Но годы работы над ИИ и машинным обучением недавно увенчались успехом с выпуском новых генеративных систем ИИ. Вы почти наверняка слышали о ЧатGPTтекстовый чат-бот с искусственным интеллектом, который создает удивительно человеческую прозу. ДАЛЛ-Э и Стабильная диффузия также привлекли внимание своей способностью создавать яркие и реалистичные изображения на основе текстовых подсказок. Мы часто называем эти и подобные им системы модели потому что они представляют собой попытку смоделировать или смоделировать некоторый аспект реального мира на основе подмножества (иногда очень большого) информации о нем.
Результаты этих систем настолько сверхъестественны, что многие люди задают философские вопросы о природе сознания и беспокоятся об экономическом влиянии генеративного ИИ на рабочие места людей. Но хотя все эти творения искусственного интеллекта, несомненно, являются большими новостями, возможно, под поверхностью происходит меньше, чем некоторые могут предположить. Через мгновение мы перейдем к некоторым из этих общих вопросов. Во-первых, давайте посмотрим, что происходит под капотом таких моделей, как ChatGPT и DALL-E.
Как работает генеративный ИИ?
Генеративный ИИ использует машинное обучение для обработки огромного количества визуальных или текстовых данных, большая часть которых взята из Интернета, а затем определяет, какие вещи, скорее всего, появятся рядом с другими вещами. Большая часть работы по программированию генеративного ИИ уходит на создание алгоритмов, которые могут различать «вещи», представляющие интерес для создателей ИИ — слова и предложения в случае чат-ботов, таких как ChatGPT, или визуальные элементы для DALL-E. Но, по сути, генеративный ИИ создает свои результаты, оценивая огромный массив данных, на которых он был обучен, а затем отвечая на подсказки чем-то, что попадает в область вероятности, определяемую этим корпусом.
Автозаполнение — когда ваш мобильный телефон или Gmail предлагает, какой может быть оставшаяся часть слова или предложения, которое вы печатаете, — это низкоуровневая форма генеративного ИИ. Такие модели, как ChatGPT и DALL-E, просто доводят идею до значительно более высоких высот.
Обучение генеративных моделей ИИ
Процесс, посредством которого модели разрабатываются для размещения всех этих данных, называется обучение. Здесь используется несколько основных методов для разных типов моделей. ChatGPT использует то, что называется трансформатор (вот что Т означает). Преобразователь извлекает значение из длинных последовательностей текста, чтобы понять, как разные слова или семантические компоненты могут быть связаны друг с другом, а затем определить, насколько вероятно, что они встречаются рядом друг с другом. Эти преобразователи запускаются без присмотра над обширным корпусом текста на естественном языке в процессе, называемом предварительная подготовка (это пв ChatGPT), прежде чем он будет настроен людьми, взаимодействующими с моделью.
Другой метод, используемый для обучения моделей, известен как генеративно-состязательная сетьили ГАН. В этой технике у вас есть два алгоритма, конкурирующих друг с другом. Один генерирует текст или изображения на основе вероятностей, полученных из большого набора данных; другой — различающий ИИ, который был обучен людьми, чтобы оценивать, является ли этот результат реальным или созданным ИИ. Генеративный ИИ неоднократно пытается «обмануть» распознающий ИИ, автоматически адаптируясь в пользу успешных результатов. Как только генеративный ИИ последовательно «побеждает» в этом соревновании, люди настраивают различающий ИИ, и процесс начинается заново.
Одна из самых важных вещей, которую следует иметь в виду, заключается в том, что, несмотря на вмешательство человека в процесс обучения, большая часть обучения и адаптации происходит автоматически. Требуется так много итераций, чтобы довести модели до точки, где они дают интересные результаты, что автоматизация просто необходима. Процесс довольно ресурсоемкий.
Является ли генеративный ИИ разумным?
Математика и программирование, необходимые для создания и обучения генеративных моделей ИИ, довольно сложны и выходят далеко за рамки этой статьи. Но если вы взаимодействуете с моделями, которые являются конечным результатом этого процесса, опыт может быть явно сверхъестественным. Вы можете заставить DALL-E производить вещи, которые выглядят как настоящие произведения искусства. Вы можете вести беседы с ChatGPT, которые напоминают беседу с другим человеком. Действительно ли исследователи создали мыслящую машину?
Крис Фиппс, бывший руководитель IBM по обработке естественного языка, работавший над Уотсон ИИ продукты, говорит нет. Он описывает ChatGPT как «очень хорошую машину прогнозирования».
Это очень хорошо для предсказания того, что люди сочтут связным. Это не всегда связно (в основном так), но это не потому, что ChatGPT «понимает». Наоборот: люди, которые потребляют результаты, действительно хорошо делают любые неявные предположения, которые нам нужны, чтобы сделать вывод логичным.
Фиппс, который также является комедийным исполнителем, проводит сравнение с обычной игрой-импровизацией под названием Mind Meld.
Два человека думают о слове, а затем одновременно произносят его вслух — вы можете сказать «сапог», а я — «дерево». Мы придумали эти слова совершенно независимо друг от друга, и поначалу они не имели никакого отношения друг к другу. Следующие два участника берут эти два слова и пытаются придумать что-то общее, что у них есть, и одновременно произносят это вслух. Игра продолжается до тех пор, пока два участника не скажут одно и то же слово.
Может быть, два человека оба говорят «лесоруб». Это кажется волшебством, но на самом деле мы используем наш человеческий мозг, чтобы рассуждать о входных данных («ботинок» и «дерево») и находить связь. Мы делаем работу понимания, а не машины. С ChatGPT и DALL-E происходит гораздо больше, чем люди признают. ChatGPT может написать историю, но мы, люди, делаем много работы, чтобы она имела смысл.
Проверка пределов компьютерного интеллекта
Некоторые подсказки, которые мы можем дать этим моделям ИИ, сделают точку зрения Фиппса довольно очевидной. Например, рассмотрите загадку «Что тяжелее, фунт свинца или фунт перьев?» Ответ, конечно же, в том, что они весят одинаково (один фунт), хотя наш инстинкт или здравый смысл могут подсказать нам, что перья легче.
ChatGPT правильно ответит на эту загадку, и вы можете предположить, что это так, потому что это компьютер с холодной логикой, у которого нет никакого «здравого смысла», чтобы сбить его с толку. Но это не то, что происходит под капотом. ChatGPT логически не обосновывает ответ; он просто генерирует вывод на основе своих прогнозов того, что должно следовать за вопросом о фунте перьев и фунте свинца. Поскольку его обучающий набор включает в себя кучу текста, объясняющего загадку, он собирает версию этого правильного ответа. Но если вы спросите ChatGPT, два фунты перьев тяжелее фунта свинца, он с уверенностью скажет вам, что они весят столько же, потому что это по-прежнему наиболее вероятный вывод на подсказку о перьях и свинце, основанный на его тренировочном наборе. Может быть забавно сказать ИИ, что это неправильно, и наблюдать, как он барахтается в ответ; Я заставил его извиниться передо мной за свою ошибку, а затем предположить, что два фунта перьев весят четыре раз больше, чем фунт свинца.