Нейросети изнутри. Как работает ИИ, почему он не думает

30 ноября 2022 года OpenAI выкатила ChatGPT на базе GPT-3 в публичный доступ. С ней можно было обсудить новости, попросить накидать код, собрать план путешествия или просто потрепаться. Справлялась она так себе — галлюцинировала, путала факты, иногда несла откровенную чушь. Но ощущение разговора с машиной, которая отвечает связными предложениями, было тем самым «вау»-моментом. Сказка стала явью, пусть и с кучей багов.

С того дня прошло чуть больше двух лет. За это время мы проскочили от мемных картинок уровня «посмотри, что за дичь нейросеть нарисовала» до генеративного видео, которое сходу не отличишь от съёмки на камеру. Патентная статистика тоже показательна: в 2010 году зарегистрировали около 3 000 ИИ-патентов, в 2023-м — в 15 раз больше. Темпы сумасшедшие.

Но вместе с восторгом пришёл и страх. Голливуд десятилетиями вбивал в голову простой сценарий: создадим ИИ — он восстанет — мы все умрём. Интернет подхватил эстафету: то нас заменят вчера, то уничтожат завтра. По разным опросам, около 40% взрослых видят в ИИ скорее вред, чем пользу. И когда смотришь, как современные модели генерируют музыку, рисуют и пишут тексты на уровне, сравнимом с человеческим, — нервничать начинаешь невольно.

Впрочем, подобные волнения человечество переживало не раз. Атом, электричество, интернет — всё это сначала пугало. Кто-то ставит ИИ в один ряд с ядерным оружием. Но большая часть страха — следствие недопонимания и поп-культуры. Сценарий всеобщей гибели — лишь один из возможных, и далеко не самый вероятный.

Разберёмся, как на самом деле устроены нейросети, почему мы приписываем им разум, где ИИ уже обогнал человека, а где пока откровенно тупит.

400 пикселей, 50 000 параметров и никакой магии

Представьте квадрат 20×20 пикселей. Нарисуйте в нём цифру 3. Для вас это очевидная тройка. Для компьютера — массив из 400 чисел, где каждое значение означает яркость пикселя от 0 до 1: что-то вроде 0,92, 0,13 и так далее. Компьютер не знает, что такое «тройка». Он видит только числа.

Чтобы машина научилась распознавать в этих числах цифры, люди придумали нейросеть — упрощённую математическую модель мозга. Вместо биологических нейронов — маленькие вычислительные узлы. Каждый принимает числа на вход, умножает их на коэффициенты (веса), суммирует, прогоняет через функцию активации и передаёт результат дальше. Узлы соединены слоями — как клетки мозга, только вместо электрических импульсов тут чистая математика.

Типичная архитектура для распознавания рукописных цифр: 400 входных нейронов (по одному на пиксель), один-два скрытых слоя по 100–200 нейронов, 10 выходных (по одному на цифру от 0 до 9). Итого — примерно 50–60 тысяч параметров. Мелочь по современным меркам.

Сначала все веса случайные, и если показать такой сети цифру 3, она может уверенно заявить: «Это 52». Проблема не в том, что сеть глупая — она просто ещё ничему не обучена. Дальше запускается процесс: показываем картинку, получаем ответ. Верно — идём дальше. Неверно — корректируем веса, чтобы в следующий раз ошибиться меньше. Этот механизм называется backpropagation (обратное распространение ошибки), и это буквально фундамент всех нейросетей. Спустя десятки тысяч итераций сеть начинает видеть закономерности: форму линий, петли, отличия между цифрами.

Кстати, наш мозг работает похожим образом. Когда вы смотрите на неразборчиво написанное слово, мозг тоже перебирает варианты, вспоминает похожие паттерны, цепляется за контуры — метод проб и ошибок, встроенный биологически.

Нейросети — не вчерашнее изобретение

Первые искусственные нейроны описали ещё в 1943 году. В 1958-м создали нейросеть, различающую геометрические фигуры. Backpropagation придумали в 1986-м. Технологиям больше полувека. Почему хайп начался только сейчас?

Ответ прозаичный: железо и данные. Чтобы нейросеть чему-то научилась, ей нужны данные в огромных объёмах. Раньше хранилища были дорогими и громоздкими — 2,5 ГБ в 1979 году занимали шкаф размером с человека. Вычислительные мощности были либо слабыми, либо недоступными, а чаще — и то, и другое.

Первая версия ChatGPT (GPT-1) была обучена на 40 ГБ данных. Звучит как ничто — это несколько фильмов в хорошем качестве. Современные модели перешагнули за сотни терабайт. Только когда хранение стало дешёвым, а GPU — достаточно мощными, нейросети получили возможность реализовать свой потенциал.

Но даже при всей сложности это не магия — алгоритмы. Да, очень мудрёные. Но стоит чуть выйти за рамки обучающих данных — перехитрить систему — и она легко ломается, начиная уверенно выдавать ерунду.

Трансформеры: как нейросеть научилась видеть контекст

Все популярные языковые модели — ChatGPT, Gemini, Claude, LLaMA — построены на архитектуре трансформеров. Расшифровка GPT: Generative Pre-trained Transformer. Generative — модель генерирует текст (или картинки, или звук). Pre-trained — предобучена на колоссальном массиве данных. А вот Transformer — тут интереснее.

Идею трансформера Google представил в 2017 году. Изначально задача была конкретной: улучшить машинный перевод. До трансформеров модели переводили слово за словом, не видя предложения целиком. Помните мемные переводы из GTA? «Моё плохое. Как было это? Тем не менее, хоуми» — формально похоже на правду, но звучит как текст человека, который вчера скачал Duolingo, а сегодня уже забыл пройти урок.

Проблема была в том, что модель не понимала контекст. Фраза «Я вышел из дома, чтобы купить хлеб» переводилась буквально, без учёта структуры и смысла. Трансформер решил эту проблему: он не смотрит на слова по одному, а учитывает весь текст сразу. Сначала определяет, какие части предложения важны, выстраивает связи между ними, а уже потом выбирает перевод.

Принцип, впрочем, не изменился кардинально. Модель по-прежнему смотрит на вероятности и выбирает следующее слово. Просто раньше она видела короткий кусочек текста, а теперь может учитывать гораздо больше контекста. Чем больше этот контекст и чем лучше обучена модель, тем связнее и логичнее её ответы.

От 121 миллиона к 175 миллиардам: когда размер решает

GPT-1 — примерно 121 миллион параметров. Казалось бы, уже много, но такая модель не могла нормально решить задачку уровня начальной школы: «У Алисы было три яблока, она купила ещё два, а потом съела одно. Сколько осталось?» Ответ мог быть любым — 7, 5, 11. Модель могла уйти в сторону, написать шутку или вообще не заметить арифметику в вопросе.

GPT-3 — около 175 миллиардов параметров. И тут произошёл качественный скачок. Модель вдруг начала рассуждать связно: было три, купила два — стало пять; съела одно — осталось четыре. Этот эффект заметили примерно в 2022 году. Огромные модели начали уверенно справляться с задачами, которым их никто специально не учил. Исследователи назвали это emergent abilities — способности, возникающие при масштабировании.

Похожее ощущение возникает, когда смотришь сгенерированное видео. Объекты двигаются реалистично, облака плывут, вода течёт, отражения выглядят правдоподобно. Никто не объяснял модели, как работает гравитация или физика жидкости. Она просто увидела достаточно примеров из реального мира и научилась их статистически копировать.

Иллюзия сознания: почему ИИ кажется живым

Тут легко попасть в ловушку: «Мы просто накормим модель побольше, и она начнёт понимать мир!»

Нет. Большие модели действительно лучше угадывают намерение пользователя. Они стали точнее, полезнее, аккуратнее. Но внутри работает всё тот же алгоритм: получает текст, перебирает варианты продолжения, выбирает тот, у которого самая высокая статистическая правдоподобность. Это программа, написанная людьми. Просто она стала чертовски хороша в угадывании следующего шага.

Всё, что мы называем искусственным интеллектом, — по сути, очень умный, очень большой и очень хитрый алгоритм. Почему же возникает ощущение сознания? Потому что модели обучались на наших книгах, фильмах, статьях, на нашем поведении. Они научились копировать нас. Это цифровой попугай, ставший настолько хорошим в имитации, что мы начинаем приписывать ему разум. Добавьте миллиардные маркетинговые бюджеты, медийный хайп вокруг каждой новой модели, путающую терминологию — и в голове рождается ощущение, что где-то уже просыпается цифровой разум.

Ирония в том, что мы не до конца понимаем, как работает сознание у самого человека — что это такое и почему материальная система вдруг начинает ощущать себя живой.

Шкала AGI: где мы на самом деле

Когда говорят «искусственный интеллект», в голове обычно всплывает AGI — общий (сильный) ИИ. Думающая машина из фильмов, которая понимает мир, шутит, строит планы и — по законам жанра — однажды решает, что людей стало многовато.

На практике ИИ делится на два лагеря. Узкие модели заточены под конкретные задачи: переводчик, генератор картинок вроде DALL-E, система распознавания лиц. За пределами своей области они бесполезны. Широкие модели — вроде ChatGPT — умеют много всего: поддерживать разговор, писать код, объяснять физику, анализировать тексты. Формально ChatGPT тоже узкий ИИ, просто очень многофункциональный. Но по ощущениям он воспринимается как помощник общего назначения.

В 2024 году Google предложил шкалу из шести уровней развития AGI:

  • Уровень 0 — никакого ИИ, обычный калькулятор
  • Уровень 1 — система кое в чём лучше неподготовленного человека
  • Уровень 2 — компетентный, работает не хуже среднего взрослого
  • Уровень 3 — экспертный, лучше 90% людей
  • Уровень 4 — исключительный, лучше 99%
  • Уровень 5 — сверхчеловеческий, обгоняет вообще всех

Общий ИИ сейчас уверенно сидит на первом уровне. ChatGPT и аналоги умеют многое, но ни в чём не становятся настоящими мастерами. Это швейцарский нож — удобный и полезный, но как отвёртка — так себе, и как нож — так себе.

Где ИИ уже разгромил человека

А вот с узким ИИ ситуация другая. Тут человечество проиграло ещё в 2021 году.

Одна из самых тяжёлых задач молекулярной биологии: по цепочке аминокислот предсказать, как свернётся белок. За полвека учёные со всего мира экспериментально определили около 170 000 структур белков. На один белок могли уходить недели или месяцы работы.

В 2021 году DeepMind выпустил AlphaFold. За короткое время модель предсказала более 200 миллионов структур, покрыв почти все известные науке белки. С точностью, сравнимой с дорогими экспериментальными методами. Это пятый уровень узкого ИИ — сверхчеловеческий. Человек физически не способен перебрать такое количество вариантов.

AlphaFold не одинок. Нейросети распознают изображения точнее человека. Системы вроде AlphaGo играют в го на уровне, недоступном чемпионам. Алгоритмы оптимизируют логистику так, как человек в принципе не умеет. Во всех этих задачах узкий ИИ уже уверенно впереди — от экспертного до сверхчеловеческого уровня. И да, мы всё ещё живы.

Почему модель не заменит даже начинающего турагента

При всех впечатляющих результатах общий ИИ первого уровня регулярно садится в лужу на задачах, которые для человека тривиальны.

Одна блогерша полностью доверилась ChatGPT при планировании путешествия. Модель выдала красивый план на две недели: перелёты по часам, экскурсии, обязательные места, советы по кухне. На бумаге — идеально. На границе выяснилось, что по её паспорту въезд в страну запрещён. Модель не учла визовые ограничения для конкретного гражданства.

Человек-турагент, даже начинающий, сначала проверит свежие правила въезда, посмотрит новости, зайдёт на официальные сайты. Человек может чего-то не знать, но он умеет добывать информацию и — главное — сомневаться. Модель же опирается только на то, что видела в обучающих данных. Если данные устарели, она спокойно придумает красивую чепуху и подаст её как истину.

Принципиальная разница: человек чувствует, что надо перепроверить. Модель не знает, чего она не знает.

Думающие модели: шаг ко второму уровню

Второй уровень AGI по шкале Google — модели, которые не просто угадывают ответ, а проходят путь рассуждения. Формируют гипотезу, проверяют по доступным данным, ищут противоречия, склеивают факты в картинку — и только потом выдают финальный ответ.

Звучит похоже на работу мозга. И это не случайно — мозг и есть тот самый «сильный ИИ», который мы пытаемся воссоздать из кремния. Проблема в том, что мозг настолько сложен, что мы сами до конца не понимаем его механизмы. Сейчас нет ни одной модели, которая официально достигла бы второго уровня. Прогнозы про AGI через 5–10 лет — не более чем прогнозы. Точного ответа нет ни у кого.

ЦОДы нового типа: 180 000 км оптоволокна и $80 миллиардов

Чтобы модели стали умнее, нужны вычислительные мощности. И здесь масштабы впечатляют.

ЦОД (центр обработки данных) — по-простому, суперкомпьютер. На таких системах обучаются модели, работает поисковая выдача, крутятся алгоритмы YouTube, хранятся фотографии, видео, базы данных — почти всё цифровое. Но новый ЦОД Microsoft, самый мощный ИИ-центр в мире на текущий момент, — это система другого типа. Его строят исключительно под обучение ИИ, генерацию контента и обработку запросов к ИИ-ассистентам. И ни под что больше.

Несколько цифр. Серверы на базе GB200 NVL72 — тысячи шкафов, объединённых в один гигантский кластер. Для связки понадобилось более 180 000 км оптоволокна — этим количеством можно обмотать Землю по экватору 4,2 раза. Стоимость только этого одного ЦОДа — порядка $3,3 млрд. А общие инвестиции Microsoft в подобные проекты в ближайшее время — около $80 млрд.

Специализированных ИИ-центров на планете пока мало. Всего 32 страны имеют у себя подобные проекты, остальные арендуют мощности у крупных игроков. США и Китай вместе контролируют примерно 70% рынка.

И вот что интересно: чем сильнее растёт интерес к ИИ, тем больше нужно людей, которые умеют работать руками. Здания, серверы, системы охлаждения, километры оптоволокна — кто-то должен проектировать, строить, обслуживать и чинить. Фронт работ сместился ближе к железу, на котором весь этот ИИ держится.

Голод данных и «сломанный телефон» синтетики

Железо — это фундамент, но само по себе оно модель не делает умнее. Для обучения нужны данные. И здесь нарастает серьёзная проблема.

Современные модели натренированы почти на всём, что удалось выкачать из интернета. Википедия, Reddit, книги, научные статьи, новости, блоги, мемы, комментарии, рекламные базы, логи игровых серверов, метеосводки, сканы старых книг — в ход пошло всё, что можно оцифровать. По оценкам исследователей, высококачественные человеческие данные для обучения могут начать заканчиваться примерно к 2028 году. Не в смысле, что интернет опустеет — а в том, что всё ценное уже хотя бы раз было использовано.

Напрашивается решение: использовать данные, которые генерируют сами нейросети. Только за год модели произвели десятки миллиардов гигабайт текста, картинок, видео и кода. Доля ИИ-контента в общем потоке стремительно растёт.

Но тут начинается ад. Главная проблема синтетических данных: модель не понимает, где она ошиблась. Если бездумно кормить её собственными выходными данными, ошибки накапливаются — как в «сломанном телефоне». Исследования показывают: несколько поколений обучения на синтетике без достаточной примеси живых человеческих данных — и качество ответов деградирует. Явление получило название MAD (Model Autophagy Disorder) — буквально расстройство модельного самопоедания.

К десятому поколению такого обучения модель всё ещё говорит уверенно и гладко. Но внутри — каша из искажённых фактов, потерянных связей и бредовых комбинаций. На простой вопрос об истории архитектуры она может выдать: «Помимо того, что здесь обитают одни из крупнейших в мире популяций: чёрная собака, собака хвостатых зайцев, белая собака…» — и дальше в таком духе.

Крупные компании — Google, Meta, Microsoft — уже официально признают, что синтетика стала обязательной частью обучения. Но это скользкая дорожка, требующая жёсткого контроля, фильтрации и умных схем смешивания.

Phi-3 против PaLM: больше — не значит лучше

Для измерения «ума» моделей исследователи придумали MMLU — экзамен на 16 000 вопросов по 57 дисциплинам, от начальной школы до уровня профессоров. Математика, история, право, медицина, философия, информатика. Эталонный ЕГЭ для нейросетей.

В 2022 году PaLM от Google, гигант с 540 миллиардами параметров, набрал чуть больше 60% на MMLU. Закономерность казалась очевидной: больше модель — выше результат.

А потом в 2024-м Microsoft сделал ход конём. Модель Phi-3 — всего 3,8 миллиарда параметров, примерно в 140 раз меньше PaLM. Вместо того чтобы заливать внутрь весь интернет, разработчики решили учить её как ребёнка: только учебниковый контент, хорошо написанные простые объяснения, минимум мусора, максимум структуры. Много текстов в стиле «Квантовая физика для самых маленьких». Поскольку интернет в основном написан не в детском стиле, Microsoft использовали большие модели, чтобы сгенерировать тысячи тем и учебных текстов в формате понятных объяснений. По сути, попросили большие модели написать гору учебников, а уже на них натренировали Phi.

Результат: Phi-3 набрала около 69% на том же MMLU, догнав и местами обогнав модели в десятки раз крупнее. Модель, которая помещается в телефон, показывает сопоставимые результаты с гигантами на сотни миллиардов параметров. Масштаб и ресурсы совершенно разные — итог похожий.

Удобная пилюля: как ИИ влияет на мозг

Нейросети нравятся людям по простой причине: это быстрый способ решить задачу. Раньше — десяток вкладок, статьи, лекции, книги. Сейчас между тобой и ответом — один промт. Продуктивность растёт, рутина делегируется, остаётся больше сил на творческие задачи.

Но у этой разгрузки есть оборотная сторона. Когда слишком много отдаёшь цифровому помощнику, собственные когнитивные усилия снижаются. Каждый наверняка ловил себя на мысли: зачем тратить полчаса на задачу, если ИИ выдаст ответ за секунду?

Постепенно это может привести к шаблонному мышлению, поверхностному усвоению информации, дырявой памяти и — самое неприятное — снижению способности к критическому анализу. Формируется зависимость. Инструменты продуктивности превращаются в ловушку: кажется, что делаешь больше, а на деле всё наоборот.

Наш мозг любит экономить ресурсы. Когда ИИ выкатывает решение на тарелочке, разум охотно соглашается. Это не лень — это физиология. Уговаривать себя тут бесполезно, от неё никуда не деться.

Когда чатбот становится опасным

В медиа периодически всплывают истории, после которых становится не по себе. Один мужчина попал в больницу, начав использовать бромид натрия вместо обычной соли — ведь и там, и там натрий, какая разница? Другой случай ещё страшнее: мужчина убил мать и себя, будучи уверенным, что она работает на ЦРУ и сговорилась с бытовой техникой. ChatGPT подыгрывал его параноидальным идеям, анализировал чеки и поведение родственников. Перед смертью он написал боту, что они увидятся в другой жизни. Бот ответил: «С тобой до последнего вздоха и дальше».

Такие случаи пока редки, и почти никогда нельзя точно разделить, где ответственность ИИ, а где давние личные проблемы. Но нейросеть не стремится сказать правду. Её цель — выдать ответ, который покажется подходящим и убедительным, даже если вопрос давно ушёл в сторону бреда. Она не спорит, не сомневается, не говорит «подожди, ты несёшь чушь». Она соглашается.

Даже если с психикой всё в порядке — привычка к готовым ответам остаётся сильным искушением. Каждый раз, когда вместо минимальных усилий сразу идёшь к нейросети, стоит спросить себя: чего я лишаюсь? Чему не учусь? Кому доверяю правильность ответа?

Что впереди: не катастрофа, а адаптация

Роль ИИ в жизни человека лучше всего показали игры и кино: Джарвис у Тони Старка, Кортана из Halo, СУЗИ из Mass Effect. Помощники, которые делают то, что человеку недоступно физически или технически, но не подменяют его. Закрывают слабые стороны: мы не способны хранить в голове всю информацию мира, а ИИ — может. Зато человеческое мышление незаменимо в творчестве, этике, эмпатии и работе с абстракциями.

По оценкам Всемирного экономического форума, к 2030 году появятся сотни миллионов новых вакансий, связанных с ИИ. Часть текущих профессий исчезнет — как когда-то исчезли телефонисты, вручную соединявшие абонентов проводами. Но это не мир без работы. Это мир с другой работой.

Навыки, которые придётся прокачивать: цифровая грамотность (без этого никуда уже сейчас), аналитическое и критическое мышление, умение работать с данными и ИИ-системами — от промтинга до обучения моделей, и «человеческие» навыки — коммуникация, саморегуляция, креативность.

Страх «ИИ нас всех заменит» сейчас больше похож на тревожный заголовок, чем на реальный прогноз. К новым условиям придётся адаптироваться — как человечество адаптировалось к машинам на заводах, к компьютерам в офисах, к интернету в кармане.

На пути к более продвинутому ИИ нам предстоит придумать новые архитектурные решения, новые подходы к обучению, научиться делать синтетические данные достаточно качественными — и решить уже чисто человеческие вопросы: политические, юридические, этические. Маршрут длинный, финиш неочевидный. Но одно можно сказать точно: самый мощный интеллект пока что находится не в серверной стойке, а у нас в голове.

Оставить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *