Что такое промпт?
Чем отличается нейросеть от искусственного интеллекта?
И почему все говорят о каких-то эмбеддингах и RAG?
Если вы когда-нибудь пытаетесь разобраться в нейросетях, но спотыкаетесь о непонятные термины, то этот словарь для вас. Здесь я собрал самые важные и популярные термины из мира искусственного интеллекта, чтобы вы легко понимали, о чём говорят и пишут в контексте AI.
Подписывайтесь на мой телеграм канал
«AI на практике», там еще больше советов, обзоров и мнений про нейросети.
***Искусственный интеллект (ИИ, AI) — это область компьютерных наук, которая занимается созданием систем, способных имитировать человеческий интеллект. Например, такие системы могут общаться на человеческом языке, самостоятельно обучаться, делать выводы и принимать решения.
Машинное обучение (Machine Learning) — это подраздел ИИ, цель которого разрабатывать алгоритмы и модели, помогающие машинам учиться на данных и прогнозировать тенденции и поведение без помощи человека. Например, популярный сервис Shazam определяет название трека и исполнителя по короткому отрывку благодаря машинному обучению.
Нейронная сеть (нейросеть) — это технология в рамках машинного обучения, напоминающая по структуре человеческий мозг. Нейросеть обучается на большой базе данных, анализирует их, классифицирует их, делает выводы и принимает автономные решения. Например, когда вы вводите поисковый запрос в Google или Yandex, нейросеть анализирует слова и предлагает вам готовые варианты запросов.
Большая языковая модель (Large Language Model) — это тип искусственного интеллекта в подразделе машинного обучения, который обучен на большом количестве текстовых данных. Большие языковые модели могут переводить текст, суммировать текст, отвечать на вопросы и генерировать новый контент. Например, GPT-4 — это большая языковая модель, обученная на 1,76 триллионов параметров.
Генеративная модель — это общий класс моделей в машинном обучении, который включает в себя и языковые модели вроде GPT, а также модели для создания изображений, музыки, видео и других видов контента. Например, нейросети Midjourney и Syno — это генеративные модели, которые генерируют изображения и музыку на основе текстовых запросов.
AGI (Artificial General Intelligence, Искусственный Общий Интеллект) — это форма ИИ, которая имеет потенциал обучаться и функционировать в любой области человеческой деятельности. По сути это компьютер, который может «думать» и действовать так же, как человек. Ни одна из существующих систем не имеет таких способностей, но основатель Open AI Сэм Альтман предсказал появление AGI к 2030 году.
Алгоритм — это набор правил предоставленных компьютерной программе для выполнения задачи или решения проблем. Например, алгоритм в фотопленке IPhone, следует определенной инструкции, распознает фотографии и сортирует их по разным тематическим папкам.
Токен — это символ или знак препинания. С помощью токенов нейросети понимают и анализируют текст. Например, в предложении "Я люблю кофе!", каждый символ является отдельным токеном. Некоторые нейросети имеют ограничения на количество токенов, которые они могут запоминать в одном диалоге.
Контекст — это совокупность информации вокруг каждого слова или фразы. В нейросетях контекст используется для лучшего понимания смысла текста. Например, слово "лук" может иметь разные значения в разных контекстах: в фразе "Я ел лук" оно означает овощь, а в "Я стрелял из лука" — это оружие. Контекст помогает нейросети определить, в каком смысле используется слово.
Чат-бот — это программа, предназначенная для имитации человеческого разговора с помощью текстовых или голосовых команд. Чат-боты могут управляться как полностью вручную, так и с помощью искусственного интеллекта. Например, самый популярный чат-бот с ИИ — ChatGPT.
Промпт (Prompt) — это вводные данные или запрос, который пользователь предоставляет нейросети, чтобы инициировать задачу или получить ответ. Например, когда пользователь пишет в ChatGPT: «Придумай мне стих про золотую осень», это и есть промпт.
GPT (Generative Pre-trained Transformer, генеративный предварительно обученный трансформер) — это вид языковой модели разработанной компанией OpenAI, которая очень хорошо понимает естественную речь и способна генерировать тексты высокого качества. Такие тексты трудно отличить от написанных человеком.
Именно эта аббревиатура используется в названии самой популярной нейросети — ChatGPT, а цифры в конце GPT-3, GPT-4, означают разные поколения этой модели.
Диффузионная модель — это тип нейросети, который учится создавать изображения, начиная с шума (помех) и постепенно превращая его в картинку. Это как если бы вы сначала нарисовали случайные точки на листе, а нейросеть шаг за шагом превращала их в красивую фотографию. Такие модели используются, например, в Midjourney и Stable Diffusion для генерации картинок по описанию.
В отличие от диффузионных моделей, которые создают изображение, начиная с шума и постепенно уточняя его, GPT-4o применяет
автогрессивный подход: изображение создаётся последовательно, как будто рисуется по частям. Это позволяет модели лучше соблюдать инструкции пользователя, точно передавать детали и корректно отображать текст на изображениях. Теперь пользователи могут просто описать желаемую картинку, и GPT-4o сгенерирует её прямо в чате, без необходимости использовать сложные промпты.
Глубокое обучение (Deep Learning) — это особый способ обучения нейросетей, при котором используется много уровней (или «слоёв») анализа данных. Каждый слой в такой сети отвечает за свой этап понимания информации. Представьте себе это как конвейер:
– первый слой смотрит на картинку и замечает просто точки и линии,
– второй слой замечает, что линии складываются в формы — например, круг или прямоугольник,
– третий слой распознаёт, что это — лицо, чашка или буква,
– четвёртый слой уже может понять настроение на лице или прочитать слово.
Чем больше таких слоёв, тем более сложные задачи может решать нейросеть. Поэтому и говорят — «глубокое» обучение: оно проходит через много уровней понимания, прежде чем дать результат.
Аватар / Цифровой двойник — это виртуальное изображение или видео, созданное на основе настоящего человека. Аватары могут двигаться, говорить голосом человека, повторять его мимику и жесты. Например, с помощью нейросетей можно создать видео, где вы произносите любой текст на любом языке, который в реальности вы не произносили и это будет выглядеть очень реалистично.
API (Application Programming Interface) — это способ, с помощью которого разные программы могут «разговаривать» друг с другом. Представьте, что API — это официант в кафе. Вы (программа) говорите официанту, чего хотите — например, чашку кофе. Официант (API) передаёт ваш заказ на кухню (нейросети или другой сервис), а потом приносит вам результат — готовый кофе. С помощью API можно подключить нейросети (например, ChatGPT, переводчики, генераторы изображений) к сайтам, приложениям или ботам, чтобы они работали автоматически — без участия человека. Например, вы используете голосового помощника в телефоне, а тот, через API, обращается к нейросети и возвращает вам ответ.
Fine-tuning (дообучение) — это процесс, при котором нейросеть дополнительно обучают на новых данных, чтобы она стала «умнее» именно в нужной области. Например, если взять ChatGPT и дообучить его на медицинских текстах — он будет лучше отвечать на вопросы про здоровье. Это отличается от простого «загрузить файлы в чат» — потому что загрузка файлов помогает в рамках одной сессии, а fine-tuning меняет саму модель, делает её новой версией.
Open-source модель (модель с открытым исходным кодом) — это нейросеть, которую любой может скачать в интернете и установить на свой локальный компьютер, а затем изменить как угодно. Популярные модели: Mistral, LLaMA, или Stable Diffusion. Это как рецепт Медовика доступен всем, и вы можете добавить свои ингредиенты и печь по-своему.
Галлюцинации нейросети — это ситуация, когда нейросеть придумывает информацию, которой на самом деле не существует. Например, может выдумать «факт», несуществующую книгу или придуманный закон. Это не ошибка компьютера, а скорее результат того, что нейросеть пытается угадать, что звучит «правдоподобно», даже если этого нет в реальности.
Промпт-инжиниринг — это навык составления запросов к нейросети так, чтобы получить максимально точный, полезный или креативный результат. Проще говоря, вы учитесь «разговаривать» с моделью на её языке.
Мультимодальная модель — нейросеть, которая умеет одновременно понимать разные типы данных: текст, изображения, аудио, а иногда и видео. Она может «прочитать» снимок и объяснить, что на нём, или наоборот — сгенерировать картинку по вашему описанию. Пример: GPT-4o позволяет сфотографировать страницу меню и сразу получить перевод с комментариями о блюдах, а Gemini 2.5 Pro понимает, что на видео происходит, и отвечает на вопросы о сюжете.
RAG (Retrieval-Augmented Generation) — подход «достань + сгенерируй»: модель сначала ищет свежую информацию в базе данных, а потом формирует ответ, опираясь на найденное. Это снижает риск «галлюцинаций» и позволяет давать актуальные ответы даже без полного переобучения модели. Например, корпоративный чат-бот с RAG может быстро подтянуть последний регламент компании и объяснить сотруднику, как оформить отпуск.
LoRA (Low-Rank Adaptation) — лёгкий способ дообучить большую модель без гигантских видеокарт и многомиллионных бюджетов. Вместо того чтобы переписывать все параметры, к основной сети добавляют крошечные «дополнительные слои». Например, энтузиасты добавляют в языковую модель LoRA-слой на кулинарных рецептах и получают шеф-бота, который знает редкие блюда русской кухни.
***Теперь, надеюсь, что вам будет проще понимать статьи, видео и обсуждения на тему ИИ. Каждый из этих терминов — это кирпичик, из которого строится современный мир. А чем лучше вы в этом разбираетесь, тем больше возможностей для вас открывается: от автоматизации рутины до запуска новых проектов с ИИ.
Подписывайтесь на мой телеграм канал
«AI на практике», там еще больше советов, обзоров и мнений про нейросети.