LLM, AI-агенты и сервисы

ChatGPT стал доступен широкой общественности в ноябре 2022 года. Хайп вокруг AI-технологий не утихает с тех пор. Громкий выход новых продуктов чередуется с обеспокоенными мнениями техногуру и лидеров общественного мнения относительно перспектив порабощения человечества. Впрочем, читая и слушая некоторых «экспертов», создается впечатление, что они не совсем понимают, о чем говорят.

Этот материал изначально был сводкой основных понятий, технологий, продуктов и профессий, связанных с AI, который я делал для себя. Возможно, для кого-то текст будет полон очевидных вещей. Возможно, кому-то пригодится для того, чтобы разобраться в этой новой и очень быстро развивающейся сфере.

Типы искусственного интеллекта

Начнем с того, какие типы искусственного интеллекта существуют.

«Узкий» или «слабый» ИИ (Artificial Narrow Intelligence — ANI): Системы, разработанные для выполнения определенных задач. Хорошо работают в конкретной сфере, но не имеют общего интеллекта и способности переносить знания в другую область. Большая часть ИИ, с которыми мы имеем дело — ChatGPT, Gemini, домашний помощник Alexa и прочее — сегодня это как раз «узкие» системы.

«Общий» или «сильный» ИИ (Artificial General Intelligence — AGI): Системы с интеллектом и познавательными способностями, близкими к человеческим. Пока таких систем в чистом виде нет, и ведущие компании и университеты как раз работают над созданием AGI. Причем вопрос стоит уже не «сможем ли мы создать это в принципе?», а «когда мы сможем это создать?»

«Супер» ИИ (Artificial Super Intelligence — ASI): искусственный разум, который обходит человека по всем параметрам, включая творческие задачи. Пока еще чисто гипотетическая штука из сферы научной фантастики.

Из вышесказанного можно сделать вывод, что страшилки, которые озвучивает, например, Юваль Ной Харари, относятся к AGI и ASI. Впрочем, есть и более взвешенные материалы и статьи, где прогнозируется, сколько и каких профессий будет заменено, когда общий ИИ всё-таки будет доведён до практического применения. А вот бурное обсуждение вокруг влияния DeepSeek на IT-рынки относится к конкуренции на рынке решений «слабого» ИИ.

Говоря более конкретно, «слабый» ИИ позволяет человеку кардинально повысить свою продуктивность. Скажем, десять лет назад для перевода с родного языка на не родной требовался опытный переводчик. Причем и ему надо было тратить часы на это дело. С широким распространением сервисов типа Google Translate, как примера «слабого» ИИ, процесс ускорился в разы, но выходной текст все равно требовал доработки. Сейчас результат Google Translate можно загнать в Google AI Studio и получить несколько вариантов перевода. Да, его тоже надо дорабатывать, но то, на что раньше тратились часы, с помощью «слабого» ИИ теперь занимает всего несколько минут.

Вывод: «слабый» ИИ это помощник, который делает человека продуктивнее и эффективнее, но не заменяет его полностью. Более того, в связке «человек-AI» человек — особенно если это эксперт в области — выступает ведущей стороной. Он способен «заточить» AI под конкретную задачу, проверить результаты работы AI.

«Сильный» ИИ полностью заменит целый ряд профессий. В какой срок? Пока еще неясно, но, судя по всему, речь идет о нескольких годах.

Теперь подробнее о практических воплощениях «слабого» ИИ.

LLM, AI агенты и сервисы на основе AI

Когда вы заходите на сайт Google AI Studio, ChatGPT или DeepSeek, то имеете дело с сервисом, в основе которого лежит LLM. Вернее сказать, несколько LLM, из которых можно выбрать.

LLM (Large Language Model), большая языковая модель, это нейросеть, которая обучена на больших массивах данных. Сколько таких моделей активно используется точно не известно, но уже, скорее всего, тысячами. Есть семейства LLM, разработанные крупными IT-компаниями, например ChatGPT от Open AI, Gemini от Google, LLaMA от Meta. Есть специализированные модели от других компаний и организаций.

Здесь встает первый вопрос — а какую модель выбрать для решения своих задач? LLM отличаются друг от друга типом архитектуры, глубиной сети, количеством параметров, методом обучения и массой других вещей. Здесь на помощь могут прийти специалисты по машинному обучению (ML Engineer), по обработке естественных языков (NLP Engineer), исследователи искусственного интеллекта (AI Researcher). Впрочем, этим можно заняться и самостоятельно, проверяя различные модели на предмет их ответов. Если речь идет о каких-то общих вопросах, то я сейчас предпочитаю общаться с Gemini 2.0, которая дает довольно развернутые ответы и подсказки.

При этом LLM имеет ряд ограничений. Одно из главных — это то, что созданы они на основе пусть больших, но ограниченных данных. Задайте ей вопрос из области общих знаний, и вы получите ответ. Задайте вопрос из узкой области, и получите полет фантазии.

Эта проблема решается несколькими способами:

1. Fine-tuning. Собираем массив данных по конкретной теме, переводим их в формат, который подойдет для процесса (например, текстовые файлы, csv). Далее, с помощью таких инструментов, как, например, Hugging Face Transformers и PyTorch, «включаем» наши данные в выбранную LLM, меняя ее параметры. Получаем модифицированную модель, которая будет отвечать на ваши специфические вопросы более точно. Недостатки метода: требует серьезных вычислительных мощностей. Если вы будете проводить Fine-tuning модели среднего размера (типа LLaMA 7b), то для PC желательно иметь видеокарту уровня RTX 4070 (процесс задействует в основном GPU карты, а не CPU компьютера) или выше. Кроме того, Fine-tuning может привести к тому, что модель «забудет» какую-либо общую информацию.

2. Retrieval-Augmented Generation (RAG). Для этого метода тоже понадобится набор данных, который проходит предварительное индексирование. RAG подбирает релевантную информацию из этого контекста и передает LLM эти фрагменты вместе с исходным вопросом. Для работы связки LLM+RAG можно не знать программные языки, а использовать готовые решения, например, Verba или сервиса Poe. Кстати, оба решения позволяют выбирать из целого ряда LLM.

3. Prompt Engineering. Здесь не надо проводить программных манипуляций, а нужно уметь правильно выстроить коммуникацию с моделью, давая на вход подробные подсказки и запросы.

Да, LLM требуют правильного обращения, и хорошие новости в том, что пока без человека, особенно без хорошего эксперта в предметной области, не обойтись. Кто-то, как минимум, должен готовить данные, тестировать верность ответов и вообще уметь общаться с «машиной».

Теперь про AI-агентов. AI-агенты — это системы, в которых LLM работает как двигатель (либо как элемент, модифицирующий логику процессов, набор действий). Агенты выполняют определенные задачи, например, провести поиск информации в сети и сформировать из нее статью или просто сделать краткую выжимку и потом отправить все это в телеграмм-канал или на почту. Существует уже большое количество инструментов для создания AI-агентов. Вы можете собрать агента под необходимый вам функционал самостоятельно. Например, с помощью таких фреймворков, как n8n, Abacus.ai, Bootpress, Rasa, LangGraph. Да, это не коробочное решение, и использование таких фреймворков не бесплатно, но вы можете собрать систему под себя. Эти фреймворки предоставляют хорошую визуализацию логики сборки агентов.

Собственно, сервисы и являются такими решениями, которые не требуют глубоких знаний программирования и детального выстраивания логики. Сервис предоставляет простой интерфейс, который позволяет в пару кликов создать, скажем, генератор изображений.

Подводя итог. В ближайшие годы AI не заменит людей, но серьезно изменит подходы к тому, как человек решает задачи. Архитекторы и проектировщики никуда не пропали, когда появились CAD. Они просто поставили кульманы в уголок. Знание предметной области осталось востребованным, но расчеты тех же конструкций здания стали делать быстрее и точнее. Цифровая фототехника поставила крест на проявителях, закрепителях и увеличителях, но умение работать со светом и «ловить кадр» осталось востребованным. Да, у переводчиков, возможно начинаются сложные времена, но чтобы оценить качество окончательного «машинного перевода», знание языка не отменяется.

Можно приводить десятки примеров того, как профессии менялись из-за технологий за последние сорок лет. Главное в том, что пока AI остается «слабым» и «узким» ключевым фактором успеха будет тот, кто ведет с ним диалог — человек.

Leave a Reply