javascript

Fine tuning роя агентов

  • воскресенье, 6 апреля 2025 г. в 00:00:08
https://habr.com/ru/articles/897674/

Исходный код, разобранный в статье, опубликован в этом репозитории

В вакансиях LLM инженеров присутствует слово RAG. Это подразумевает интеграцию во внешнюю базу данных, например, PostgreSQL с PGVector или MongoDB Atlas Vector Search.

https://supabase.com/blog/openai-embeddings-postgres-vector

У этого подхода есть колоссальный недостаток: подобные хранилища данных нужно программировать. Как следствие, зарплаты от 3500 до 6500$ за месяц и бесконечные разговоры, что ИИ лишит программистов работы

Что такое fine tuning?

Вместо того, чтобы интегрировать не ИИ инструменты, создать базу продуктов компании можно дообучив модель. Технически, это как вкомпилировать необходимый dataset в бинарник через пересборку проекта

https://platform.openai.com/finetune/

Модель дообучается через сегменты диалогов с пользователем. Для начала, можно создать список вопрос-ответ, далее, в dataset можно добавить сегменты переписок из запущенного в production чата. Существует два способа дообучить модель:

  1. Supervised fine-tuning (SFT)

    Обучающая выборка передается файлом jsonl - сконкатенированные в 1 несколько json файлов. Каждый сегмент переписки должен содержать как минимум один вопрос пользователя и один ответ от чат бота.

    {
      "messages": [
        {
          "role": "user",
          "content": "What are the main causes of climate change?"
        },
        {
          "role": "assistant",
          "content": "The main causes of climate change are:\n\n1. Burning of fossil fuels (coal, oil, natural gas) which releases greenhouse gases, primarily carbon dioxide.\n2. Deforestation and land use changes that reduce carbon sinks.\n3. Industrial processes and manufacturing that emit greenhouse gases.\n4. Agricultural activities, particularly livestock farming and rice production, which produce methane.\n5. Waste management practices that release methane from landfills.\n\nThese human activities increase the concentration of greenhouse gases in the atmosphere, which trap heat and lead to global warming and broader climate change patterns."
        }
      ]
    }
    

  2.   Direct Preference Optimization fine-tuning (DPO)

    Тоже самое, что и SFT, но предоставляется нежелательный ответ, полученый от языковой модели (см non_preferred_output)

    {
      "input": {
        "messages": [
          {
            "role": "user",
            "content": "What are the main causes of climate change?"
          }
        ],
        "tools": [],
        "parallel_tool_calls": true
      },
      "preferred_output": [
        {
          "role": "assistant",
          "content": "The main causes of climate change are:\n\n1. Burning of fossil fuels (coal, oil, natural gas) which releases greenhouse gases, primarily carbon dioxide.\n2. Deforestation and land use changes that reduce carbon sinks.\n3. Industrial processes and manufacturing that emit greenhouse gases.\n4. Agricultural activities, particularly livestock farming and rice production, which produce methane.\n5. Waste management practices that release methane from landfills.\n\nThese human activities increase the concentration of greenhouse gases in the atmosphere, which trap heat and lead to global warming and broader climate change patterns."
        }
      ],
      "non_preferred_output": [{ "role": "assistant", "content": "Noop" }]
    }
    

Как удешевить разработку?

В отличие от программируемого RAG хранилища заполнять примеры переписок могут не программисты вовсе. Достаточно создать рабочее место, позволяющее заполнить jsonl файл мышкой и клавиатурой без VSCode вовсе

https://platform.openai.com/finetune/

Примечательно, что в панели администратора openai выбор файла, проверка и автоматическая остановка обучения уже автоматизировано в GUI: достаточно перетащить jsonl файл на сайт. К слову gpt-4o работает быстрее gpt-3.5-tubo после дообучения. Учитывайте это, когда будете повторять это руководство

https://agent-tune.github.io/

Заполнять подобные jsonl файлы условно бесплатный стажер может на сайте https://agent-tune.github.io/.

https://agent-tune.github.io/

Инструмент поддерживает заполнение двух форматов jsonl для fine tuning: и SFT и DPO. Так же, можно подкорректировать поведение вызова инструментов, в том числе, с автокомплитом enum при вводе данных

https://agent-tune.github.io/

Ещё дешевле, чем OpenAI

Помимо OpenAI, существуют другие провайдеры облачных LLM моделей. Одна из них - cohere, компания, специализированная на внутрекорпоративных языковых моделях

https://dashboard.cohere.com/fine-tuning/create

Однако, после fine tuning, в этом облачном провайдере у модели отключают tool calling. Тем не менее, её все ещё можно использовать как корпоративную wiki, подключив к другим моделям через вызов инструмента с их стороны

import {
  Adapter,
  addAgent,
  addWiki,
  addCompletion,
  addSwarm,
  addTool,
  commitToolOutput,
  question,
  getLastUserMessage,
  execute,
} from "agent-swarm-kit";
import { singleshot, str } from "functools-kit";
import OpenAI from "openai";
import { CohereClient } from "cohere-ai";

const getOpenAI = singleshot(
  () => new OpenAI({ apiKey: process.env.OPENAI_API_KEY })
);

const getCohere = singleshot(
  () =>
    new CohereClient({
      token: process.env.COHERE_API_KEY,
    })
);

export enum CompletionName {
  OpenaiCompletion = "openai_completion",
}

export enum WikiName {
  PharmaWiki = "pharma_wiki",
}

export enum AgentName {
  TestAgent = "test_agent",
}

export enum ToolName {
  FindPharmaProduct = `find_pharma_product`,
}

export enum SwarmName {
  TestSwarm = "test_swarm",
}

addCompletion({
  completionName: CompletionName.OpenaiCompletion,
  getCompletion: Adapter.fromOpenAI(getOpenAI()),
});

addWiki({
  wikiName: WikiName.PharmaWiki,
  docDescription:
    "A comprehensive wiki containing pharmaceutical product information, company policies, and detailed knowledge base for agents.",
  getChat: async ({ message }) => {
    const client = getCohere();
    const { text } = await client.chat({
      model: "", // Имя вашей модели после fine tuning
      message,
    });
    return text;
  },
});

addAgent({
  docDescription:
    "An intelligent agent designed to assist users with pharmaceutical product inquiries, providing consultations and tool support.",
  agentName: AgentName.TestAgent,
  completion: CompletionName.OpenaiCompletion,
  prompt: str.newline(
    "You are the pharma seller agent.",
    "Provide me the consultation about the pharma product",
    "Call the tools only when necessary, if not required, just speak with users"
  ),
  system: [
    `To find a product information call the next tool: ${ToolName.FindPharmaProduct}`,
  ],
  tools: [ToolName.FindPharmaProduct],
  wikiList: [WikiName.PharmaWiki],
});

addTool({
  docNote:
    "This tool queries the PharmaWiki for detailed product information based on user questions and returns relevant data to the agent.",
  toolName: ToolName.FindPharmaProduct,
  call: async ({ toolId, clientId, agentName, params }) => {
    console.log(ToolName.FindPharmaProduct, params);
    const answer = await question(
      await getLastUserMessage(clientId),
      clientId,
      agentName,
      WikiName.PharmaWiki
    );
    await commitToolOutput(
      toolId,
      `Recieved the next information from wiki: ${answer}`,
      clientId,
      agentName
    );
    await execute(
      `Tell me the answer based on the last tool output`,
      clientId,
      agentName
    );
  },
  type: "function",
  function: {
    name: ToolName.FindPharmaProduct,
    description: "Find pharma product details based on corporative wiki",
    parameters: {
      type: "object",
      properties: {
        context: {
          type: "string",
          description: `Question context in addition to the last user message`,
        },
      },
      required: [],
    },
  },
});

addSwarm({
  docDescription:
    "A collaborative swarm containing multiple pharmaceutical consultation agents working together to assist users effectively.",
  swarmName: SwarmName.TestSwarm,
  agentList: [AgentName.TestAgent],
  defaultAgent: AgentName.TestAgent,
});

Спасибо за внимание!