Выполнение SFT. TRL, созданная поверх библиотеки
HuggingFace transformers, может при помощи SFT обучать языковую модель (в данном случае
модель OPT компании Meta) кодом, показанным выше. Этот короткий пример показывает, насколько простым может быть обучение модели при помощи SFT! Благодаря этой простоте fine-tuning моделей при помощи SFT стал невероятно популярным в исследовательском сообществе опенсорсных LLM. Зайдя на
Open LLM Leaderboard, можно увидеть множество любопытных примеров. Сейчас fine-tuning предварительно обученной LLM при помощи SFT является одним из самых простых и эффективных способов освоить обучение опенсорсных LLM.
Кроме этого базового определения SFT существует несколько полезных (и более совершенных) методик, которые можно использовать, например, применение обучения с учителем только к ответам модели (а не к полному диалогу или примеру), дополнение всех примеров ответов общим шаблоном промтов или даже применение методики
parameter efficient fine-tuning (PEFT) (например,
LoRA [13]). Любопытно, что определяемый TRL класс SFTTrainer достаточно адаптируем и расширяем, чтобы работать с каждым из этих случаев. Подробности реализации можно посмотреть по ссылке ниже:
Using SFTTrainerСценарии применения SFT в исследованиях ИИБлагодаря тому, что SFT стал стандартным компонентом процесса выравнивания, его активно исследуют в литературе по ИИ. Мы выполним краткий обзор нескольких публикаций, в которых приведены ценные сведения об SFT. Этот список статей не исчерпывающий, существует огромное количество ресурсов по теме SFT (а также ИИ в целом), однако я постарался выделить самые важные открытия исследовательского сообщества.
InstructGPT. Трёхэтапный процесс выравнивания (
включающий SFT и RLHF), применяемый для большинства языковых моделей, впервые был использован для
InstructGPT [2], однако исследовался и ранее в моделях для резюмирования в [21]. Эта публикация заложила фундамент для множества последних открытий в сфере LLM, она содержит множество ценных сведений о процессе выравнивания. В отличие от информации о новых моделях OpenAI, подробности процесса обучения и архитектуры InstructGPT полностью раскрыты в этой публикации. Таким образом, эта модель позволяет глубоко изучить создание мощных языковых моделей, делая чтение постов о
ChatGPT и
GPT-44 гораздо более информативным.
4. По GPT-4 также выпущен технический отчёт, где больше подробностей, чем в посте, но в нём всё равно не раскрываются полностью подробности архитектуры модели и процесса обучения. Впрочем, устройство GPT-4 подробно раскрыто в недавней публикации SemiAnalysis.