Однако несмотря на то, что успех ChatGPT часто связывают с его современными технологиями, люди часто недооценивают человеческие усилия, приложенные к созданию модели. Важнейшим аспектом этого процесса была разметка данных — процесс аннотирования крупных датасетов содержательной информацией.
Разметка данных играет критически важную роль в разработке языковых моделей наподобие ChatGPT, поскольку помогает модели понять взаимосвязи между разными словами и понятиями в тексте. Без разметки данных модель испытывала бы трудности с пониманием контекста промта и с генерацией соответствующего ответа.
Для обучения ChatGPT компания OpenAI использовала труд команды аннотаторов, размечавших огромный датасет из более чем восьми миллионов веб-страниц. Этот процесс заключается в чтении огромных объёмов текста и в аннотировании его информацией о взаимосвязях различных слов и понятий. Затем эта информация применяется для тонкой настройки модели, позволяющей ей генерировать ответы, напоминающие человеческие.
Вот несколько примеров типов аннотаций, необходимых для обучения модели наподобие ChatGPT:
- Распознавание именованных сущностей (Named Entity Recognition, NER): выявление и разметка в тексте именованных сущностей, например, людей, организаций, мест и событий.
- Разметка частей речи (Part-of-Speech Tagging, POS): разметка частей речи для каждого слова в тексте, например, существительных, глаголов, прилагательных и так далее.
- Анализ эмоционального настроя (Sentiment Analysis): разметка эмоционального настроя, выраженного в тексте, например, положительного, отрицательного или нейтрального.
- Разрешение кореференции (Coreference Resolution): выявление и разрешение отсылок на сущности в тексте, например, когда местоимение относится к ранее упомянутой сущности.
- Выявление взаимосвязей (Relationship Identification): выявление взаимосвязей между сущностями в тексте, например, «Джон работает CEO в компании XYZ».
Такие аннотации обеспечивают модели глубокое понимание взаимосвязей между словами и понятиями в тексте, позволяя ей генерировать ответы, более близкие к человеческим. Труд аннотаторов по созданию этих аннотаций был очень важен для успеха ChatGPT, он подчёркивает важность человеческого труда в разработке современных моделей ИИ.