Масштабирование предварительного обучения обеспечило значительный прирост производительности модели, но есть несколько препятствий, на преодолении которых отрасль в настоящее время сосредоточена.
Одним из очевидных препятствий является то, что данные становится все труднее собирать — данные в Интернете не расширяются со скоростью, пропорциональной вычислительным ресурсам. Вот почему сегодняшние мегамодели с триллионами параметров оказались меньше оптимальных для Chinchilla — имеют гораздо меньшее количество токенов обучения по сравнению с параметрами модели.
Масштабирование Chinchilla относится к оптимальному увеличению данных по сравнению с количеством параметров относительно увеличения вычислительных ресурсов. Недостаток данных приводит к тому, что модель плохо обобщает, в то время как избыток данных приводит к переобучению и тратам вычислительных ресурсов. В некоторых случаях отклонение от оптимального соотношения имеет смысл: модели с избыточным обучением (например, GPT-4o и Llama) могут значительно снизить затраты на вывод и являются предпочтительными для поставщиков, которые имеют большую базу пользователей для обслуживания этой модели.
В январе 2023 года, до запуска GPT-4, мы писали о практических ограничениях масштабирования и о том, как GPT-4 планировала их преодолеть. С тех пор модели колебались от более чем Chinchilla Optimal (гораздо больше данных, чем параметры модели) до менее чем Chinchilla Optimal (когда данные стали ограниченными). Ограничения вычислительных мощностей в прошлом преодолевались за счет улучшения аппаратного обеспечения для обучения и вывода.
На сегодняшний день полезные источники данных, такие как учебники и документация, полностью исчерпаны, и то, что осталось, в основном представляет собой текстовые источники данных низкого качества. Кроме того, веб-данные по-прежнему представляют собой узкое распределение данных, и моделям нужно больше данных, чтобы продолжать обобщать. Поскольку модели сложнее масштабировать оптимальным образом, предварительное обучение становится более сложным.
Кроме того, если лаборатории обучают модели с недостаточным количеством данных по мере их масштабирования, модели становятся чрезмерно параметризованными, становясь неэффективными и приводя к большому объему запоминания, а не обобщения. Вместо этого лаборатории обращаются к более широкому использованию
синтетических данных, чтобы облегчить эту проблему.
Однако эта проблема в меньшей степени относится к основным лабораториям искусственного интеллекта. Meta имеет примерно в 100 раз больше данных, чем в общедоступном Интернете (при условии, что они могут использовать эти данные в соответствии с нормативными требованиями). Это может дать им преимущество в продолжении масштабирования с меньшим количеством проблем, чем у других. На YouTube ежедневно загружается 720 000 новых часов видео, и нам кажется, что AI Labs только начали рассматривать возможность обучения на огромном объеме данных, содержащихся в видео. Это в дополнение к их способности генерировать качественные синтетически сгенерированные данные, архитектуру которых мы обсудим позже.
Для обучения на
квадриллионах альтернативных токенов, доступных из видео, требуется огромное масштабирование общего FLOP обучения, которое будет обеспечено аппаратными инновациями и системной инженерией. Например, масштабирование еще на один порядок величины FLOP обучения
потребует обучения в нескольких центрах обработки данных, поскольку необходимое количество ускорителей больше не может поместиться в пределах одного центра обработки данных. Проект Rainier предлагает Amazon предоставить Anthropic 400 тысяч чипов Tranium 2, но в сыром FLOP это меньше 100 тысяч GB200. Anthropic придется добиться значительных инженерных достижений, чтобы провести обучение в таком кластере. Распространение ускорителей по большому кампусу или нескольким кампусам само по себе приводит к значительным проблемам, вызванным законом Амдаля, хотя уже существует
несколько предложений для решения этой проблемы.
Другим ограничением в отношении параметров масштабирования является экономика вывода. Лаборатории ИИ могут капитализировать огромные суммы инвестиций в обучение больших моделей и амортизировать использование модели как для большой и растущей базы пользователей, так и для внутренних вариантов использования для разработки дальнейших итераций модели. Когда дело доходит до вывода, они должны быть осторожны, чтобы не выводить на рынок модели, которые слишком дороги или неэкономичны для обслуживания.
Оценки также не являются всеобъемлющими. Есть множество возможностей или свойств моделей, которые существующие оценки не охватывают должным образом. Передача обучения, когда модель становится лучше в домене за счет изучения чего-то другого, и контекстное обучение — это области, где необходимо разрабатывать еще больше оценок. И наконец, всегда будут варианты конечного использования, которые трудно предсказать заранее, но которые приносят конечным пользователям огромную выгоду.
То, что измеряется, всегда улучшается.