На этой неделе компания Databricks представила Dolly 2.0, большую языковую модель (LLM) с открытым исходным кодом, пригодную для коммерческого использования. Выпуская в свет Dolly 2.0, разработчики надеются, что это позволит организациям создавать и настраивать LLM «без оплаты доступа к API и обмена данными с третьими лицами».
Стоит пояснить, что ChatGPT от OpenAI — это проприетарная языковая модель, а ее пользователи должны платить за доступ к API, придерживаясь в работе определенных правил, что потенциально ограничивает гибкость и возможности настройки для компаний и организаций.
В марте 2023 года произошло важное событие: в открытый доступ утекла LLaMA (Large Language Model Meta AI), созданная компанией Meta*. Однако и эта модель лишь с частично открытым исходным кодом (с ограниченным весами), хотя появление LLaMA и привело к созданию множества производных, включая Alpaca, Vicuna и gpt4all. Эти LLM уже можно запустить на арендованном сервере, обычном домашнем ПК (энтузиасты умудрялись запускать их и на Raspberry Pi 4), однако использовать их в коммерческих целях все же проблематично и вряд ли законно.
Еще одной LLM, выпущенной в последние месяцы, стала Dolly от американской компании Databricks. В данном случае разработчики пошли другим путем и взяли за основу опенсорсную gpt-j-6B от EleutherAI. Однако представленная в марте текущего года Dolly 1.0 столкнулась с рядом ограничений в отношении коммерческого использования из-за обучающих данных, которые содержали выходные данные из ChatGPT, а в итоге подпадали под действие пользовательского соглашения OpenAI.
Чтобы решить эту проблему, команда Databricks решила создать новый набор данных, который можно было бы использовать в коммерческих целях. Ради этого, в период с марта по апрель 2023 года, провела краудсорсинг 13 000 демонстраций поведения по выполнению инструкций от более чем 5 000 своих сотрудников. Чтобы стимулировать участие, компания организовала конкурс и определила семь конкретных задач для получения данных, включая открытые вопросы и ответы, закрытые вопросы и ответы, извлечение и обобщение информации из Wikipedia, мозговой штурм, классификацию и творческие тексты.
Полученный набор данных, вместе с весами для Dolly и обучающим кодом, был опубликован с полностью открытым исходным кодом в соответствии с лицензией Creative Commons, что позволяет любому использовать, изменять или расширять набор данных для любых целей, включая коммерческие приложения.
Таким образом, Dolly 2.0 с ее 12 млрд параметров, основана на семействе EleutherAI pythia и настроена на обучающих данных (databricks-dolly-15k), полученных от сотрудников Databricks. Все это дает модели вполне сопоставимые с ChatGPT возможности, и Dolly 2.0 лучше отвечает на вопросы и участвует в диалоге в качестве чат-бота, чем «сырые» LLM, которые не подвергались тонкой настройке.
В настоящее время веса Dolly доступны на Hugging Face, а датасет databricks-dolly-15k можно найти на GitHub.
*Деятельность компании Meta признанной экстремистской, организация запрещена в России.