Dolly 使用 Alpaca 数据,对两年前的开源EleutherAI 60亿参数模型进行微调,从而产生了在原模型中没有的理解和文本生成能力。
这表明,像ChatGPT这样最先进模型的许多提升可能归功于有针对性的训练数据,而不是更大或更好的基础模型。
需重点关注的不是Dolly的文本生成质量,而是通过在小型高质量数据集上微调几年前的开源模型可获得的效果巨大提升。
⚜️ 来源
🖥 Github
----------------------
Databricks
Hello Dolly: Democratizing the magic of ChatGPT with open models
Introducing Dolly, a breakthrough in LLM from Databricks. Learn how Databricks open sourced the model and all its training code, enabling organizations to re-create Dolly at a minimal cost.
----------------------
via chatGPT中文社区 - Telegram Channel