雷切尔-伍兹谈微调

人们对微调 LLM 的兴趣再度高涨

我还没有看到一个成功的公共使用案例是微调 > 提示的。

但在这里，我看到了微调的*大趋势：

首先，微调是为了教授 LLM 特定的任务或行为

而不是教授 LLM 新知识。对于新知识，可以使用检索（将数据存储在外部数据库中，然后有策略地将正确的数据块调入数据库，让学习者了解问题的来龙去脉）。

但是，即使是在教授法律硕士特定的任务或行为时，这里也有一个问题……

LLM 非常善于从良好的提示中掌握任务和行为。

这就是 LLM 令人惊叹的地方。

这就引出了一个问题。

微调在哪些方面有实际帮助？

我认为可以开发的一些用例是教授 LLMs 一些特别难以描述的任务，或者是适合添加到提示中的 ~10 个示例。

思考这个问题的一种方法是：如果一个人需要花几周时间来 "掌握 "一项任务，而不是通过阅读培训材料来了解情况……

这**可能就是微调的用例

但要谨慎行事

要真正教会 LLM 一种新的行为或任务，你需要把它当作一个机器学习项目来对待，而不仅仅是抛出例子，然后得到神奇的回报（ChatGPT 在这方面做得如此出色，还是让我大吃一惊）。

比如

数据集设计
训练和测试数据
过度拟合
随着围绕微调的工具越来越复杂，还有更多

另一个显而易见的用例是成本。

如果能让一个超小型语言模型代替 GPT-4 来完成任务，就能节省大量成本。

而如果使用语言模型来完成大规模任务，如分流客户支持收件箱，或分析公共数据以获得洞察力

成本就会增加。

但是，如果您想知道到底该在哪里投资进行微调……

对于大多数企业来说，我的答案仍然是

确保不能使用提示功能。

来源：

There's a resurgence of interest in fine tuning LLMs

I've yet to see a successful public use case where fine tuning > prompting.

But here's where I see fine tuning *mattering*:

First, fine tuning is for teaching an LLM specific tasks or behaviors

Not teaching an LLM new…
— Rachel Woods (@rachel_l_woods) August 18, 2023