博客

技术分享

微调 LLMs 的五大技巧

2024.12.20 37分钟阅读

为什么微调很重要？

LLMs 具备处理各种任务的通用能力，包括文本生成、翻译、摘要和问答。尽管在全球表现如此强大，但它在特定的任务导向问题或医学、法律等特定领域仍然犯错。LLM 微调是将预先训练好的 LLM 在较小的特定数据集上进行进一步培训的过程，以提高其在特定领域任务上的表现，例如理解医疗保健中的医学术语。无论您是从头开始构建 LLM，还是使用额外的微调数据来增强 LLM，遵循这些提示都将提供更稳健的模型。

优先考虑数据质量

在微调 LLMs 时，将模型视为一道菜，将数据视为其配料。正如一道美味的菜肴依赖于高质量的食材一样，一个表现良好的模型也取决于高质量数据。

“garbage in, garbage out” 的原则指出：如果你输入模型的数据有缺陷，那么任何超参数调整或优化都无法挽救其性能。

以下是整理数据集的实用技巧，以便您获得高质量的数据：

了解你的目标：在收集数据之前，澄清你应用程序的目标和你期望的输出类型，然后确保你只收集相关数据。
优先考虑数据质量而非数量：一个较小、高质量的数据集通常比一个较大、嘈杂的数据集更有效。
删除噪声：通过删除不相关或错误的条目来清理数据集。使用插补技术解决缺失的值，或删除不完整的记录以保持数据完整性。数据增强技术可以增强数据集的大小和多样性，同时保持其质量。

选择正确的模型架构

选择正确的模型架构对于优化 LLMs 的性能至关重要，因为不同的架构旨在处理各种类型的任务。比如两个非常著名的 LLMs BERT 和 GPT。

GPT 等纯解码器模型在涉及文本生成的任务中表现出色，使其成为会话代理和创意写作的理想选择，而 BERT 等纯编码器模型更适合涉及文本分类或命名实体识别等上下文理解的任务。

微调注意事项

考虑正确设置这些参数以进行有效的微调：

学习率：它是决定模型更新权重速度的最重要参数。虽然它是通过试错法指定的，但您最初可以从他们在基础模型的研究论文中称为最优的速率开始。但是，请记住，如果您的数据集小于用于基准测试的数据集，则此最佳速率可能不起作用。为了微调 LLMs，通常建议学习率为 1e-5 到 5e-5。
批大小：批大小指定模型在一次迭代中处理的数据样本数量。更大的批处理大小可以促进训练，但需要更多的内存。同样，较小的批大小允许模型彻底处理每一条记录。批量大小的偏好必须与硬件功能以及数据集保持一致，以获得最佳结果。
预热步骤：这用于将学习率从较小的初始值逐渐提高到峰值。这种方法可以稳定初始训练，并帮助模型找到更好的收敛路径。
Epochs：LLMs 通常只需要 1-3 个 Epochs 进行微调，因为它们可以在最小的暴露下从数据集中学习。训练更多的时间段可能会导致过度拟合。尽早的停止以避免过度拟合。

GridSearch 或随机搜索等技术可用于实验不同的超参数以对其进行调优。

平衡计算资源

LLMs 非常强大，但由于其庞大的规模和复杂的架构，也以资源密集著称。微调这些模型需要大量的计算能力。这导致了对高端 GPU、专用硬件加速器和广泛的分布式训练框架的需求。

利用 AWS 和 Google Cloud 等可扩展的计算资源可以提供处理这些需求所需的能力，但它们也有成本，尤其是在运行多个微调迭代时。如果你花时间微调自己的 LLM，投资专用硬件不仅可以节省培训和微调成本，而且保持其运行的价格也会很快增加。

A.了解你的微调目标

模型参数是在训练步骤中优化的权重。微调模型涉及调整模型参数，以优化其在特定任务或领域的性能。

根据我们在微调过程中调整的参数数量，我们有不同类型的微调：

完全微调：在这种方法中，我们调整预训练模型的所有权重，重新校准这个新任务/领域的整个参数。这种方法使模型能够深入了解新领域，从而可能带来卓越的性能。然而，这种方法是资源密集型的，需要适当的计算能力和内存。
参数高效微调：与完全微调相反，参数高效微调（PEFT）更新模型参数的一小部分，同时保持其余部分不变。这导致可训练参数的数量比原始模型少得多（在某些情况下，只有原始权重的 15-20%）。像 LoRA 这样的技术可以将可训练参数的数量减少 10000 倍，使内存需求更易于管理，非常适合节省时间，并且能够在更受限制的硬件资源上运行。

B.模型压缩方法

修剪、量化和知识蒸馏等技术也可以使微调过程更易于管理和高效。

修剪删除了不太重要或冗余的模型参数，这可以在不牺牲太多准确性的情况下降低复杂性。
量化将模型参数从转换为较低精度的格式，这可以显著降低模型的大小和计算要求。根据模型的不同，降低的浮点精度对精度几乎没有影响。
知识蒸馏将知识从大型复杂模型转移到较小、更高效的模型，使其更容易部署。

C.优化战略

采用随机梯度下降（SGD）、Adam 和 RMSprop 等优化算法，可以进行精确的参数调整，使微调过程高效。

持续评估和迭代

一旦 LLM 经过微调，它就需要持续监控和定期更新，以保持其性能。需要考虑的关键因素包括数据漂移和模型漂移，数据漂移涉及输入数据统计特性的变化，模型漂移是指输入和输出之间关系随时间的变化。

因此，必须应用迭代微调来调整模型参数以响应这些漂移，确保模型随着时间的推移继续提供准确的结果。

为了评估模型的性能，定量和定性方法都是必不可少的。定性评估技术，如准确性、F1 分数、BLEU 分数、困惑度等，可用于衡量模型的表现。

另一方面，定性评估技术可用于评估模型在现实世界场景中的性能。需要由领域专家进行手动测试来评估模型的输出，并且必须按照从人类反馈中强化学习（RLHF）的技术迭代地将反馈应用于模型。

增量学习允许模型从新数据中不断学习，而不需要完全重新训练，使其能够适应数据和模型漂移。

解决偏见和公平问题

在微调过程中，我们必须确保我们的模型不会产生任何基于性别或种族的歧视性输出，并确保模型优先考虑公平性。

偏见可能由两个主要原因引起：

有偏差的数据：如果训练过程中使用的数据不能代表现实世界的情况，那么很可能存在数据偏差。这可能是由于采样技术，即向某一组提供更多数据，而另一组在数据中代表性不足。这也可能是由于历史偏见造成的，历史数据中的代表性不足，例如历史偏见倾向于将女性视为家庭主妇或设计师等角色，而男性则更倾向于担任高级职位。
算法偏差：这是由于算法本身固有的假设和设计选择造成的。例如，如果在训练过程中赋予某个特征更大的权重，可能会导致预测有偏差。例如，贷款审批系统优先考虑来自某些地点或种族的申请人。

偏差缓解技术

公平意识算法：开发算法，以确保微调后的模型在不同的人口统计群体中做出公平的决策。它们包含了公平约束，如机会均等，即模型在所有人口统计群体中具有相等的真阳性，或概率均等，即该模型在所有群体中具有相同的假阳性和假阴性率。这通过平衡预测来确保公平的结果，以避免使任何特定群体处于不利地位。
偏见检测：定期分析训练数据和模型预测，以识别基于种族、性别或年龄等人口统计属性的偏见；并尽早解决潜在的偏见来源。
数据增强：增强训练数据以提高多样性和代表性，特别是对于代表性不足的群体，确保模型在更广泛的场景中很好地推广。
去偏技术：它涉及重新称重、处理中和后处理等方法。重新加权平衡了模型的重点，并通过赋予代表性不足的例子更多的权重来减少偏见。在训练过程中应用去偏策略以减少偏误。后处理在训练后修改模型预测，以符合公平性标准。

结论

为特定领域和其他目的微调 LLMs 一直是希望利用其优势为企业和特定领域数据集服务的公司的一种趋势。微调不仅可以提高自定义任务的性能，还可以作为一种经济高效的解决方案。

通过选择正确的模型架构，确保高质量的数据，应用适当的方法，并致力于持续的评估和迭代，您可以大大提高微调模型的性能和可靠性。这些策略确保您的模型不仅高效运行，而且符合道德标准和现实世界的要求。阅读这篇关于 RAG 与微调 的相关文章，了解微调。

在运行任何人工智能模型时，合适的硬件都可以带来巨大的变化，尤其是在医疗保健和法律等关键应用中。这些任务依赖于精确的工作和高速交付，因此需要专用的高性能计算。由于对客户和患者数据构成的安全风险，这些办公室无法利用基于云的 LLMs。在联泰集群，我们构建和部署服务器和解决方案，为各类需求个性化的工作负载提供动力。立即联系我们，获取为您构建的优化系统的报价。