【AI-Snova】使用私有数据训练语言模型的示例训练

写在前面

  • YoDa 是 Your Data, Your Model 的首字母缩写词
  • 此初学者工具包旨在使用私有数据训练语言模型 (LLM)
  • 目标是在与私有数据相关的任务上与常规解决方案竞争

工作流概述

  1. 数据生成生成与您的域相关的合成数据。可以使用两种主要的数据生成方法,具体取决于任务要求:
    • 预训练生成:生成包含所提供数据部分的 JSONL 文件。使模型能够对查询执行完成。
    • 微调生成:处理每个文档以根据内容创建一系列综合问题和答案。此方法使用强大的 LLM (Llama 2 70B) 和由提示和后处理技术组成的管道。生成的数据存储在 JSONL 文件中。此方法可教模型遵循说明并回答问题。
  2. 数据准备。对生成的数据进行预处理和格式化,使其适合训练。此步骤将数据转换为训练大型语言模型所需的格式和结构。
  3. 训练/微调。在此阶段,您将使用您的数据在 SambaStudio 中微调模型。微调包括更新模型的参数,使其适应准备好的数据集中存在的特定特征和模式。
  4. 评估。评估阶段会创建一组响应来评估微调语言模型的性能。它涉及使用一组评估查询来执行:
    • 从基线模型获取响应。
    • 从自定义模型获取响应。
    • 从自定义模型获取响应,在评估查询的问题生成中使用的确切上下文中为它们提供响应。
    • 使用简单的 RAG 管道从自定义模型获取响应,以生成响应。 评估有助于进一步分析模型在解决特定于域的任务方面的有效性。
  • Copyrights © 2024-2025 brocademaple
  • 访问人数: | 浏览次数:

      请我喝杯咖啡吧~

      支付宝
      微信