【文旅大模型应用】240911会议纪要

【文旅大模型应用】240911会议纪要

陕西文旅项目大模型小组-240911会议内容整理

包含部分个人总结思考内容

初期任务

时间:2024-09-12起

![f57a52e3c6968d1d2090acf6e73d0bf](D:\Wechat Files\WeChat Files\wxid_4xgi2p0wz8hv22\FileStorage\Temp\f57a52e3c6968d1d2090acf6e73d0bf.png)

数据爬取、清洗和整理

  • 初期训练:先爬一些数据,进行模型的预训练

    数据来源:百度百科、豆瓣、旅游网站等

    或:寻找有关陕西旅游的公开数据集或 API

    模型需要的数据形式:三元组

    初期先做景点:

    • 兵马俑
    • 大唐不夜城
    • 长安十二时辰
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 回答来自ChatGPT

三元组(Triplet)是一种用于表示关系型数据的结构,通常由三个元素组成:主语(Subject)、谓语(Predicate)和宾语(Object)。
在知识图谱或关系数据模型中,三元组可以用来表示实体之间的关系。


主语(Subject):表示某个实体或对象。例如,“北京”。
谓语(Predicate):表示主语和宾语之间的关系。例如,“是”。
宾语(Object):表示与主语相关的另一实体。例如,“中国的首都”。


一个具体的例子:
(北京,是,中国的首都)
表示的是"北京是中国的首都"这一事实。

在预训练语言模型时,三元组常用于建立知识图谱,以帮助模型理解实体及其关系。你可以通过爬取数据来构建三元组,并基于这些数据进行模型训练。

数据清洗:在爬取到的数据中,可能会有噪音数据,因此您需要对数据进行预处理,去掉无效信息或重复信息。
数据格式化:三元组 (triplet) 的形式通常是 (subject, predicate, object)
  • 数据清洗
    • 处理缺失数据
    • 规范化字段
    • 提取有用信息,例如景点的历史、地理位置、推荐游玩季节等
  • 初期训练需要数据量:一两百个问答对(老师说的

模型本地部署

  • 初期部署+尝试训练→可以选择小一点的模型
  • 老师推荐:GLM-4

部署教程参考链接

构建问答向量的数据库

1
2
3
4
5
6
7
8
9
# 回答来自chatGPT

要实现基于向量的问答系统,你可以:

选择向量数据库:常见的向量数据库包括 Faiss(Facebook AI 提供的向量库)或 Milvus(专为处理向量数据的大规模数据库)。

生成景区数据的向量表示:你需要使用文本嵌入技术,将景区的描述转化为向量。这可以通过预训练模型来完成,例如基于百度的Wenxin Yiyan模型,通过提取嵌入层的输出将文本转化为向量。

存储和查询:将生成的向量存储在向量数据库中,用户提问时,将问题文本转化为向量后在数据库中进行相似度匹配,找到最相关的景点或答案。
  • 理解:提取完数据后,可以把格式转换的工作交给现有大模型
  • 然后把格式化的数据存入数据库,方便后期的CRUD

模型调优

1
2
3
4
# 回答来自chatGPT

模型调优
你可以根据不同类型的用户问题(例如推荐类、介绍类)对模型进行调优,确保生成的向量能够准确匹配对应的答案。

问答内容展示形式优化

image-20240912105021028

  • 自动关联相似问题
  • 展示图片等影音资料

完成后台管理系统

  • 划分权限:普通用户、管理员
  • 用户权限:
    • 与大模型对话,获取信息
  • 管理员权限:
    • 与大模型对话,获取信息
    • 微调大模型
    • CRUD后台数据库

敏感词审计过滤

  • 过滤敏感词
  • 过滤敏感图片

模型部署到后台

  • 将训练好的模型部署到后台
  • 与前端页面完成连接交互
  • Copyrights © 2024-2025 brocademaple
  • 访问人数: | 浏览次数:

      请我喝杯咖啡吧~

      支付宝
      微信