【文旅大模型应用】240918第五组会议纪要&bcmp个人工作进程

240918文旅项目第五组会议纪要

[TOC]

当前阶段任务概述

  • 把主干流程跑通,后期继续优化

任务集合

  • 数据部分

    • 原始数据爬取
    • 整理数据格式
    • 数据整合存储
    • 数据规模展示
    • 数据筛选过滤
  • 前端展示部分

    • 数据规模展示
    • 项目界面构建
  • 后端部分

    • 用户管理系统
    • 数据库交互-数据CRUD
  • 大模型部分

    • 系统学习大模型构建知识
    • 大模型跑通
    • 大模型训练优化

*数据部分任务

当前重点部分

原始数据爬取

  • 涉及知识:手动CV,爬虫

  • 存储形式:excel表格

整理数据格式

  • 各组共享各组景点收集原始数据集(xls/xlsx)格式
  • 根据各自需求对原始数据进行再加工
    • 例如:(部分没听清
      • 5组 / 大模型组:问答对形式
      • 知识图谱/星图 :节点连接形式(?
      • 1组:细化(?

可能使用的数据处理工具

回答来源:ChatGPT

数据收集项目
  1. LLMDataHub: 这个项目提供了许多流行的用于指令微调的数据集的快速指南,涵盖了中文问答、考试、代码等多种领域的数据。适合初学者快速了解和收集大模型的初期训练数据

  2. olm-datasets: 该项目可以从网络上提取和处理语言模型的预训练数据,如 Common Crawl 和 Wikipedia 的数据。支持数据过滤、去重等操作,是非常强大的数据收集工具

  3. RedPajama: 这是一个用于创建完整的大语言模型预训练数据集的项目,遵循 LLaMA 的方法。它主要用于从互联网收集和过滤高质量数据,是处理大规模文本数据的好工具

数据整理和过滤项目
  1. Data-centric AI Datasets: 这是一个通用的数据预处理框架,用于从不同数据源收集、清理和转换数据。项目中包含了多个预处理脚本,可以帮助团队快速清理和格式化数据

  2. OSCAR: 该项目提供了多语言大规模的已过滤和去重的文本数据,特别适用于大模型的训练。它基于 Common Crawl 数据,包含了超过 100 种语言的文本数据

  3. openwebtext: 这是一个用于重现 OpenAI 的 WebText 数据集的项目,专注于过滤掉低质量的网络文本数据。适合初期数据过滤和整理

这些项目可以帮助你和你的团队高效地完成大模型的初期数据收集、整理和过滤工作。你可以根据项目需求选择合适的工具和数据集。

数据整合存储&分类

数据存储

  • 将存储在excel中的整合数据存入mysql
  • 初步整理数据和后期训练数据的存取

数据分类

  • 可以参考:百度百科的的目录

image-20240918203644540

数据规模展示

  • 完成数据整理和存储后,对于数据统计性信息的展示
  • 展示形式:统计图表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
建议部分来源:ChatGPT

- 饼状图→突出各部分相对于整体的比例

> 展示数据组成

- 柱状图→展示类别数据出现的大小或频率

> 展示数据量

- 散点图/星图→展示变量之间的相关性或关系

- 词云图→展示数据出现频率

> 相对于柱状图更直观和冲击力

- 更多可用类型和可实现形式欢迎补充^ ^

数据筛选过滤

  • 对于问答对数据的筛选

    标记问答质量高低

  • 对于问答对数据的过滤

    过滤不正确数据

    过滤带有敏感内容数据

前端展示部分

  1. 在完成数据部分任务的过程中,完成数据规模和内容的整理概览页面

  2. 模型对话界面搭建–前端展示

使用技术栈

后端部分

  1. 学习django框架,完成后端用户管理系统

    1. 区分用户身份:管理员 / 普通用户
    2. 管理员权限构建:
      1. 对于训练数据的CRUD(增删查改)
      2. 对于用户账号信息的CRUD
  2. 数据库系统管理

    1. 统一使用MySQL管理数据库
    2. 当用户调用大模型时,实现数据的查询

使用技术栈

大模型部分

系统学习大模型构建知识

  1. 视频资料

    笔者没看完,只是挑了几个可能适合的

    1. 从零开始构建自己的大模型 07:10
    2. 从零开始训练大模型 1:24:38
    3. Create a Large Language Model from Scratch with Python – Tutorial - YouTube 5:43:40
  2. 图文资料

    1. DATAWHALE - 一个热爱学习的社区 强推DataWhale

    2. datawhalechina/self-llm: 《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程 (github.com)

    3. datawhalechina/tiny-universe: 《大模型白盒子构建指南》:一个全手搓的Tiny-Universe (github.com)

      本项目将从基础原理出发,深入剖析每一个技术点并附以完整的代码实现,以细致讲解和代码注释帮助读者独立复现大模型核心部分,并在复现中实现对大模型的深入理解与掌握

      个人感觉这个应该是符合这次任务大模型部分学习任务的教程

    4. datawhalechina/llm-universe: 本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/

      本项目是一个面向小白开发者的大模型应用开发教程,旨在基于阿里云服务器,结合个人知识库助手项目,通过一个课程完成大模型开发的重点入门

      主要包括三部分内容:LLM开发入门、LLM开发技巧、LLM应用实例

跑通大模型

  • 将前期收集的数据导入部署好的模型训练
  • 测试模型功能

大模型训练优化

目前笔者这方面知识还不够完善,遂写的简单一点

image-20240919161831835

image-20240919161844634

注:并不会全部用到,根据实际需求再去了解接触

后期进一步优化:多模态问答对

是指包含多种模态信息(如文本、图像、音频、视频等)的问答对。这种问答对不仅仅是简单的文本问答,而是包含了多种形式的信息

特点:

  1. 多模态信息
  2. 复杂的理解
  3. 高级的推理

相关应用:

智能客服: 用图像、音频等模态理解用户的需求和情绪

智能搜索: 用图像、文本等模态来搜索和检索信息

智能推荐: 用用户的行为、偏好等信息来推荐产品或服务

智能辅助: 用图像、音频等模态来辅助残障人士或老年人

bcmp任务进程

240919

  • 单线会议内容整理
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
整理数据 --> 问答对形式   **core**
使用数据 --> 将数据导入模型,让模型跑起来,看看问答功能能不能实现
整理讲述知识 --> 整理LLM的搭建方法

做前端界面 --> 可以参考kimi
--> 问答对话
--> 查看历史对话
--> 历史对话界面
--> 查看、搜索历史对话
--> 提供多种智能体(拓展)

数据库 --> 多做数据库相关的操作
--> 相似问题存储
--> 在用户提问时,先进行

不让他自动生成,先找到**相似问题** 让用户 做数据库查询 结合mysql

再去用大模型

将问题存储到数据库

用到数据库相关的技术

同义反义词 存储的时候就标记出来 标记相似问题

240920

完成大唐不夜城-百度百科界面数据爬取

  • 第一次爬取百度百科静态界面的html代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 成功爬取大唐不夜城-百度百科静态网页html内容

import requests
import urllib
url1 = 'https://baike.baidu.com/item/'
key_word = (input())
lens = len(key_word)
key_word = urllib.parse.quote(key_word,encoding = 'utf-8', errors = 'replace')
headers = {
# 'wd':key_word,
# 'Host': 'https://baike.baidu.com/item/',
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}
html = requests.get(url1+key_word,headers = headers)
print(url1+key_word)# 验证链接是否正确
html.encoding = html.apparent_encoding
fo = open("bigTangNoNightCity.txt",'wb')# 爬取百度百科的内容保存到本地中
fo.write((html.content))
print("写入文件成功")

# 运行之后,输入【大唐不夜城】回车
# html代码成功写入txt文件
  • 第二次进行数据清洗,清除html代码格式
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 成功把html内容提取为文本

from bs4 import BeautifulSoup

# 读取txt文件内容
with open('bigTangNoNightCity.txt', 'r', encoding='utf-8') as file:
html_content = file.read()

# 解析HTML内容
soup = BeautifulSoup(html_content, 'lxml')

# 提取文本
text = soup.get_text(separator='\n', strip=True)

# 保存清理后的文本
with open('datang_baike_cleaned.txt', 'w', encoding='utf-8') as file:
file.write(text)

print("文本清理完成,保存为 'datang_baike_cleaned.txt'")
  • 第三次根据百度百科的目录结构对文本进行整理划分,将数据导入到新创建的xlsx文件中
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 在kimi和ChatGPT的辅助下,将内容提取到xlsx文件中

import re
import pandas as pd

# 1. 文件路径定义
input_file = 'datang_baike_cleaned.txt'
output_file = 'Datang_Everbright_City_Info.xlsx'

# 2. 从文件中读取原始内容
with open(input_file, 'r', encoding='utf-8') as file:
raw_text = file.read()


# 3. 文本清洗函数
def clean_text(text):
# 去除 [数字] 格式的标记
cleaned_text = re.sub(r'\[\d+\]', '', text)
# 去除多余的换行和空格
cleaned_text = re.sub(r'\n+', '\n', cleaned_text).strip()
return cleaned_text

# 4. 清洗文本
cleaned_text = clean_text(raw_text)


# 5. 准备要写入 Excel 的数据
data = {
"大项": [
"历史沿革", "历史沿革", "历史沿革",
"景区布局",
"重要景点", "重要景点", "重要景点", "重要景点",
"文化活动", "文化活动",
"其他看点", "其他看点",
"开发与保护",
"相关文化",
"重要事件", "重要事件",
"价值意义", "价值意义", "价值意义",
"旅游信息", "旅游信息", "旅游信息", "旅游信息"
],
"小项": [
"初步建造", "改造发展", "",
"",
"贞观广场", "开元广场", "大雁塔南广场", "主题雕塑",
"节目演出", "其他活动",
"长安十二时辰主题街区", "西安音乐厅",
"",
"",
"重要荣誉", "热点事件",
"艺术价值", "社会价值", "文化价值",
"开放时间", "门票价格", "酒店住宿", "交通信息"
],
"内容": [
"20世纪90年代末,西安拟建曲江旅游景区,由中国工程院院士张锦秋规划设计曲江核心区“七园一城一塔”布局,其中“一塔”就是大雁塔,“一城”就是大唐不夜城。2002年8月,大雁塔北广场正式开建,拉开了大唐不夜城建设的序幕。2008年,西安市完成第四次城市发展规划,确定了大唐不夜城在西安文旅产业中的地位。同年12月初,大唐不夜城开始布局招商。2009年4月,大唐不夜城点亮工程启动。5月,大唐不夜城景观大道开始改造建设。次年9月26日,开元广场建成开放,开元盛世及武后行从两大主题雕塑落成,标志着大唐不夜城长2100米、宽500米的中央景观带全线贯通,展现了千年古都的历史命脉和文化轴线。",
"2018年按照“中国特色、地方特点、国际水平”的总体要求,充分挖掘城市文化底蕴,大唐不夜城整体以“唐”文化为主线,进行全面提升,构建了“一轴·两市·三核·四区·五内街”总体布局,形成观光游憩、文化休闲、演艺互动、特色餐饮、购物娱乐多位一体的发展模式。2018年6月26日,西安曲江大唐区域宣布将打造融文化、商业、旅游为一体的步行街。11月,中国31个省区市向商务部报送了包括大唐不夜城在内的128条重点培育的步行街。2018年底,商务部在中国启动了11条步行街改造提升试点,大唐不夜城成功入选。12月25日,大唐步行街正式开街。成功入选中国11条商业步行街改造提升试点后,按照商务部关于“中国特色、地方特点、国际水平”的总体要求,曲江新区对街区进行了全面提升,文商旅融合发展的特点日益明显。2019年1月29日,“西安年·最中国”活动核心区大唐不夜城现代唐人街开街盛典暨国家高品位步行街试点揭牌仪式举行。2020年2月21日,包含大唐不夜城在内的西安市室外开放式景区及户外公园全部开放。7月,大唐不夜城步行街入选首批中国示范步行街名单。2022年4月30日,“长安十二时辰”主题街区在西安大唐不夜城曼蒂广场正式开街,标志着历经2年多精心策划打造的中国首个沉浸式唐风市井生活街区向广大市民游客正式开放。近年来,大唐不夜城更以创建旅游休闲街区为核心,不断提升街区品质、丰富文化内涵、创新体验产品、优化消费业态、完善公共服务,致力于打造世界级文化IP旅游休闲街区。",
cleaned_text, # 将总的历史沿革内容放在此处
"大唐不夜城位于陕西省西安市雁塔区的大雁塔脚下,街区南北长2100米,东西宽500米,总建筑面积65万平方米。其北起大雁塔南广场,南至唐城墙遗址,东起慈恩东路,西至慈恩西路。该街区按照建设有中国特色、地方特点、国际水平步行街的总体要求,以国际化、人文化、特色化为目标,规划形成了大唐不夜城步行街“一轴·两市·三核·四区·五内街”的总体布局。一轴是指“大唐不夜城文化商业轴”;两市是指“贞观新风韵唐市、创领新时代都市”;三核是指“大雁塔广场景观文化核心、贞观文化广场时尚艺术核心、创领新时代广场休闲时尚核心”;四区是指“大雁塔盛唐景观人文风貌展示区、中华传统美食文化生活品鉴区、贞观国际艺术文化交流体验区、创领新时代都市休闲文化区”;五内街是指“慈恩镇——陕西风情小吃文化街、新乐汇——中华传统美食文化街、欧凯罗——潮流音乐酒吧文化街、温德姆—品味生活咖啡文化街、阳光城—SKP时尚青年艺术文化街”。大唐不夜城整体布局为线性布局,以大雁塔南广场到古城墙遗址之间的连线为轴线,分为五个功能区,即商业步行街、贞观广场、文化交流广场、庆典广场及唐城墙遗址公园。",
"贞观文化广场是大唐不夜城的核心部分,由西安大剧院、西安音乐厅、曲江美术馆和曲江太平洋影城四组文化艺术性建筑组成。该广场采取立体式设计,以地面层的四个下沉式广场把地面和地下的活动场所联系起来。贞观文化广场在总体设计中,四个主体建筑以正对大雁塔的南北轴线为空间对称关系,主体空间高度接近的电影院与美术展馆布置在用地的北部,两者的大屋顶均设计为重檐歇山;而音乐厅和大剧院布置在用地的南部,两者的大屋顶均设计为重檐庑殿。",
"开元广场是大唐不夜城中轴线的景观高潮,南北长161米,东西宽78米,面积约12200平米,其中旱喷泉约1000平米,绿化面积约1300平米。广场上设立了1组“开元盛世”群雕和8根LED灯蟠龙柱。广场上8根朱红LED蟠龙柱高20米,柱头直径8.9米,柱身直径2米,东西两侧各有四柱,取意为四方、四极、四周、四海,与八数相合,意为四面八方、四通八达,诠释了大唐不夜城的建筑美学,使得开元广场成为了一个露天宫殿。当LED灯柱在古城夜色中点亮,不夜城更加焕发出“不夜”之魅。",
"大雁塔南广场(玄奘广场)作为西安重要的佛文化主题空间,大雁塔南广场结合大慈恩寺传统建筑群营造兼具社会性与精神性的特色场所,呈现思想、精神、观念、文化和艺术的积累。该地段主题鲜明,尺度宜人,演绎着持续生长的本土文化,是容纳城市居民和外地游客公共活动的重要场所。广场基础设施配套完善,景观环境以纪念性开敞空间为主,连接大面积绿化和景观空间,提供了多样化的活动体验及视觉感受,是历史性与公共性并存的城市公共客厅。",
"万国来朝雕塑表现的就是大唐王朝四海成服,万国来朝的盛世景象。武后行从雕塑以唐代仕女画家张萱的《武后行从图》为蓝图,连接在贞观广场和开元广场之间,上承贞观之兴,下启开元之盛,完整地展示大唐盛世气象。唐历史文化浮雕柱位于武后行从雕塑两边的“唐历史文化浮雕柱”,共有24根,它们采用唐代建筑中斗拱的形式,将唐代48个重要的文化事件如“曲江游宴、丝绸之路、上元赏灯”等,以浮雕的形式展现,其中每个事件中的重要人物又以圆雕的形式予以表现,充分体现了大唐文化之勃兴和繁荣。“开元盛世”主题雕塑总高12.95米,最高一层基座上是4.59米高的“唐玄宗李隆基”。4.59米取意为九五之尊,李隆基站立在巨大的圆形龙壁前,帝王风范尽显。第二层是唐玄宗最器重的6位重臣及20个番邦使节。第三层42个乐俑手持各种乐器尽情演奏,壮美恢弘。整个雕塑群由78个人物组成,营造出一种大唐盛世百姓安居乐业的欢乐气氛。贞观纪念碑是不夜城的地标性雕塑,由李世民骑马像组成及周围的附属雕塑组成。中间,为李世民威武端跨高头大马之上,手抖缰绳欲勒马前行,意气风发;四周,号手、旗手各半的24人仪仗队、鼓手2人及文臣武将各3人紧密相随。碑体正面雕刻“贞观之治”四字,背面为贞观政要名录数百字。",
"大唐不夜城常态演出时间表包括诗歌艺术、花车斗彩、贞观之治、戏演壁画等节目,以及大雁塔水舞光影秀、再回长安等主题演出。各类演出在不同的展演时间在诗歌雕塑群内、团花广场、贞观之治雕塑群南侧、大唐文化柱、大雁塔北广场、开元广场主舞台等地举行。此外,还有开元广场不倒翁、北广场不倒翁、盛唐密盒、旋转的胡旋、华灯太白、乐舞长安、丝路曼舞、民俗荟萃舞台、长安故事舞台、追梦力量舞台等行为艺术和音乐舞台表演。",
"2019年春节,在为期66天的“西安年·最中国”活动期间,大唐不夜城举办了西商大会、丝绸之路国际电影节、国际模特大赛、国际时尚周、码农集市等时尚文化活动。2021年至2022年,大唐不夜城以唐文化、陕西特色文化及网红潮流文化为三大主题,研发并推出百余种文创产品,打造出“唐食坊”“唐礼坊”“大唐游艺区”等商业业态。大唐不夜城还创新推出了“盛世花开”“霓裳羽衣”等新的行为艺术和表演,全网总曝光率超25亿次;以“不倒翁小姐姐”为代表的系列IP人物火遍中国后,大唐不夜城相继推出“与李白对诗送肉夹馍”活动,点评赞过亿。",
"长安十二时辰主题街区为一所24000平方米的商业空间,注入了《长安十二时辰》电视剧相关IP与唐文化内容,建造长安城隐市坊的故事体系。街区全天8大类表演,百余场大型演艺。街区充分利用全唐场景,结合原影视剧情和长安城特有的烟火气息,设计NPC互动演绎,以偶遇触发式体验全新沉浸观感,首创游客全维度沉浸式消费体验。街区再现了剧中靖安司、通善坊、安仁坊等场景,同时还汇集了《霓裳羽衣舞》《万邦来朝》《大唐燕乐》等特色演艺。",
"不夜城内的西安音乐厅作为一个具有国际顶级水准的独立式场馆,由可容纳1300名观众的大型交响音乐厅及两个小型室内音乐厅、流行音乐厅构成。音乐厅内常举行大型音乐盛会和音乐赛事,可让人们领略世界顶级艺术。",
"大唐不夜城2002年启动建设,2009年9月28日,一期建成开放。建设初期以文化和旅游为主,是西安文化旅游的一张名片。经过多年的发展,周边开发建设不断完善,文商旅融合发展的特点日益明显。2018年,大唐不夜城对标国家5A级旅游景区标准,对街区硬件建设和基础设施配套全面改造升级,集中展现盛唐文化风貌,功能更加完善。在文旅融合方面,《再回大雁塔》《再回长安》等节目将街区的美食、建筑、演出、文创、科技融入到整个盛唐文化氛围中,打造大唐不夜城潮文创,开发了70多种文创产品,唐文化元素为潮玩手办赋予了丰富的文化内涵。街区在保护和还原盛唐文化原生态韵味的同时,不断加强文化创新,推出了“象棋对弈”“秦腔提线木偶”等行为艺术表演。街区入选全国11条商业步行街改造提升试点以来,按照商务部关于“中国特色、地方特点、国际水平”的总体要求,曲江新区对街区进行了全面提升。经过77天的提升改造,2019年元旦前全新亮相。大悦城、银泰等龙头商业相继落户,街区的商业氛围日益浓厚,已经成为西安引领新消费的标志性区域。",
"大唐不夜城是《长安十二时辰》的取景地,通济坊,范围在雁南二路以北,雁南一路以南。在电视剧播出后,陕西文化产业投资控股有限公司将“长安十二时辰主题街区”项目落地的目标瞄准了坐落在大唐不夜城核心区的曼蒂广场。如今长安十二时辰主题街区在大唐不夜城旁边。大唐不夜城也是《装台》的取景地,张嘉益演绎的“刁大顺”跟着大哥一家人聚餐的餐厅,就在大唐不夜城一家西安老字号——同盛祥,片头部分西安城墙永宁门的大场景,剧中西安护城河景区的镜头。《2024年中央广播电视总台春节联欢晚会》西安分会场设在大唐不夜城开元广场。",
"自建成后,大唐不夜城被国家部委确认为“国家旅游科技示范园区试点”“第一批国家级夜间文旅消费集聚区”“省级旅游休闲街区”,入选国家文化和旅游部产业发展司发布的“中国沉浸式产业数据库”、进入“中国沉浸式产业项目评选”中国40强、入选西安市2021年度文旅行业科技计划项目。2020年7月,大唐不夜城步行街入选首批中国示范步行街名单。2021年10月,西安市大唐不夜城步行街拟入选第一批国家级夜间文化和旅游消费集聚区名单。2023年1月,文化和旅游部发布2022年度文化和旅游最佳创新成果,由陕文投集团创新打造的“长安十二时辰+大唐不夜城”唐文化全景展示创新实践成果入选。",
"2019年11月,在大唐不夜城表演不倒翁行为艺术的冯佳晨因为一段“神仙牵手”的短视频在网络上走红。爆红之后,冯佳晨的粉丝从几个人增长至230多万人,她甚至还上了人民网和央视的《新闻周刊》。以“不夜城不倒翁”为代表的系列文化IP,仅2019年网络播放量达23亿次,成为带动人气和商气的全新IP。2019年8月,在大唐不夜城扮演“石头人”马旭阳在做凿“自己”的动作时,不小心用锤子砸到手上。有游客提醒他“砸手了”,一脸严肃的马旭阳瞬间“笑场”。视频一经上传,便在网络上收获有数万条点赞。大量游客专门前往西安大唐不夜城看他表演,并不断“挑逗”,只为博君一笑。2024年2月,西安大唐不夜城的演员刘江涛在台上表演节目时,手中的道具刀意外断裂,却坚持“无实物表演”,这一幕被游客拍摄下来后火遍全网。刘江涛称该节目名为《贞观之治》,自己扮演的是带刀侍卫。从“带‘刀’侍卫”秒变“丢‘刀’侍卫”,刘江涛当时的表情也被做成表情包火遍全网。走红网络后,刘江涛饰演其他角色的工作日常也被剪辑出来。因他曾在《诗歌艺术》中扮演船夫为“李白”撑船,网友笑称其“大刀换船桨,从四品直接被‘贬’到没品”。",
"大唐不夜城步行街区的仿唐建筑飞檐斗拱、层楼叠榭;华灯初上后灯火璀璨、游人如织。白居易笔下的雁塔题名、诗仙李白的醉酒吟诗、古诗古画中的簪花仕女、青史留名的房谋杜断等散落在史书典籍中的故事遗珠,在大唐不夜城通过现代舞蹈、真人演绎、现场互动等形式呈现于世人面前。千米长街一步一景,传统与时尚精彩碰撞、古老与现代相得益彰。",
"大唐不夜城的经营收入可观,且处于不断上涨状态。2019年,大唐不夜城接待市民游客达1.01亿人次,同比增长302.3%;营业收入达112.4亿,同比增长74%。2021年可统计口径数据恢复到2019年80%,总客流8000万人次,综合收入达85亿。消费增速全国第一,助力西安进入夜经济全国十强城市,夜经济景区影响力全国排名第一,全网总曝光量百亿,相继登上抖音全国热榜top1,微博全国热榜top1,总计接待中外媒体万余家,创造超1000余个就业岗位。",
"大唐不夜城聚焦中国传统历史文化,以盛唐文化为背景,提供给游客唐代建筑的视觉享受和唐风市井文化生活的沉浸式体验,即“观一场唐风唐艺、听一段唐音唐乐、演一出唐人唐剧、品一口唐食唐味、玩一回唐俗唐趣、购一份唐物唐礼”。在游览和体验中,增强了群众的“文化自信”。",
"全天", # 开放时间
"免费", # 门票价格
"西安威斯汀博物馆酒店位于曲江新区大雁塔南广场西南角,与大唐不夜城隔街相望,人文气息浓厚。酒店设计具有西安特色,立面采用深色的灰泥与石材;运用中国特色的坡屋顶和悬挑屋檐,同时将传统的复杂细节提炼转化为现代建筑的简洁线条。建筑外立面上深凹的洞口有节奏、有序列地转换,趣意盎然。西安豪享来温德姆至尊酒店坐落于西安曲江新区大唐不夜城的核心位置,大雁塔及众多风景名胜、国际购物中心、商业步行街近在咫尺。酒店距离西安国际会议中心及曲江国际会展中心仅5分钟车程。酒店将现代建筑艺术与中国传统建筑文化有机结合,有着565间奢华典雅的客房及套房、特色的全日制餐厅及本地特色美食。国际一流的会议设施更使得西安豪享来温德姆至尊酒店成为高标准公司会议及大型主题派对的首选之地。", # 酒店住宿
"大唐不夜城可乘坐地铁4号线在大雁塔站下车,步行即到。夜间地铁接驳线:1、北端408路区间地铁接驳线,由不夜城的最北端(大雁塔南广场)发车,接驳大雁塔地铁站(3号线、4号线)、北池头地铁站(3号线);2、中段146路区间地铁接驳线,由不夜城中段,长安十二时辰处(雁塔南路雁南一路口)发车,接驳纬一街地铁站(2号线);3、南端526路区间地铁接驳线,由不夜城最南端(雁塔南路雁南三路口、开元广场)发车,接驳电视塔地铁站(2号线)。" # 交通信息
]
}

# 6. 转换为 Pandas DataFrame
df = pd.DataFrame(data)

# 7. 将 DataFrame 写入 Excel 文件
df.to_excel(output_file, index=False)

# 8. 输出文件路径
print(f"数据已保存到: {output_file}")

  • 第四步(未完成):预计会对xlsx文件内容进行进一步的细化划分
  • 第五步(未完成):使用大模型辅助生成问答对数据并存入xlsx文件

论文阅读和知识点提取

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
1.2.2 问题生成方法
核心是使用模板将陈述句转换成疑问句,并判定该规则是否完善

冗余问题生成排序的方法
通过一个输入语句来生成多个问题,再使用监督学习和术语分析对生成的冗余问题进行排序,将排名靠前的问题作为最后的输出
但生成的这些问题非常简单,大部分是对输入句子的重排。
这类基于规则的问题生成系统往往很难利用到输入句子中的语义特征

Transformer 模型中包含了一个自注意力层,通过大量的数据对
其训练后,它能很好的学习到输入语料中的上下文信息,从而提高模型处理自然语言的能
力。例如自然语言预训练模型 Bert,以及针对中文自然语言处理的预训练模型 Roberta和超大参数的 GPT和 GPT3等

- 问题生成方法的一些集合
- 通过构建疑问词表,应用于解决生成的第一个疑问词不准确的问题,同时解决 Copy 机制中 Copy 与答案无关上下文的问题
- 使用将原文中的答案遮盖的机制,以此解决生成问题中包含答案的问题
- 在 Copy 进行计算时进行了改进,用取最大值的方式求出 Copy 概率,从而一定程度上避免了在 Copy 时偏向在原文中出现较多的词
- 通过将原文中距离答案较远且比较重要的词抽取出来,
将其编码作为另外一个输入,使模型 Copy 操作时可以从原文中 Copy 也可以从抽取出的关系词中 Copy
- 通过 GCN 对输入先进行分类处理,将分类结果进行编码输入到后续的 Seq2Seq 模型中进行问题生成
- 使用多任务的方式,通过加强答案在原文中的位置信息,降低了生成错误疑问词以及 Copy 原文中无关词的现象

大多模型都使用了绝对位置编码,缺失了的输入的部分相对位置信息


1.3 主要研究内容
本文主要研究内容是段落文本的问题生成,以及智能问题生成系统的搭建
分为核心句抽取任务和问题生成任务

- 一次性对段落文本中所有句子生成其分类标签
- 现存神经网络模型中位置编码形式是以绝对位置编码为主。这种编码并没有明确表达出输入语料字词之间的位置关系。寻找一种合理的嵌入方式,既能充分表达输入语料字词之间的位置关系,也能充分利用中文词汇信息
- 如何搭建出轻量的完善的后端服务,完成对本文提出的核心句抽取模型和问题生成模型的集成


2 相关理论概述

2.1 Transformer
Transformer 中包含了自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Attention)
- 自注意力机制通过计算序列中各个元素之间的关系权重,从而使深度学习模型可以更好地理解输入中各个元素之间的关系,同时能够更好地处理长文本输入
- 多头注意力机制则可以让神经网络学习多种不同的关系,从而使它能够更好地处理不同语义信息

Transformer 主要由编码器(Encoder)和解码器(Decoder)两个部分组成,编码器将输入序列转换为一个特征向量,解码器则将该特征向量解译为输出序列

- 自注意力机制通过三个权重矩阵来计算注意力分数:查询(query)、键(key)和值(value)
- 查询矩阵和键矩阵用来计算当前元素与其它元素的注意力分数,而值矩阵用于加权平均计算每个元素的输出向量
- 编码器将输入序列转换为隐藏状态表示,而解码器使用这些隐藏状态来生成输出序列。通过自注意力机制,编码器和解码器都能够考虑到整个序列的信息,从而提高了模型的性能

归一化能使特征的分布在不同的样本之间更加一致,减少了特征之间的耦合,有助于提升模型的泛化能力

Decoder 层是 Transformer 的核心部分之一,它由多个相同的子层组成。其中包括了多头注意力机制、遮盖多头注意力机制和前馈神经网络三个部分,并在每个部分之后都进行了残差连接和归一化处理


2.2 Bert 语言模型
Bert模型在预训练时采用了掩盖语言模型(Masked Language Model,MLM)和下半句预测(Next Sentence Prediction,NSP)等预训练任务,从而使 Bert 能够更好地理解文本中的语言结构和语义信息


2.3 核心句抽取相关理论概述
2.3.1 卷积神经网络
2.3.2 Albert 语言模型
Albert是一种基于 Bert 的轻量级语言模型,Albert 的主要不同点在于它采用了三种方法来减小模型的参数和训练时间
(1)词嵌入参数因式分解
(2)跨层参数共享
(3)使用 SOP 作为预训练任务之一


2.5 数据预处理
(1)格式内容清洗
- 格式内容清洗主要用于处理结构错误
- 结构错误指在数据收集和传输或其它相关情况下出现的错误,包括特征名称的拼写错误、相同属性具有不同的名称、相同类型具有不同的格式、标记错误的类(即实际上应该是同一个类)以及大小写不一致等
(2)异常数据清洗
- 异常数据是指数据集中存在的不符合预期的数据。这些数据可能与正常数据存在偏差,而不是简单的误差
(3)缺失数据处理
- 方法有删除和填充两种方法



3 面向中文的核心句抽取模型
本章将核心句抽取任务转换为分类标签生成任务,提出了基于 Seq2Seq 的生成式分类模型(Generative Classification based on Seq2Seq and Sentence- Embedding, GCSS)


首先,使用经典的预训练模型 Albert 进行文本表征。其次,在 Albert 词嵌入层加入 SentenceEmbedding 机制,将输入语料的句子长度和边界信息融入特征向量中,目的是提高模型对段落文本的表征能力。最后,使用基于 CNN 的 Seq2Seq 模型,对核心句标签生成进行了训练和测试,输出了段落的核心句

3.1 核心句抽取任务及形式化定义
3.2 核心句抽取模型
3.2.1 模型整体架构
3.2.2 嵌入层表征


4 面向中文的问题生成模型
4.1 问题生成任务及形式化定义
- 绝对位置编码能帮助模型理解句子顺序,但不能清晰的反映出输入语料中各个
字词的相对位置关系

- 面向中文的问题生成模型,该模型在 Transformer模型中加入了相对位置嵌入和中文词汇嵌入,使模型学习到更多输入语料的相关信息

- 模型通过对训练集的学习,使用损失函数,通过反向传播梯度调整模型参数。最终模型在生成问题时会输出和输入序列高概率相关的问题序列
输入序列X --→ 输出问题序列Y


4.2 问题生成模型
4.2.1 问题生成模型整体架构
- 基于 PLattice 机制和 ECopy 机制的中文问题生成模型(Chinese Question Generation Language Model Based on PLattice Mechanism and Ecopy Mechanism,CQGLM-PE) 【模型文件在文件夹里面】

- CQGLM-PE 问题生成模型主要分为三个模块,输入信息嵌入模块、序列到序列模块和生成推断模块
- (1)输入信息嵌入模块:模型将输入语料中的中文词汇进行检索,将所有中文词汇拼接在输入语料之后。然后记录其中每个词的首部索引和尾部索引生成 Head 和 Tail 两个向量,将这两个向量经过计算后,送入每个 PLattice Transformer 层中。同时将输入语料的Token Embedding、Position Embedding、Segment Embedding 相加输入进 CQGLM-PE 模型的第一个 PLattice Transformer 层
- (2)序列到序列模块:该模块将 PLattice 机制应用到 Transformer 得到 PLatticeTransformer 模型,并且模型中每层编码器的输入来自前一层的输出,最终将编码器堆叠得到序列到序列模块。其中参数的初始化使用Roberta模型进行知识迁移。并借鉴UniLM[36]遮盖思想,使用 Sequence-To-Sequence LM 遮盖矩阵,对模型进行训练和测试
- (3)生成推断模块:该模块将嵌入模块的 Token Embedding 向量送入模型映射模块的 ECopy 机制中,来提高生成问题与原句的相关度。同时使用 Beam Search 进行生成推断,来提高生成质量


5 面向中文的智能问题生成系统设计与实现
- 在智能问题生成系统中,总体框架分为四层:
i)数据层,主要存储模型的相关信息,以及系统日志文件和用户信息
ii)计算层,本章实现的系统主要基于本文提出的 GCSS核心句抽取模型和 CQGLM-PE 问题生成模型实现
iii)业务层,经过数据处理后,系统将使用核心句抽取模型或问题生成模型对数据进行进一步处理,并将结果展示到用户交互页面
iv)应用层,系统首先对用户给出的文本文件进行解析,去掉异常错误文本,提取其中连续纯文本。之后根据用户需求,进行分段或分句处理

- 系统用例图
- 面向中文的智能问题生成系统主要包括普通用户和管理者两个角色
- 系统管理员
- 用户权限管理
- 模型文件管理
- 系统维护
- 系统配置文件管理
- 使用用户
- 输入文本信息
- 查看文本信息
- 查看文本分段
- 查看模型给出的核心句
- 编辑核心句
- 编辑问题
- 查看模型给出的问题
- 更改个人信息

- 该系统帮助用户实现核心句抽取和问题生成两个功能。用户输入文本信息后,系统可以快速处理,给出文中的核心句,并生成相应的问题


6 总结与展望
6.1 工作总结

(1)提出核心句抽取模型
针对当前的抽取或生成方法,对一个段落文本只能生成一个核心句,缺乏对整段文本中关键知识的充分解析和总结,本文提出了 GCSS 核心句抽取模型。首先,在词嵌入层加入了 Sentence-Embedding 机制将段落文本中每个句子的长度和边界信息加入到词嵌入层;其次,对输入语料使用 Albert 进行特征向量的表示;最后使用由 CNN 作为基本结构的Seq2Seq 生成模型,对段落文本进行一次性分类标签生成。核心句抽取的相关实验,结果证明了段落文本上下文信息和核心句抽取精度的相关性。该模型使用生成式分类框架,一次性生成段落文本中每个句子分类标签的形式,为核心句抽取或摘要生成提供了新思路

(2)提出问题生成模型
针对中文语料集的词汇信息和词汇间的位置关系,本文提出了 CQGLM-PE 问题生成模型。首先,在词嵌入层使用 PLattice 机制,该机制将输入语料中的词汇检索出来拼接在输入语料末尾,同时将输入语料的相对位置信息经过处理送入模型注意力层;其次,在输出映射层使用 ECopy 的机制,该机制通过将编码后的词嵌入向量直接与模型最终的映射层相连接,使模型在映射输出时能够从输入获取相关信息;最后使用 Beam Search 进行生成推断,从而提高问题生成的质量

(3)搭建了智能问题生成系统
基于提出的核心句抽取模型以及问题生成模型,本文设计并实现了智能问题生系统。其主要功能是在中文垂直领域对段落文本进行核心句抽取,以及进行相应句子的问题生成。经过系统测试,本文设计实现的问题生成系统,能正确的执行各个既定功能,完成对段落文本的问题生成



image-20240921130002942

image-20240921132235761

240927

完成问题整理

  • 详见 --> 240927问题整理

完成前端界面的代码初步框架

  • 协助工具:v0

240928

  • Copyrights © 2024-2025 brocademaple
  • 访问人数: | 浏览次数:

      请我喝杯咖啡吧~

      支付宝
      微信