首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
第1章 大模型时代的开端
1.1 大模型的历史与发展
1.1.1 大模型的“涌现”
1.1.2 深度学习与大模型的起源
1.1.3 大模型的概念与特点
1.1.4 大模型开启了深度学习的新时代
1.2 为什么要使用大模型
1.2.1 大模型与普通模型的区别
1.2.2 为什么选择ChatGLM
1.2.3 大模型应用场合与发展趋势
第2章 PyTorch 2.0深度学习环境搭建
2.1 安装Python开发环境
2.1.1 Miniconda的下载与安装
2.1.2 PyCharm的下载与安装
2.1.3 softmax函数练习
2.2 安装PyTorch 2.0
2.2.1 NVIDIA 10/20/30/40系列显卡选择的GPU版本
2.2.2 PyTorch 2.0 GPU NVIDIA运行库的安装
2.2.3 Hello PyTorch
2.3 Hello ChatGLM3
2.3.1 ChatGLM3简介与安装
2.3.2 CPU版本的ChatGLM3推演
2.3.3 GPU(INT4或INT8量化)版本的ChatGLM3推演
2.3.4 GPU(half或float量化)版本的ChatGLM3推演
2.3.5 离线状态的ChatGLM3的使用
2.3.6 ChatGLM的高级使用
第3章 基于gradio的云上自托管ChatGLM3部署实战
3.1 gradio的基本使用详解
3.1.1 从gradio的Interface开始
3.1.2 gradio输入与输出组件
3.1.3 启动gradio的launch
3.1.4 gradio中多样化的输入和输出组件
3.1.5 gradio中常用的几个组件
3.1.6 使用gradio搭建视频上色服务
3.2 基于gradio的猫狗分类可视化训练与预测实战
3.2.1 运行环境与数据集的准备
3.2.2 模型的设计
3.2.3 PyTorch模型训练的基本流程
3.2.4 可视化训练流程
3.2.5 使用训练好的模型完成gradio可视化图像分类
3.3 基于网页端的ChatGLM3部署和使用
3.3.1 使用gradio搭建ChatGLM3网页客户端
3.3.2 使用ChatGLM3自带的网页客户端
3.4 基于私有云服务的ChatGLM3部署和使用
3.4.1 使用FastAPI完成ChatGLM3私有云交互端口的搭建(重要)
3.4.2 基于streamlit的ChatGLM3自带的网页客户端
第4章 使用ChatGLM3与LangChain实现知识图谱抽取和智能问答
4.1 当ChatGLM3遇见LangChain
4.1.1 LangChain的基本构成、组件与典型场景
4.1.2 确认统一地址的ChatGLM3部署方案
4.1.3 使用ChatGLM3构建LangChain的LLM终端
4.1.4 从一个简单的提示模板开始
4.1.5 ChatGLM3格式化提示词的构建与使用
4.2 ChatGLM3+ LangChain搭建专业问答机器人
4.2.1 使用LangChain的LLM终端完成文本问答
4.2.2 数据准备与基础算法分析
4.2.3 使用LangChain完成提示语Prompt工程
4.2.4 基于ChatGLM3的LLM终端完成专业问答
4.3 使用ChatGLM3的LLM终端搭建知识图谱抽取与智能问答
4.3.1 基于ChatGLM3的LLM终端完成知识图谱抽取
4.3.2 基于ChatGLM3的LLM终端完成智能问答
当前位置:
首页>>
技术小册>>
ChatGLM3大模型本地化部署、应用开发与微调(上)
小册名称:ChatGLM3大模型本地化部署、应用开发与微调(上)
### 1.1 大模型的历史与发展 在深入探讨ChatGLM3大模型的本地化部署、应用开发与微调之前,我们有必要先追溯大模型这一技术领域的起源、演进历程以及其对现代人工智能(AI)领域的深远影响。本节将带领读者穿越时间的长廊,从早期的基础研究到近年来的突破性进展,全面解析大模型的历史与发展。 #### 1.1.1 萌芽期:统计语言模型与神经网络初探 大模型的兴起并非一蹴而就,其根源可追溯至自然语言处理(NLP)领域的早期探索。20世纪80年代末至90年代初,随着统计语言模型的兴起,研究者们开始利用概率论和统计学方法来建模语言的生成过程。这一时期的代表工作如n-gram模型,通过计算词序列在语料库中出现的频率来预测下一个词,为后来的语言建模提供了重要的思路。 然而,统计语言模型在处理长距离依赖、语义理解等方面存在局限性。进入21世纪后,随着计算能力的提升和深度学习技术的突破,神经网络开始被广泛应用于语言建模中。2003年,Bengio等人提出的神经概率语言模型(NNLM)首次将神经网络应用于语言建模任务,开启了神经网络语言模型的新纪元。NNLM通过嵌入层将词汇映射到连续空间,利用多层前馈神经网络捕捉语言中的复杂特征,显著提升了语言建模的性能。 #### 1.1.2 发展期:循环神经网络与Transformer的崛起 随着深度学习技术的不断成熟,循环神经网络(RNN)及其变体长短时记忆网络(LSTM)、门控循环单元(GRU)等相继问世,为处理序列数据提供了强有力的工具。这些模型通过引入时间步的概念,能够捕捉序列中的时序依赖关系,在机器翻译、文本生成等任务中取得了显著成效。然而,RNN及其变体在处理长序列时仍面临梯度消失或梯度爆炸的问题,限制了其性能的提升。 2017年,Vaswani等人提出的Transformer模型彻底改变了这一局面。Transformer摒弃了传统的循环或卷积结构,转而采用自注意力(Self-Attention)机制来捕捉序列内部的依赖关系。这一创新不仅极大地提高了模型处理长距离依赖的能力,还使得模型能够并行计算,显著提升了训练速度和效率。Transformer的出现,为自然语言处理乃至整个深度学习领域带来了革命性的变化,也为后续大模型的兴起奠定了坚实的技术基础。 #### 1.1.3 爆发期:大模型的兴起与演变 进入21世纪20年代,随着计算资源的日益丰富和大数据时代的到来,研究者们开始尝试构建规模更大、能力更强的模型。这些模型通常拥有数十亿乃至数万亿个参数,能够学习到更加复杂、精细的语言特征和知识表示,从而在多个NLP任务上展现出惊人的性能。 2018年,OpenAI发布的GPT(Generative Pre-trained Transformer)模型标志着大模型时代的正式到来。GPT通过在大规模文本语料库上进行无监督预训练,学习到了丰富的语言知识和上下文理解能力,随后通过微调即可应用于各种下游任务,如文本生成、问答系统等。随后几年间,GPT系列模型不断迭代升级,参数规模从最初的1.17亿增长到GPT-3的1750亿,每一次升级都伴随着性能的显著提升和应用领域的拓展。 与此同时,谷歌、Facebook等科技巨头也纷纷推出自己的大模型,如BERT、T5、Megatron-LM等,这些模型在各自的设计理念和应用场景上各有特色,共同推动了NLP领域的技术进步。 #### 1.1.4 成熟期:大模型的本地化、应用开发与微调 随着大模型技术的日益成熟,其应用范围也逐渐从学术研究扩展到工业界和日常生活中。然而,直接部署和使用大规模预训练模型面临着诸多挑战,如计算资源要求高、模型泛化能力有限、隐私保护问题等。因此,大模型的本地化部署、应用开发与微调成为当前研究的热点。 本地化部署旨在将大模型适配到特定地区、语言或应用场景中,以提高模型的准确性和实用性。这通常包括数据集的本地化、模型架构的调整以及训练过程的优化等。例如,针对中文环境,可以构建基于中文语料库的预训练模型,并对其进行针对性的优化和微调,以提升在中文NLP任务上的表现。 应用开发则是将大模型的能力转化为实际产品和服务的关键步骤。这包括设计合理的API接口、开发用户友好的界面、集成到现有系统中等。通过应用开发,大模型可以应用于智能客服、文本创作、自动摘要、机器翻译等多个领域,为人们的生活和工作带来便利。 微调则是针对特定任务对预训练模型进行二次训练的过程。通过微调,模型能够更好地适应特定任务的需求,提高在该任务上的性能。微调策略包括选择合适的训练数据、调整学习率、优化损失函数等。通过微调,大模型能够在保持通用性的同时,展现出更强的专业性和实用性。 #### 结语 大模型的历史与发展是人工智能领域技术进步的一个缩影。从早期的统计语言模型到如今的Transformer及其变体,再到各种大规模预训练模型的兴起,每一步都凝聚着研究者的智慧和汗水。未来,随着技术的不断进步和应用场景的不断拓展,大模型将继续在人工智能领域发挥重要作用,为人类社会的进步贡献更多力量。而ChatGLM3大模型的本地化部署、应用开发与微调作为这一领域的前沿探索,无疑将为我们揭开更多关于AI的奥秘。
上一篇:
第1章 大模型时代的开端
下一篇:
1.1.1 大模型的“涌现”
该分类下的相关小册推荐:
玩转ChatGPT:秒变AI提问和追问高手(上)
ChatGPT原理与实战:大型语言模型(中)
一本书读懂AIGC提示词
企业AI之旅:深度解析AI如何赋能万千行业
深度学习之LSTM模型
人工智能技术基础(下)
AI时代项目经理:ChatGPT与项目经理(下)
AI 时代的软件工程
ChatGPT大模型:技术场景与商业应用(下)
AI时代程序员:ChatGPT与程序员(上)
巧用ChatGPT轻松玩转新媒体运营
ChatGPT大模型:技术场景与商业应用(上)