智谱清言
智谱AI研发的大语言模型
智谱清言是由北京智谱华章科技有限公司推出的首款生成式AI助手,正式于2023年8月31日上线。该助手基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务​​。智谱清言能在工作、学习和日常生活中为用户解答各类问题并完成多种任务。它已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等丰富能力,并计划未来开放多模态等生成能力。截至2023年8月,智谱清言已在各大应用商店上线,包括苹果公司商店App Store和Android主流商店。
智谱清言的发展历史始于2021年,以ChatGLM系列模型的迭代为起点。起初,该系列基于GLM-130B模型,一个致力于提高中英双语对话处理精确性和效率的模型。随着ChatGLM系列的发展,尤其是ChatGLM2系列的推出与优化,使得智谱清言的技术基础得到加强。2023年8月31日,智谱清言正式发布,作为基于ChatGLM2模型的AI助手,其结合了预训练及有监督微调技术,提供包括问答、创意写作、代码生成等多项智能服务。此外,2023年10月中国计算机大会(CNCC)上推出的ChatGLM3为智谱清言带来了进一步的技术增强,扩大了应用范围并提高了性能。ChatGLM3的多模态理解、代码生成执行及网络搜索增强功能,使智谱清言在处理多样化任务和场景时更为高效。
智谱清言,作为一款植根于ChatGLM2模型核心技术的AI助手,其在多个标准任务,如MMLU、C-Eval和GSM8K上,以其较为先进的性能、不错上下文处理能力、以及较快的推理速度,赢得了广泛关注。特别是ChatGLM3引入的AgentTuning技术之后,为智谱清言提供了更深入的智能规划和执行能力,使其在多轮对话和内容创作等领域取得显著进步。这主要体现在下载量和github星标数量的快速增长上。此外,得益于其实际应用潜力和适应性的验证,多家企业和机构,包括联想、中国民航信息网络公司以及清华大学等,已经采纳或与之建立了合作关系。
发展历程
智谱清言的技术发展历程是一个不断迭代和创新的过程。主要过程可以总结为从GLM-130B的初步探索到ChatGLM系列模型的连续迭代,到后来基于ChatGLM2和ChatGLM3开发的智谱清言。因此,智谱清言的发展源自于智谱AI每个阶段大模型的技术进步。
GLM-130B发布:技术突破
GLM-130B模型的开发始于2021年12月,在清华大学知识工程实验室的一次内部头脑风暴会议上提出。当时的目标是开发一个高精度的双语(中文/英文)模型,并将其开源。项目初期面临计算资源的缺乏,但在2022年1月,智谱AI提供了必要的计算资源支持。随后,项目团队在技术开发上遇到了诸多挑战,包括频繁的硬件故障、模型梯度爆炸、算法中的过多内存使用等问题。在清华PACMAN团队的协助下,这些问题逐一得到解决,最终成功完成了GLM-130B模型的训练。
ChatGLM亮相:对话模型新纪元
ChatGLM于2023年3月14日首次发布,是智谱AI基于GLM-130B模型的进一步创新。作为一款中英双语对话模型,ChatGLM专注于提升对话处理能力。智谱AI开源了GLM系列模型的新成员——ChatGLM-6B,支持在单张消费级显卡上进行推理使用,这是继GLM-130B千亿基座模型开源之后的又一项重要研究成果。ChatGLM-6B是一个开源的中英双语问答对话语言模型,针对中文进行了优化。该模型基于General Language Model (GLM)架构,具有62亿参数。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,ChatGLM-6B尽管规模不及千亿模型,但大大降低了推理成本,提升了效率,并且能生成符合人类偏好的回答。
ChatGLM2推出:技术的进一步演进
ChatGLM2-6B于2023年6月25日推出,其为智谱AI与清华大学KEG实验室在对话AI领域的合作成果。作为ChatGLM-6B的后续版本,ChatGLM2-6B在继承前代模型特性的基础上,进行了一系列的技术更新和优化。这些包括对模型性能的提升、上下文处理能力的扩展,以及推理速度的优化。此外,智谱AI和合作伙伴为推动AI技术的发展,将ChatGLM2-6B模型的权重完全开放,供学术研究和商业用途使用。
智谱清言上线:全新生成式AI助手
智谱清言的发展历程标志着智谱AI在生成式AI助手领域的重大进展。该产品于2023年8月31日正式上线,基于智谱AI自研的中英双语对话模型ChatGLM2。智谱清言通过预训练和有监督微调技术,成为了一个能够在多种场景中提供支持的智能助手。为用户提供了一个多功能的、能在日常生活、学习和工作中提供帮助的AI助手。
ChatGLM3发布:基于ChatGLM2的模型再升级
在2023中国计算机大会(CNCC)上,智谱AI推出的ChatGLM3为智谱清言提供了强大的技术支撑,极大地拓宽了其应用范围和性能。ChatGLM3的多模态理解能力、代码生成和执行功能,以及网络搜索增强,使得智谱清言在处理复杂任务和多元场景中表现出更高效的能力。特别是,ChatGLM3的AgentTuning技术赋予了智谱清言更加深入的智能规划和执行能力,从而在多轮对话和内容创作等方面实现了质的飞跃。此外,智谱清言借助ChatGLM3的新技术,不仅提高了对话的流畅度和准确性,还在诸如图像处理、数学计算等多样化应用中展现了出色的性能,较大程度的提升了用户体验。
原理基础
智谱清言作为智谱AI的先进AI语言处理工具,其背后的技术动力源自于ChatGLM3等大模型的加持。ChatGLM系列大模型,不仅在自然语言处理领域取得了显著的进展,还在多模态理解和代码生成等方面展现了突出的能力。这种能力的背后,离不开一种核心技术的支撑——Transformer模型。Transformer模型的独特架构和自注意力机制为ChatGLM2的高级功能提供了理论基础和技术框架。
Transformer模型
Transformer模型是自然语言处理领域的核心技术,首次出现于2017年的论文《Attention Is All You Need》。它采用自注意力机制,允许模型同时关注文本序列的所有部分,而不是逐个单元处理。这种方法优于传统的循环神经网络(RNN)和长短时记忆网络(LSTM),特别是在处理长文本和捕捉长距离依赖方面。变压器的并行处理能力提高了效率,解决了梯度消失问题,其编码器-解码器结构使其适用于多种复杂的语言处理任务,如机器翻译和问答系统。
ChatGLM2与Transformer的关系
在ChatGLM2的开发过程中,Transformer模型的基础架构被有效应用并进行了关键性的扩展,旨在适应复杂的多模态任务和代码生成需求。这一发展过程中,ChatGLM2不仅维持了Transformer的核心优点,例如高效的并行处理和强大的上下文理解能力,同时也对模型的结构和训练方法做了适当的创新与调整。这些改进和技术融合使得ChatGLM3在语言处理和多模态内容理解方面展现出优异性能,为智谱清言等应用提供了可靠的技术支撑。
功能与服务
通用问答
智谱清言在文本生成与创意写作方面具有较强能力。其利用基于深度学习的大规模预训练模型。智谱清言能够生成多样化的内容,包括广告文案、故事、博客文章等,同时适应用户的特定要求和风格偏好​​​​。它的深度学习驱动的创意过程使其能够理解和模仿不同的写作风格,并进行主题研究和情感分析,从而提高内容的相关性和吸引力。此外,智谱清言还提供协作增强和创意辅助功能,帮助用户进行创意决策和内容优化,预测内容的市场反响,并在多个行业中广泛应用,尤其适用于需要快速产生高质量内容的场合。
多轮对话能力与知识检索问答系统
智谱清言的多轮对话能力在2023年6月经历了重大升级。智谱AI将其千亿模型ChatGLM升级到第二代,这次升级显著提高了性能表现。其中的一项关键改进是对上下文理解长度的扩展,现在可以处理长达32K字符的对话上下文,并且在推理速度上也取得了显著的提升。这一升级使得智谱清言在多轮对话中表现出更加强大的性能,不仅能够理解和回应长文本对话,还具备广泛的知识储备,涵盖了科学、技术、历史、文化、艺术、商业等多个领域的信息。
代码生成与编程辅助
智谱清言的代码生成与编程辅助功能是其重要特性之一。它能够理解用户需求的智能助手,并能够在多方面为用户提供有用的帮助,包括但不限于工作、学习、日常生活以及编程辅助。具体来说,智谱清言的代码生成能力允许它支持100余种编程语言,能够更快更精确地生成代码。这一功能对程序员来说是极大的便利,可以有效提高编程效率和准确性。
多模态交互
智谱清言在多模态交互方面的显著进步和创新得益于其背后的最新技术,特别是智谱AI开发的第三代基座大模型ChatGLM3。它实现了多项新功能,包括多模态理解能力的CogVLM(看图识语义)。此外,其代码增强模块Code Interpreter能够根据用户需求生成并执行代码,自动完成数据分析、文件处理等复杂任务。网络搜索增强功能WebGLM则使得智谱清言能够在互联网上查找最新信息,并在回答时提供相关资料链接​​。同时支持包括工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等多种复杂场景​​。使得智谱清言成为了国内首个具备代码交互能力的大模型产品,支持图像处理、数学计算、数据分析等多种应用场景​​。
技术演进
智谱清言使用的核心模型ChatGLM2是基于General Language Model (GLM)架构的中英双语对话语言模型,具有62亿参数。这个模型的训练涉及到了一系列较为先进的技术和策略,旨在提高其在中英文处理上的性能和对话生成的自然性。同时,智谱清言使用的核心模型ChatGLM2是基于ChatGLM-6B的进化版本,而ChatGLM-6B本身又是基于GLM-130B模型的发展。
GLM-130B:基础框架
GLM-130B采用多种训练技术,包括大规模语料库预训练、分布式训练、混合精度训练和优化器选择,以提高训练效率和性能。该模型基于Transformer架构,具备双语处理能力,可处理多种任务。其独特的技术特点包括丰富的语言知识积累、双语编码、高效的训练和推理性能,以及灵活的适应性。
ChatGLM-6B:针对对话的优化
ChatGLM-6B是一个基于GLM-130B的大型语言模型,旨在提升文本生成和对话质量。该模型结合了多种训练技术,如监督微调、反馈自助和人类反馈强化学习,使其能更好地理解和响应用户需求,尤其在对话和问答方面。在架构上,ChatGLM-6B采用了高效的Transformer架构,优化了并行处理和长距离依赖关系的捕捉,使其适合处理复杂的语言理解和生成任务。此外,它在性能和多功能性方面表现卓越:在文本生成速度与GPT-3相当,GPU内存效率更高,能在小型GPU上部署。ChatGLM-6B通过大规模文本和代码训练,可以执行语言翻译、创意内容生成等多种任务,并在glue基准测试中展示了先进性能。为提高部署效率,模型还进行了INT8和INT4量化,减少了对计算资源的需求,使其成为一个多功能、高效且易于部署的大型语言模型。
ChatGLM2:性能和效率的进一步提升
ChatGLM2-6B是基于ChatGLM-6B的进化版,继承了GLM-130B的核心架构。它是专门为对话系统设计的中英双语对话语言模型,拥有62亿参数,使得ChatGLM2-6B在处理复杂的语言模式和对话结构方面具有显著的能力。
训练技术
ChatGLM2模型采用了GLM的混合目标函数进行预训练,这种方法结合了自回归和自编码的优点,有助于模型更好地理解和生成自然语言。此外,模型经过了1.4T中英双语标识符的预训练,这种大规模的双语数据训练使得模型在中英文处理上都表现出色。为了进一步优化模型的对话生成能力,ChatGLM2还采用了人类反馈强化学习,使其生成的对话更符合人类的偏好和期望。
模型架构
ChatGLM2-6B是基于ChatGLM-6B的进化版,继承了GLM-130B的核心架构。它是专门为对话系统设计的中英双语对话语言模型。其拥有62亿参数,使得ChatGLM2-6B在处理复杂的语言模式和对话结构方面具有强大的能力。
技术特点
ChatGLM2-6B基于GLM的混合目标函数和1.4T中英标识符的预训练,模型性能在多个基准测试上有了明显提升。为确保长对话的连贯性,ChatGLM2-6B利用FlashAttention技术,将上下文处理能力从2K扩展至32K。此外,通过引入Multi-Query Attention技术,其推理效率提高了42%,且在INT4量化的加持下,该模型在6G显存下支持的对话长度从1K增至8K。相比于初代模型,ChatGLM2-6B在多个基准测试上的性能较为明显,在MMLU、CEval、GSM8K、BBH等数据集上,性能提升分别为+23%、+33%、+571%、+60%。
ChatGLM3: 基于ChatGLM2的再升级
ChatGLM3是智谱AI推出的第三代基座大模型,其瞄向GPT-4V,实现了若干全新功能的迭代升级。该模型融合了独创的多阶段增强预训练方法,结合了更为丰富和多元的训练数据,以及更优化的训练方案。这些集成的技术使得ChatGLM3在基础架构上更为先进和强大。
训练技术
通过深度优化,ChatGLM3的训练采用了多阶段增强的方法,确保了训练的充分性和深入性。在44个中英文公开数据集的评测中,该模型在各项性能指标上的显著提升。相较于ChatGLM二代模型,MMLU提升36%、CEval提升33%、GSM8K提升179%、BBH提升126%
模型架构
在原有架构的基础上,ChatGLM3实现了技术上的多项升级。这些升级包括但不限于多模态理解能力、代码增强模块和网络搜索增强功能。这些新加入的技术功能不仅增强了模型的语义理解能力,也提升了其逻辑处理能力,使得ChatGLM3在多样化的应用场景中比上一代模型展现出更高的效能。
技术特点
ChatGLM3的技术特色主要体现在三大方面:其具备的多模态理解能力CogVLM,可以实现对图像等多元信息的深度解读,不仅可以回答各种类型的视觉问题,还能完成复杂的目标检测并打上标签,或者自动数据标注;借助代码增强模块Code Interpreter,ChatGLM3拥有了代码生成和执行的能力,这一功能可自动根据用户需求生成代码并执行,可用于完成数据分析、文件处理等复杂任务;最后,网络搜索增强WebGLM能够让模型能够充分利用网络资源,从而提供更准确、更贴切的回答。这些功能的整合提升了ChatGLM3的语义和逻辑处理和处理多元复杂任务的能力。ChatGLM3 集成了智谱AI自主研发的 AgentTuning 技术,激活了模型的智能体功能,特别是在智能规划和执行方面,相较于 ChatGLM2 提升了 1000%。此外,它还支持国产大模型的原生功能,如工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景的操作。
市场表现和用户反馈
智谱清言是一款基于大规模语料库训练的语言模型,旨在为用户提供高效、智能的语言服务。在市场上,智谱清言展现出一定的优势和竞争力。首先,智谱清言在情感分析方面表现良好,能够准确捕捉和反馈用户的情感。其次,智谱清言具备正确的代码执行能力,能够按照用户的要求准确执行编写的代码。然而,智谱清言也存在一些局限性。在信息搜索方面,智谱清言获取实时数据的能力有待提升,这可能会影响其为用户提供最新信息的能力。此外,在法律等专业领域,智谱清言在处理专业信息时存在失实问题,需要进一步改进和优化。智谱清言在苹果应用商店中获得的用户评价较为正面,其评分达到4.8分。用户主要评论集中在称赞其在界面、反应速度和逻辑清晰度等方面,或者称赞其在工作、学习和健康生活等领域能够提供有效帮助。虽然英语语法和图像生成有待提高,但它在理工科解题和编程方面表现出色。用户还提到,它在文案任务完成度高,能提升工作效率。此外,其在营销工作中的灵感提供也受到好评。
相关合作
参考资料
智谱AI.智谱AI.2023-11-29
GLM-130B:开源的双语预训练模型.知识工程研究室.2023-12-15
ChatGLM-6B.GitHub.2023-12-15
ChatGLM2-6B.GitHub.2023-12-15
..2023-12-15
..2023-12-15
GLM.GitHub.2023-12-15
..2023-12-15
目录
概述
发展历程
GLM-130B发布:技术突破
ChatGLM亮相:对话模型新纪元
ChatGLM2推出:技术的进一步演进
智谱清言上线:全新生成式AI助手
ChatGLM3发布:基于ChatGLM2的模型再升级
原理基础
Transformer模型
ChatGLM2与Transformer的关系
功能与服务
通用问答
多轮对话能力与知识检索问答系统
代码生成与编程辅助
多模态交互
技术演进
GLM-130B:基础框架
ChatGLM-6B:针对对话的优化
ChatGLM2:性能和效率的进一步提升
ChatGLM3: 基于ChatGLM2的再升级
市场表现和用户反馈
相关合作
参考资料