AIGC
生成式人工智能AIGC(Artificial Intelligence Generated Content)
AIGC(全称:Artificial Intelligence Generated Content,中文名:人工智慧生成内容),是继专业生产内容(PGC, Professional-generated Content)、用户生产内容(UGC, User-generated Content)之后的新型内容创作方式。
AIGC从20世纪50年代开始发展。其兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求。
与所有人工智能技术一样,AIGC的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的大模型。AIGC可以在对话、故事、图像、视频和音乐制作等方面,打造新的数字内容生成与交互形式。可以应用于媒体、电子商务、影视、金融、医疗等多个行业。
概述
对AIGC的界定,尚无统一规范的定义。中国产学研各界对于AIGC的理解是“即专业生成器(Professional Generated Content,PGC)和用户生成内容(User Generated Content,UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。在国际上对应的术语是“人工智能合成媒体(人工智慧Generated Media 或 Synthetie Media)”,其定义是“通过人工智能算法对数据库或媒体进行生产、操控和修改的统称”。综上所述,AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。
发展背景
AIGC的兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求。
技术进步
技术进步驱动AIGC可用性不断增强。在人工智能发展初期,虽然对AIGC进行了一些初步尝试,但受限各种因素,相关算法多基于预先定义的规则或者模版,还远远算不上是智能创作的程度。近年来,基于深度学习算法的AIGC技术快速迭代,彻底打破了原来模板化、公式化、小范围的局限,可以快速、灵活地生成不同模态的数据内容。
海量需求
海量需求牵引AIGC应用落地。随着数字经济与实体经济融合程度不断加深,以及Meta、微软字节跳动等平台型巨头的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提供。数字内容的生产取决于想象能力、制造能力和知识水平;传统内容生产手段受限于人类能力有限的制造能力,逐渐无法满足消费者对于数字内容的消费需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC在各行业中越来越多广泛的应用,市场潜力逐渐显现。
历史沿革
1950年,艾伦•图灵(Alan Turing)在其论文《计算机器与智能(Computing Machinery and Intelligence )》13中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。 某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。 2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智慧越来越多地被应用于内容创作,人工智能生成内容 (Arificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。
结合人工智能的演进历程,AIGC 的发展大致可以分为三个阶段即:早期萌芽阶段 (20 世纪 50 年代至 90 年代中期)、沉淀积累阶段(20 世纪 90 年代中期至 21 世纪 10 年代中期),以及快速发展阶段(21 世纪 10 年代中期至今 )
早期萌芽阶段
1950年-1990年,科技水平有限,AIGC仅限于小范围实验。1957 年,莱杰伦 希勒 (Lejaren Hiller) 和伦纳德·艾萨克森(LeonardIsaacson)通过将计算机程序中的控制变量换成音符完成了历史上第一支由计算机创作的音乐作品--弦乐四重奏《依利亚克组曲 (Illiac Suite )》。1966 年,约瑟夫 魏岑鲍姆 (JosephWeizenbaum)和肯尼斯 科尔比 (Kenneth Colby) 共同开发了世界第一款可人机对话的机器人“伊莉莎 ( Eliza)”,其通过关键字扫描和重组完成交互任务。80 年代中期,IBM 基于隐形马尔科夫链模型( Hidden Markov Model,HMM)创造了语音控制打字机“坦戈拉( Tangora )”,能够处理约 20000 个单词。80 年代末至 90 年代中由于高昂的系统成本无法带来可观的商业变现,各国政府纷纷减少了在人工智能领域的投入,AIGC 没有取得重大突破。
沉淀积累阶段
1990年-2010年,AIGC 从实验性向实用性逐渐转变。2006 年,深度学习算法取得重大突破,同时期图形处理器( Graphics Processing Unit,GPU)、张量处理器( Tensor Processing UnitTPU) 等算力设备性能不断提升,互联网使数据规模快速膨胀并为各类人工智慧算法提供了海量训练数据,使人工智能发展取得了显著的进步。但是 AIGC 依然受限于算法瓶颈,无法较好地完成创作任务应用仍然有限,效果有待提升。2007 年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1 The Road》。作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强拼写错误、辞藻空洞、缺乏逻辑等缺点明显。2012 年,微软公开展示了一个全自动同声传译系统,基于深层神经网络 ( Deep NeuralNetwork,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音
快速发展阶段
2010年-2023年,属于快速发展阶段。自2014 年起,随着以生成式对抗网络 ( Generative Adversarial Network,GAN)为代表的深度学习算法的提出和迭代更新,AIGC 迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2017 年,微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年,英伟达发布的 StyleGAN 模型可以自动生成图片,目前已升级到第四代模型 StyleGAN-XL,其生成的高分辨率图片人眼难以分辨真假。2019 年,DeepMind 发布了DVD-GAN 模型用以生成连续视频,在草地、广场等明确场景下表现突出。2021 年,OpenAI 推出了 DALL-E并于一年后推出了升级版本 DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。
美国时间2023年12月6日,包括META在内,谷歌、美国超威半导体公司(AMD)等多家科技巨头发布了生成式AI相关产品。
相关技术
技术原理
智能数字内容孪生
主要目标是建立现实世界到数字世界的映射。内容孪生主要分为内容的增强与转译。增强即对数字内容修复、去噪、细节增强等。转译即对数字内容转换如翻译等。该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。可应用于图像超分、语音转字幕、文字转语音等。
智能数字内容编辑
主要目的是建立数字世界与现实世界的双向交互。智能数字内容编辑通过对内容的理解以及属性控制,进而实现对内容的修改。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。可应用于视频场景剪辑、虚拟试衣、人声分离等。
智能数字内容生成
主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的AIGC产品具备类似甚至超越人的创作能力。智能数字内容生成通过从中学习抽象概念,并通过概念的组合生成全新的内容。如AI绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、和诗词创作中取得了不错表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。可应用于图像生成(AI绘画)、文本生成(AI写作、ChatBot)、视频生成、多模态生成等。
核心算法
早期的 AIGC 技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。人工智能算法的不断迭代是 AIGC 发展进步的源动力。深度学习算法在感知、认知、模仿、生成等方向的基础能力决定了 AIGC 技术所能创作的生产力。
不同于传统人工智能算法,深度学习中的损失函数和梯度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习功能。2013 年,深度变分自编码器的提出让AIGC技术能力有了极大的进步。对于给定的神经网络,深度变分自编码器要求网络的输出是对于输入内容的重建,通过重参数化等技巧,网络在重建过程中学习训练数据的统计分布。在测试阶段,变分自编码器通过在学习到的统计分布中进行采样,首次能比稳定的生成从未观测过的低分辨率图像。2014 年,一种新的博弈学习范式伴随着生成对抗网络被提出。生成对抗网络由一个生成器和一个判别器组成,判别器致力于不断寻找生成数据和真实数据间的不同,生成器根据判别器的反馈不断完善自身,以求生成真假难辨的内容。得益于双方博弈的学习策略,生成内容的真实性和清晰度都得到了极大的提升,生成对抗网络也被应用于很多内容生成的具体应用。
的结构升级是推动 AIGC 快速发展的另一主要因素。深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是越大规模神经网络往往意味着更大的训练难度,因此的结构设计显得尤为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网,到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学模型参数量从几万到数千亿跃,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了 AIGC 技术能力的质变,在新型网络结构的加持下,上述的生成对抗网络等算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。
模型结构
AIGC 技术已经从最初追求生成内容的真实性的基本要求,发展到满足生成内容多样性、可控性的进阶需求,并开始追求生成内容的组合性。大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力。
视觉大模型
以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一,这些视觉信息时刻记录着物理世界的状态,并在不断传播和二次创作的过程中,反映人的想法、观念和价值主张。赋以人工智能模型感知并理解这些海量的视觉数据的能力,是实现人工智能生成数字内容、数字孪生的基础;感知能力的提升,是实现生成视觉内容语义明确、内涵丰富、效果逼真的前提。
以视觉 Transformer (ViT,一种神经网络模型)为代表的新型神经网络,因其优异的性能、模型的易扩展性、计算的高并行性,成为视觉领域的基础网络架构,并且逐渐发展出来十亿甚至百亿参数规模的模型。无监督学习技术,包括对比式自监督学习(例如SimCLR 和 MoCo 系列技术)和生成式自监督学习(例如 MAE 技术),能够大幅降低训练模型所需的有标注数据的数量。经过无监督预训练的深度神经网络模型,仅需要在少量的有标注样本上经过微调学习,即可在多种场景,线上线下均取得优异的性能。近年来基于Transformer 衍生出来一系列网络结构,例如 Swin Transformer、ViTAE Transformer。通过将人类先验知识引入网络结构设计,使得这些模型具有了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,从而能更好地学习和编码海量数据中蕴含的知识。
这些新型的大模型架构,通过无监督预训练和微调学习的范式,在图像分类、目标检测、语义分割、姿态估计、图像编辑以及遥感图像解译等多个感知任务上取得了相比于过去精心设计的多种算法模型更加优异的性能和表现,有望成为基础视觉模型(FoundationVision Model),显著提升场景感知能力,助力 AIGC 领域的发展。
语言大模型
作为人类文明的重要记录方式,语言和文字记录了人类社会的历史变迁、科学技术和知识文化等。利用人工智能技术对海量语言、文本数据进行信息挖掘和内容理解是 AIGC 技术的关键一环。一方面,语言模型的训练和学习是进行文本生成的核心基础;另一方面,学习并理解人类语言将大幅丰富数字内容的生产能力,创新、丰富数字内容的生产方式。
对于传统自然语言处理技术的普遍问题,基于语言的大模型技术可以充分利用海量无标注文本进行预训练,从而赋予文本大模型在小数据集、零数据集场景下的理解和生成能力。基于大规模预训练的语言模型不仅能够在情感分析、语音识别、信息抽取、阅读理解等文本理解场景中表现出色,而且同样适用于图片描述生成、广告生成、书稿生成、对话生成等文本生成场景。
基于语言的超级深度学习技术的发展趋势主要体现在训练模型的数据量日益增大、数据种类也更加丰富,模型规模增大、参数量以指数倍增加。通过不断构建语义理解能力增强、逻辑知识可抽象学习、同时适用于多种任务的语言大模型,将会对 AIGC 场景中的各项认知应用产生极大价值。
多模态大模型
在日常生活中,视觉和语言是最常见且重要的两种模态,视觉大模型可以构建出人工智慧更加强大的环境感知能力,而语言大模型则可以学习到人类文明的抽象概念以及认知的能力。多模态大模型的出现,让融合性创新成为可能,丰富了 AIGC 技术可应用的广度。对于包含多个模态的信息,多模态大模型则致力于处理不同模态、不同来源、不同任务的数据和信息,从而满足 AIGC 场景下新的创作需求和应用场景。
多模态大模型拥有两种能力,一个是寻找到不同模态数据之间的对应关系,例如将一段文本和与之对应的图片联系起来;另一个是实现不同模态数据间的相互转化与生成,比如根据一张图片生成对应的语言描述。为了寻找到不同模态数据之间的对应关系,多模态大模型将不同模态的原始数据映射到统一或相似语义空间当中,从而实现不同模态的信号之间的相互理解与对齐,这一能力最常见的例子就是互联网中使用文字搜索与之相关图片的图文搜索引擎。
应用
应用价值
AIGC将有望成为数字内容创新发展的新引擎,为数字经济发展注入全新动能。
AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;能够同时创新内容生产的流程和范式,为更具想象力的内容。更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。
AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,打造经济发展新增长点,为千行百业发展提供新动能。
行业价值
媒体行业
采编环节
实现采访录音语音转写、智能新闻写作和智能视频剪辑。
传播
在传播环节,AIGC 应用主要集中于以AI合成主播为核心的新闻播报等领域。只需要输入所需要播发的文本内容,就会生成相应的AI合成主播播报的新闻视频,并确保视频中人物音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。
影视行业
前期创作阶段
AIGC可通过对海量剧本进行学习,并按照预定风格生成剧本,创作者可进行二次筛选与加工,激发创作灵感,缩短创作周期。
中期拍摄阶段
可通过人工智能合成虚拟场景,将无法实拍或成本过高的场景生成出来,提升视听体验。
后期制作阶段
可结合AIGC技术对视频画质进行增强,若视频中出现“劣迹艺人”等敏感人员可通过“人脸替换”“人声替换”对视频进行编辑。此外,还可利用AI技术自动对视频片段进行剪辑,缩短视频预告片、片段集锦的制作时间。
电商行业
AIGC生成3D模型可用于商品展示,提升线上购物体验。AIGC还可打造虚拟主播直播带货,构建虚拟商城构建,智能聊天机器人,为消费者提供全新的购物场景。
娱乐行业
借助于 AIGC 技术,通过趣味性图像或音视频生成、打造虚拟偶像、开发 C 端用户数字化身等方式,娱乐行业可以迅速扩展自身的辐射边界,以更加容易被消费者所接纳的方式,获得新的发展动能。
其他行业
教育领域, AIGC 赋予教育材料新活力。相对于阅读和讲座等传统方式, AIGC 为教育工作者提供了新的工具,使原本抽象、平面的课本具体化、立体化,以更加生动、更加令人信服的方式向学生传递知识。
金融领域, AIGC 助力实现降本增效。一方面可通过 AIGC 实现金融资讯、产品介绍视频内容的自动化生产,提升金融机构内容运营的效率;另一方面,可通过 AIGC 塑造视听双通道的虚拟数字人客服,让金融服务更有温度。
医疗领域, AIGC 赋能诊疗全过程。在辅助诊断方面, AIGC 可用于改善医学图像质量、录入电子病历等,完成对医生的智力、精力的解放,让医生资源专注到核心业务中,从而实现医生群体业务能力的提升。在康复治疗方面, AIGC 可以为失声者合成语言音频,为残疾者合成肢体投影,为心理疾病患者合成无攻击感的医护陪伴等,通过用人性化的方式来抚慰患者,从而舒缓其情绪,加速其康复。
工业领域, AIGC 提升产业效率和价值。AIGC 通过将工程设计中重复的、耗时的和低层次的任务自动化,可使原来需要耗费数千小时的工程设计缩短到分钟级。同时支持生成衍生设计,为工程师或设计师提供灵感。此外,还支持在设计中引入变化,实现动态模拟
风险与不足
风险
法律风险
传统绘画、摄影、文字等作品需要付费才能使用。作品的创作者享有著作权。AIGC 已能成熟进行内容作品创作,但从中华人民共和国著作权法角度看,AIGC 基本属于重组式创新,尚不具有真正的创造力。AIGC技术通过学习模仿,可以快速模拟作者生成图片、音视频文字,但AI生成的著作权、肖像权物权归属没有确定,全球没有相关法律。2022年有网友通过AIGC技术将喜欢的歌手孙燕姿的声音进行合成替换部分歌曲演唱者。一夜间“孙燕姿”录制歌曲近千首,歌手本人也表示一辈子都无法唱完这么多歌曲。但此行为也损害了其他歌手的版权,原歌手通过平台下载量和收人减少。
AIGC 作品既存在被他人侵权的风险,也存在侵犯他人权利的可能性。Al 要变得更加智能个必要的环节就是深度学习。这就需要一个庞大的人类作品数据库,让算法学会创作风格、内容题材等创作的要领。全球已发生多起著作人对AI公司进行起诉,控告AI抄袭原作者作品或创意,生成内容未付费对创作者造成侵权伤害。一些不法分子也将注意力转到这方面,通过AIGC换脸、电信诈骗或者生物识别等方式盗取用户资金。
个人隐私安全
AIGC在图片与视频生成过程中需要投入大量数据进行训练。AI公司获取数据具有绝对的技术优势,可以通过APP浏览数据、媒体数据、社交网络多个渠道获取客户信息,这些数据有客户隐私数据也有客户交易和浏览轨迹4。公司还会要求用户输入敏感数据或商业信息作为训练数据,信息是否得到有效保护、用户隐私安全是否得到有效保障还没有明确法律要求。上文提到Lensa和妙鸭相机,都需要客户上传大量个人照片。关于客户这些照片在训练后的处理,是否会被公司作为一种资产进行出售都有待观察。
道德风险
AI在处理具象工作方面具有强大的数据处理能力、极度专注度、多线程并发处理能力。未来很多知识类基础工作将由AI承担,如写作、图片视频拍摄、代码编写等。人类将更多负责创造性工作。但在AI替代部分传统工作中,人类可能在很多方面与AI会因文化认同、社会道德等意识形态方面的差异而产生矛盾。在教育领域很多大学明确禁止学生使用ChatGPT一方面由于其功能强大,可以短时间内生成论文,且难以被发现; 另一方面,也说明学校担心学生滥用技术会导致过度依赖ChatGPT,导致学生丧失独立思考和研究能力,考试有失公平。如果AI是基于非真实数据进行的训练,很可能生成内容带有一定偏见和非真实性。
不足
技术成熟度不足
AIGC的大模型在进行测试和调试过程中,出现很多答非所问答案重复、通识错误等现象。内容生成严重依赖训练数据,如果数据陈旧、偏差,机器无法判断很难达到我们所期望的效果; 且AIGC生成内容缺乏深度思考与个人观点,更多的是将一些知识点关联起来,对于部分内容用户会感觉机器在“一本正经地胡说八道”。
缺乏监管与控制
继2022年1月国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》后,2022年11月,国家互联网信息办公室再次会同工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》。该规定的第五章第二十三条,对“深度合成技术”内涵做了规定:“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。”我国与人工智能生成内容有关的规定,仅是以行政手段下发缺乏立法过程。AIGC具有强大的内容生产能力,但是监管和执法部门缺乏技术手段有效识别AIGC生成图片、合成声音和文字,执法过程缺乏工具。根据人工智能内容生产发展,建立“科学立法、严格执法、全面守法”的监督管理体系还有大量工作,各方面经验需要不断积累。
内容及企业管理
内容审核能力不足,AIGC企业通过建立内容审核机制的方式落实互联网内容治理主体责任,“机审+人审”已成为其基本审核方式。在机审方面,审核准确率受审核类型、内容违规变种繁杂、网络黑灰产对抗手段加剧等影响而导致误报率偏高。AIGC 技术复杂,在企业中的运用具有高动态性等特点,企业作为技术设计者和服务提供者不具备相应的技术管理能力。企业风险治理能力不足,AIGC 技术在发展初期,其风险具有未知性和复杂性等特点,很多企业对于对风险的预测、防范和应急处置能力不足,风险治理理念未落实到工程技术实践中。
AIGC商业模式
以AIGC为代表的人工智能技术对数字娱乐行业产生的“冲击力”较大,可以帮助企业“降成本、提效率”。人工智能技术对游戏行业的影响主要体现在游戏研发期、客户运营以及上下游产业链联动三个层面。它不仅带来企业的降本提效,还使游戏创新、商业模式都发生一些变化。
AIGC依托图像生产、视频生成、文本生成、语音生成的四大生成能力,为千行百业提供AI绘画、人像变化、虚拟偶像制作、AI作曲等10多个标准化应用产品。覆盖互联网多个行业的内容创作、内容编辑、内容运营场景等,能够有效助力企业实现业务创新。
未来发展
核心技术持续演进
从真实可控向多样组合发展
AIGC 的相关算法已经具备了真实复刻和创造某类既定内容的能力,同时相关模型对简单场景的内容生成也取得了较好成果,但面对多样性变化和复杂场景内容生成的挑战,AIGC 的算法能力仍需进一步提升。AIGC 技术的下一个发展方向是通过不同生成个体间的交互进行内容创作。通过对整体的、多模态的复杂场景创作, AIGC 有望实现更多数智内容,进而反哺核心及关联领域,促进共同发展。
从本地化集中式向大规模分布式发展
针对大规模分布式 AIGC 交互算法的研究是 AIGC 技术未来的发展方向之一。AIGC 离不开大规模分布式深度学习技术和多智能体强化学习技术。大规模分布式 AIGC 的发展,有助于高效利用 GPU 算力,将计算流程拆解到一系列算力平台和边缘计算设备上,通过多设备分布式计算的方式,加速内容制作流程,提高生成效率和质量。大规模多智能体网络在分布式计算的框架下通过个体间的合作和竞争可以完成单体无法完成的任务。通过对大规模分布式多智能体算法的研究,探索多智能体的拓展性、安全性、稳定性、迁移性等,是未来重点探索的方向之一。
关键能力显著增强
随着 AIGC 核心技术的不断发展,其内容孪生、内容编辑、内容创作三大基础能力将显著增强。随着渲染技术、仿真加速、 XR 套件及开发组件等技术的提升,基于内容孪生的数字孪生能力可以将现实世界更逼真地复制到虚拟世界,复刻出人物更丰满、物体更逼真、细节更丰富的虚拟镜像,并依托新一代传感器以及云边端协同作业,进行实时动态更新。同时,依托内容编辑的数字伴生能力也将进一步打通现实世界与虚拟世界的双向通道,基于内容创作的数字原生能力的潜能将得到真正释放。
产品类型逐渐丰富
随着人工智能相关技术的持续发展,数字人开发的自由度将大幅提高,不同个人、不同企业的数字人将更具辨识度和独立特征,开发成本将大幅降低以促进数字人的普世化发展。同时,具有自主内容生人工智慧的不断发展及推进,也将使 AIGC 模态不再仅仅局限于文本、音频、视觉三种基本形态。嗅觉、触觉、味觉、情感等多重信息感知和认知能力将以数字化的形式传输并指导人工智能进行内容创作。
场景应用趋于多元
AIGC 已经在多个领域得到广泛应用,未来应用场景会进一步多元化。例如在" AIGC +数据科学"领域,可以自动生成具有安全性、标签化、经过预处理的标准数据以满足越来越"饥饿"的人工智能模型。未来自主生成内容将会达到人类水平,经人工智能创作后无需人为优化即可投放市场。除应用场景的横向扩展外,场景与场景的融合交互也是未来的发展趋势之一。
生态建设日益完善
随着 AIGC 的不断成熟,以标准规范、技术研发、内容创作、行业应用、资产服务为核心的生态体系架构将日趋完善,无论是以 AIGC 赋能产业升级还是以 AIGC 自主释放价值都将在此框架下健康有序发展。标准规范为 AIGC 生态构建了从技术、内容、应用、服务、监管的全过程一体化标准体系,促进 AIGC 在合理合规合法的框架下良性发展。
目录
概述
概述
发展背景
技术进步
海量需求
历史沿革
早期萌芽阶段
沉淀积累阶段
快速发展阶段
相关技术
技术原理
智能数字内容孪生
智能数字内容编辑
智能数字内容生成
核心算法
模型结构
视觉大模型
语言大模型
多模态大模型
应用
应用价值
行业价值
媒体行业
采编环节
传播
影视行业
中期拍摄阶段
后期制作阶段
电商行业
娱乐行业
其他行业
风险与不足
风险
法律风险
个人隐私安全
道德风险
不足
技术成熟度不足
缺乏监管与控制
内容及企业管理
AIGC商业模式
未来发展
核心技术持续演进
从真实可控向多样组合发展
从本地化集中式向大规模分布式发展
关键能力显著增强
产品类型逐渐丰富
场景应用趋于多元
生态建设日益完善
参考资料