万字梳理中国 AIGC 产业峰会激辩大模型应用最全行业参考在此博鱼官方

博鱼新闻中心Boyu Official News

您所在的位置是：博鱼·(中国)官方网站 > 博鱼新闻中心 > 行业新闻

万字梳理中国 AIGC 产业峰会激辩大模型应用最全行业参考在此博鱼官方

2024-04-23 21:53:17

浏览次数：次

返回列表

　　有算力就有超越Sora的可能。 70%的代码问题，现在单纯靠基座模型解决不了。基于垂直场景的大模型应用创新，只有两年的窗口期。 ROI是衡量AIGC应用价值的第一标准。 AI给了每个人一次突破自己的机会。 ……

　　在中国 AIGC 产业峰会的现场，20 位大咖展开激辩。从软件应用、智能终端乃至具身智能等，AIGC 正在全面席卷，

　　来自 AIGC 底层基础设施、模型层、应用层的企业玩家，以及来自市场学术界的洞察者，畅谈大模型落地元年这个万亿市场的的机遇与挑战。

　　现场乌泱泱一片，500 人的会场可以说是座无虚席（其实站也要没有席了）。

　　线上也有数百万网友围观并积极讨论，以及数十家行业知名媒体参与了大会的直播跟报道，全网总曝光量超千万。

　　为了让更多读者更全面、系统地了解本次 AIGC 峰会的内容，深入感知这股时代浪潮的发展，量子位联合各大模型做了万字梳理，希望能为大家提供一份有价值的行业参考。

　　本次梳理主要围绕五个方面展开，分别是 AIGC 的模型层、应用层、基础设施层的参与者，以及行业洞察者的观点，最后是圆桌讨论的精彩观点。

　　分享了微软 Copilot 与 Azure AI 平台如何助力企业级应用的全球落地。

　　李冕认为，过去 12 个月 AI 经历了数次迭代，现在 AI 应用已进入到一个新的阶段。企业如何打造自己的应用？怎么实现 AI 带来的真正价值？可以从四个方面来考虑应用落地：

　　AI 模型层面，李冕展开介绍了 Azure 平台支持的三类模型，分别是 OpenAI 系列模型、第三方开源模型和企业自研模型（BYOM）。同时，也讲述了小模型（SLM）在特定场景下的应用前景。

　　对于开发工具，李冕提到 Azure 提供低代码、无代码的 Microsoft Copilot Studio 工作台以及针对深度定制的 Azure AI Studio，方便企业快速开发 AI 应用。

　　考虑到企业级应用需求，李冕还表示微软不仅在最上面的模型层为企业提供支持，还提供下面的调度层、硬件层、云数据中心等的一系列配套服务博鱼官方。

　　「客户的数据就是客户的数据，客户的数据不会被用来训练其它模型，所有客户数据均有企业级防护，受到全面的企业合规和安全控制的保护。」

　　昆仑万维方汉：天工 SkyMusic 音乐大模型将大大降低音乐创作的门槛和成本

　　分享了「天工多模态大模型的演进落地」。大会当天，昆仑万维发布了「天工 3.0」，这是中国音乐 AIGC 领域首个实现 SOTA 水平的模型。同时，他还宣布

　　「天工 3.0」基座大模型与「天工 SkyMusic」音乐大模型正式开启公测

　　「天工 3.0」拥有 4000 亿参数，超越了 3140 亿参数的 Grok-1，是全球最大的开源 MoE 大模型。

　　通过专项的 Agent 训练，目前大模型可以做到「能搜能写能读能聊能说能画能听能唱」，应对多种复杂的内容创作需求。例如，它可以准确识别「成都迪士尼」是个梗，并给出游玩攻略；可以自动总结文献，生成大纲、PPT 和脑图；还可以通过非代码方式生成智能体。

　　方汉特别介绍了「天工 SkyMusic」音乐大模型，得益于 2000 万首音乐的训练数据和独特的模型架构，「天工 SkyMusic」在人声识别度、音质等方面已经超越 Sora。「天工 SkyMusic」支持根据音源和歌手特点生成音乐，并支持多种方言合成，大大降低了音乐创作的门槛和成本

　　各行各业使用的歌曲都能通过 AI 生成，成本迅速从几万块钱降到几分钱。

　　最后，方汉分享了昆仑万维的愿景：「实现通用人工智能，让每个人更好地塑造和表达自我。」他认为，大模型的演进终将实现 AGI，而 AIGC 能力普及则有助于打破强势文化的垄断，实现文化平权。作为一家全球化互联网企业，昆仑万维希望用 AI 技术为全球用户赋能。

　　林俊旸表示，自开源以来，通义千问 Qwen（为了更方便英文发音，对「千问」的音译）系列模型受到了国内外开发者的广泛关注。

　　从去年 8 月开始，通义千问 Qwen 系列模型陆续开源上新。从 7B、14B 参数规模大小开始，直到开源了 72B 参数版本；最新动作，阿里通义千问家族还有一名「小成员」，是 14B 参数的 MoE 模型。而开发者社区的迫切需求，促使阿里快速开源了 32B 模型这个模型的表现与 72B 参数模型表现接近，并且在某些方面相比，比 MoE 模型还具有优势。

　　首先，通义千问的代码已经官方融入了抱抱脸的代码库，开发者可以更方便地使用通义千问的模型。

　　其次，通义千问在第三方框架支持方面有不少进展，包括 ollama 在内的平台，都能一键使用 Qwen 系列模型。

　　多语言、长序列、Post-training、Agent、多模态等能力相关问题，林俊旸也在现场做了分享。

　　多语言：通义千问模型本质上是多语言的，而非仅仅是中英双语的；并且，团队在多语言能力上进行了检测和优化。

　　长序列：Qwen 系列模型一直没有卷长文本，这件事并不好做，不仅要保证「长」，同时要保证效果；目前 32k 版本表现已经比较稳定；大海捞针等评估发现长序列可以在 Chatbot 上落地实用功能。

　　Post-training：通过 SAT 等在数据等方面，优化 post-training，让大模型的潜力爆发。

　　Agent：实现方式（之一）是做更多数据标注、研究 to use agent 相关。

　　多模态（Qwen-VL）：非常智能的模型应该融入对视觉、语音方面的理解，今年会重点关注视频模态的研究，思考如何打造一个 VL-Agent。

　　在演讲中表示，作为芯片厂商，高通正通过提供领先的产品和解决方案，推动 AIGC 相关产业的规模化扩展。

　　高通在去年 10 月发布的第三代骁龙 8 和骁龙 X Elite 两款产品中，已经将大语言模型完整搬到了端侧，赋能了众多 AI 手机和 AI PC。多模态趋势下，今年 2 月，高通也把多模态大模型完整地搬移到端侧。在发布的骁龙 X Elite 这款产品上，高通也演示了全球首个在 Windows PC 上运行的音频推理多模态大模型。

　　万卫星表示，不同领域的生成式 AI 用例具有多样化的要求，背后所需的 AI 模型也是千差万别，很难有一种处理器可以完美适用所有用例。

　　在这方面，高通推出了具有异构计算系统的高通 AI 引擎，包含多种处理器组件，可以充分满足生成式 AI 的多样性要求。其中重点讲了 NPU。基于用户需求和终端用例的多年演进，高通 NPU 不断升级。第三代骁龙 8 的 Hexagon NPU 还集成了专门为生成式 AI 打造的

　　万卫星还透露高通今年会重点支持多模态模型端侧化，以及支持更高参数量大语言模型在端侧的部署。

　　说完硬件设计，万卫星介绍了高通的重要 AI 软件产品，包括跨平台、跨终端的统一解决方案高通 AI 软件栈（Qualcomm AI Stack）。

　　你只需要在高通一个平台上完成模型的优化部署工作，可以非常方便的把这部分工作迁移到其它高通产品线。

　　此外，高通还在今年的 MWC 巴塞罗那发布了高通 AI Hub（Qualcomm AI Hub）。该产品面向第三方开发者和合作伙伴，可以帮助开发者更加充分的利用高通和骁龙底层芯片的硬件算力，开发出自己的创新 AI 应用。

　　最后他总结了高通在 AI 方面的优势，在于「无与伦比的硬件设计、顶尖的异构计算能力、可扩展的 AI 软件工具以及广泛的生态系统和模型支持」。

　　超 70% 的问题需要端到端代码生成能力解决，目前单纯靠基座模型还远远不能满足。

　　在中国 AIGC 产业峰会上，蚂蚁代码大模型 CodeFuse 负责人

　　这样说道，他还指出，当前代码大模型虽然在基座模型和应用产品上演进飞速，但要在企业中真正实现研发效率的大幅提升，仍面临诸多挑战。

　　从软件研发全生命周期来看，从最初的需求设计到编码开发、测试构建、发布运维、数据洞察等环节，写代码可能只占 1/5 甚至更少的工作量。

　　表示，蚂蚁集团希望打造一个「研发智能体」，通过智能 Agents 实现任务分发与衔接，将各环节连接起来，全面提升研发效能。

　　CodeFuse 刚发布时，就明确提出「要做全生命周期的代码大模型」。CodeFuse 目前已开源 13 个仓库，覆盖代码训练、测试、DevOps 运维、程序分析、评测等 8 大软件开发领域。表示，这是全方位的开源。

　　最后再来看整个领域，结合外部统计与蚂蚁实践，基座模型在实际运用过程中只能解决大约 30% 的问题，剩下 70% 的问题还需要端到端代码生成能力。除此之外，在 Agent 推理能力、需求需求拆解、跨模态交互等方面还需要持续演进。

　　还重点提到，垂直场景中，比如金融场景，生成代码的安全、可信、可靠的要求，这也是蚂蚁正在重点攻克的难题。

　　虽然挑战不少、道阻且长，但认为，蚂蚁将携手开源社区一起努力，在万物摩尔定律的牵引下，未来两三年可以一定程度解决这个问题。

　　「作为一家算法公司怎么挣钱和作为一家 AIGC 产业公司怎么赚钱，这是最后要回答的问题。最先要回答的问题是，大家用这个东西怎么赚钱？」，徐元春这样讲。

　　博主，她利用小冰虚拟人和大模型平台，创作出了自己的数字人，在短视频平台用数字人分身分享创作服装穿搭内容。仅用 40 多天，她的单条视频播放量就达到 200 万，日均为线个意向客户。而这，已经能让她的生意更好地发展起来。

　　，一开始是做软件开发、技术赋能、后台的支持，现在使用小冰的技术平台做转型，成为 AI 服务商，4 个月内为云南 300 家中小企业提供了 AI 赋能服务。

　　，他们将小冰的数字人与大模型技术深度整合到了自家各类硬件产品中，实现「开箱即用」，每一个有屏的硬件设备都可以变成一个全新的交互载体。

　　在徐元春看来，真正能把产业化应用做得越来越深，不在于庙堂之高，而是在江湖之远：

　　你发现真正市场在运行的主体、市场从业者对 AI 没有那么多复杂的想法，他们非常朴素。

　　他进一步补充道，小冰将大模型和数字人更加深入地植入到了企业的工作流和任务系统中，数字员工相当于有了集合企业知识和数据闭环的大脑，可以让业务流程和客户沟通更加顺畅。

　　最后徐元春讲述了商业的闭环。有「云+端」这样的软件+硬件产品的闭环，也有交互+内容这样的形式上的闭环。而今天通过真实的企业、个体案例，使用技术去获得更多竞争力、让自己的生意变得更好这其实是所有闭环里最重要的节点。

　　美图作为影像工具起家，经过 16 年的发展，现在主要聚焦在影像和设计产品，形成了图像、视频和设计三大 AI 产品品类。

　　吴欣鸿现场展示了一个仅用半天时间制作的 60 秒 AI 短片，运用了开拍、WHEE、Wink 等一系列 AI 工具，相比传统动画工作流，大幅降低了制作门槛，提升了效率。

　　吴欣鸿预计今年下半年，将会有很多的国产 Sora 扎堆上市，美图也是其中的一家。

　　我们认为越来越激烈的竞争有三个点非常关键：第一、创意超越现实；第二、工作流的整合；第三、垂直场景的能力。

　　展望未来，吴欣鸿认为，视频大模型的标配除了文生视频，还将涌现图生视频、视频生视频、音频生视频等更多生成方式，应用场景非常广阔。

　　今年，以 Sora 为代表的视频生成只是个开始。随着视频大模型对物理世界理解的加深，有望实现剧情设计、分镜、转场等更专业的能力，与视频制作工作流深度结合，后续可以生成 1-5 分钟视频。

　　作为一家办公软件公司，金山办公最近五年将「多屏、内容、云、协作、AI」作为战略重点，在 AIGC 浪潮下，最近两年尤其注重

　　姚冬表示，当前的 WPS 已经不再是一个文档的编辑器，而是包含企业数据协作、知识管理、通信以及各种跟算法相关的模型服务等多种功能于一体的办公平台。在最近 WPS 365 发布中，其包含的 WPS AI 企业版聚焦为客户打造企业大脑，主打三大类能力：

　　其中，AI Hub 是企业使用 AI 能力的基座，提供了一个兼容市面上各种大模型的统一接口和开发体系，让企业可以灵活选择和切换适合自己的模型。

　　员工每天都在写文档，这些其实是企业非常重要的只是。但过去一直有个问题，这类知识无法再利用，因为非结构化。

　　传统的关键词搜索很难准确命中文档中的知识，而基于大模型和多模态技术，WPS 365 实现了对企业内部各种格式文档的智能化阅读理解、搜索问答，并严格遵循文档权限管控。

　　Copilot Pro 则是通过 AI 驱动自然语言交互式办公。比如做数据分析，传统方式需要写脚本、设计公式、绘制图表等，门槛很高。在 Copilot Pro 中，用户只需用自然语言表达需求，让 AI 自动执行全流程。

　　姚冬强调，文档数据在人和人之间没有传播其实一个数据孤岛，而今天的办公不再只是简单写写文档分析数据，更重要的是人和人、人和 AI 之间的协作。

　　他带领的印象笔记，2018 年成立印象研究院，开启了对 AIGC 的探索，去年 3 月起，利用自研印象大模型驱动「印象 AI」产品和服务，落地赋能旗下全线软件和智能硬件产品。

　　唐毅的分享聚焦「知识管理」领域。在他看来，AIGC 的发展仍处于早期繁荣阶段，挑战和机遇并存。

　　他认为，相比算力、数据集和模型规模的快速扩大，模型算法的进展则相对缓慢，且算力的投入和收益不成比例。此外，目前而言，随着模型训练对人类公共领域数据的穷尽，越来越多合成数据的加入也会导致模型输出效果下降。

　　与此同时，在实践和竞争中发现，特定数据驱动的模型能力的增长在不断加强，模型的小型化和高效化趋势也日益突出。

　　谈及印象笔记的大模型及产品进化方向，唐毅表示将从复合 AI 系统（Compound AI System）角度出发，提升自研印象大模型的能力，同时发挥用户、数据、场景、载体、交互等方面优势，打造真正的 AI 超级应用。

　　在 AI 驱动下，印象笔记将帮助用户智能汇聚信息、高效阅读吸收、辅助灵感记录与创作、自动完成知识整理与提炼，成为用户真正的、智能的「第二大脑」。

　　，在中国 AIGC 产业峰会现场分享了关于人形机器人发展及其与 AGI 关系的深刻见解。

　　目前，人形机器人的双腿移动能力已经有了实质性突破，而操作能力仍然受限，是因为 AI 还不能完全根据多模态场景形成自己的行为，如何利用多模态大模型生成机器人自主的运动和控制，是产业界和学术界都在追赶和研究的部分。

　　在硬件和软件算法方面，尤其是大脑和小脑的协同上，人形机器人仍需取得更多突破。

　　张力畅想，未来的人形机器人可以实现平台化的应用，就像今天的 iPhone+APP 一样。机器人通过安装不同的应用程序，利用自身的运动控制能力，执行对应的各种任务，从而极大地扩展应用范围。

　　从本质来讲，机器人就是一个类似或者超越人运动能力、计算能力和感知能力的机电系统。技术方面，事先规划好的运动控制这种是相对传统的技术；而如果需要跟外界产生更多的交互，如环境认知感知、物体检测、接触反馈等，就需要新的技术。

　　在不断研发迭代产品的过程中，逐际动力形成了通过模仿学习、深度强化学习以及基于感知的运动控制等关键的新技术，推出了人形机器人、双足机器人，以及四轮足机器人。

　　无论 tob 还是 toc，具身智能在未来有非常大的应用场景。在技术边界不断扩大过程中，如何通过沿途下蛋，把相对成熟的技术和产品实现商业化；形成自主的移动能力和移动操作能力是关键；机器人与 AGI、AIGC 打通，加强场景的认知、理解，实现任务的分解，更好完成规划决策，这些都非常重要。

　　「六边」在快刀青衣这里指的是产品能力、输出能力、提效能力、创新能力、管理能力、设计能力。在他看来，AI 技术的发展让他个人的六边能力得到全面提升。

　　首先，快刀青衣认为，AI 创新的源泉可以从四个方面考虑：你自己也想用的产品、一个困扰你很久的痛点、你熟悉行业能预见到的巨大变化、你对它充满热情而又具有挑战性的事情：

　　以此为出发点，快刀青衣介绍了得到自主研发的 AI 陪练小程序「开始练练」，用来给员工进行 AI 实战陪练，收到 AI 的反馈。如此一来，练习后的员工再面对真人客户时就能轻松解答客户的问题。

　　接着他分享了开发这款小程序的初衷。一开始是想让自己公司的程序员用，后来程序员们都表示自己不是靠沟通干活的，是靠写代码。后来有一次发朋友圈，一个连锁美容院的老板发现这对他们一线美容师介绍产品特别管用

　　快刀青衣由此感慨，「最初那个起点可能跟你想象的不一样，过程中可能会有很多不一样的东西」。

　　此外，他还强调了企业专有知识库、专有数据的重要性，并表示自己在做这个 AI 项目时给团队设置了几个限制：团队不超过 3 人，缺的能力用 AI 补；不碰硬件，不训大模型；只做提升用户能力的培训场景。

　　认清自己能力，做自己更擅长的事情，不能因为 AI 能力强就觉得啥都能干。

　　输出能力提升方面，快刀青衣分享了自己从公众号年更「保证号不被冻结」到 365 天日日更的转变，以及每周都要做一场和 AI 有关的直播聊一下别人都在做什么。这一切都是这波 AI 浪潮给他带来的输出能力的提升。

　　最后，快刀青衣引用了乔丹的一句话：「我可以接受失败，但不能接受不去尝试。」

　　在演讲中表示，生成式 AI 将在 18 个月内颠覆所有产业，为全球带来高达 4.4 万亿美元的巨大市场商机。

　　对于企业如何抓住生成式 AI 机遇，王晓野总结了四大要点：选对场景、选对工具和合作伙伴、重视数据这一企业核心竞争力、关注人才培养与 AI 相关的监管与治理。

　　他指出生成式 AI 在跨语言沟通、商业决策以及洞察、智能服务和营销素材的生成、整体运营效率提升等六大场景大有可为。

　　王晓野指出，得益于模型能力和成本的优化，生成式 AI 正在从局限的文生图、营销、聊天机器人等初级应用，进化到更广泛的领域。比如在 Claude 等大模型支持下，语言翻译、情感陪伴、游戏内容审核等更多场景的落地正在悄然发生。他强调多模态交互将是大模型发展的重要趋势。

　　在助力企业应用生成式 AI 方面，亚马逊云科技提出了「三层原子能力」：底层基础设施加速层、利用基础模型构建生成式 AI 应用的工具比如 Amazon Bedrock、顶层开箱即用的生成式 AI 应用。

　　从电商到云计算，亚马逊一直在用技术和 AI 颠覆和创新原有产业。王晓野最后表示，下一个亚马逊正在构建并且持续投入的地方，就是生成式 AI 的三层原子能力，希望能与客户共赢生成式 AI 时代。

　　「中国 AI 应用正在变得越来越多，越来越多新的场景被打开，今年下半年或是明年上半年，我们将看到中国生成式 AI 市场的爆发。」

　　杨帆分析道，当前尺度定律仍在主导 AI 的技术迭代，AI 产业发展的核心问题在于「产业端的投入产出比不够好」。随着 AI 生产和应用成本的提高，用降低成本的方式

　　只有把这些通用能力，不管大规模的算力集群还是机器模型的 API，甚至未来围绕超大规模数据完整的体系，把它做标准化、基础设施化、服务化，才有可能在未来让整个 AI 产业创新门槛更低、性价比更高，更多人进来，在上面赚到钱。

　　关于商汤在这方面的投入，杨帆先是介绍了商汤在临港投建的智算中心的最新的进展：

　　截至去年底，包括临港在内已经建成七八个节点形成连接，还有很多新的节点在建。连接算力超过 12000P，领先单点算力接近 10000P。同时，商汤在芯片层面也与产业链展开了广泛合作，临港智算中心已有超 15% 的国产芯片算力。

　　夯实算力基础之外，杨帆还讲述了商汤推出的不同层级的软件产品和服务体系，其中提到了降低模型调用成本的全套解决方案。

　　他还分享了商汤自家大模型的发展，除了去年看到比较多的语言类的任务，现在更多在图像、视频、三维重建不同领域提供不同基础模型的方案。

　　他表示，用来闲聊的玩具并不能满足用户真正的需求，AI 必须转化为实实在在的生产力，而生产力则是由垂直领域来转化。

　　袁粒教授介绍了他们团队基于鹏城的云脑和自建算力，基于通用和行业数据开发的几款代表性产品：

　　：一款面向数据表格处理的多模态 AI 助手，可用文字直接操纵表格，进行数据可视化和营销策略分析等。这项成果已经在某奢侈品巨头落地应用。开发这块应用的博士生也创办了元空 AI。

　　：中文法律垂直领域应用，可为用户和律师提供信息分析、结构化抽取、生成法律文书等服务。该产品采用了检索增强技术，引入法律文本数据库参考，有效缓解了大模型的幻觉问题。

　　检索增强这一做法当时我们也是业内最早做出来的，只是我们没有把这个概念提出来，让大模型做大模型的事情，让检索做检索的事情。

　　最后袁粒教授介绍了他们同北大校友企业兔展智能联合发起的 Sora 复现开源计划 Open-Sora Plan，目标是实现一个视觉版 LLaMA。该项目分为三个技术部分：视频编解码器、Diffusion Transformer 和条件注入。

　　目前已经开源了第一版预训练模型和 CausalVideoVAE，在开源社区引起广泛关注，在 GitHub 上获得近万星。该框架最大特点是能够生成较长视频，得益于训练时压缩喂入的长视频片段。

　　接下来，该项目将分三个阶段实现更高的复现目标：第一阶段已开源；第二阶段争取开源支持 20 秒 720P 视频生成的模型；第三阶段希望借助产业界算力实现超越原版 Sota 的性能。

　　袁粒教授表示，开源推动了 AI 的繁荣，他们也希望通过开源回馈社区，让学术界和产业界都能共享技术成果。

　　硅谷 Fusion Fund 张璐：初创企业在现阶段都可走「鸡尾酒」模式

　　作为长期关注和布局 AI 领域的顶级投资人，硅谷 Fusion Fund 创始合伙人、斯坦福大学客座讲师

　　作为初创企业，找到对的工业界和对的应用场景，找到合适的切入点非常关键，数据是核心。怎样拿到高质量的数据？怎样让数据成为你的竞争优势点？

　　初创企业要想在 AI 浪潮中抓住先机，必须找准自身的创新切入点，充分利用大公司搭建的生态平台实现共同发展。

　　现阶段，初创企业基本上都可以做「鸡尾酒」模式，即调动最前沿大模型的 API，在上面配套使用开源模型，再自己做些修改进行模型调优。

　　「在这个优化过程中，很快会发现两个特点。」张璐说，第一个特点是数据的质量比数据的数量更重要；第二是不需要一个模型去解决所有的问题博鱼官方。

　　其中，应用层主要关注医疗、金融保险、机器人、太空等拥有海量高质量数据和广阔应用前景的领域；基础设施层则布局从芯片到云端的各个技术节点，旨在突破算力、能耗、隐私等 AI 发展的关键瓶颈。

　　张璐在演讲中谈到，随着开源社区的蓬勃发展，小模型、行业专属模型也将成为 AI 应用的重要趋势。

　　她强调，对于创业者而言，高质量数据的获取与应用比海量数据更为关键，定制化的小模型在特定场景下的效能甚至可以与通用大模型相媲美。

　　分享主题为《VDT：基于 Transformer 的通用扩散视频生成》。

　　VDT 是 Video Diffusion Transformer 的缩写。这是卢志武带队的项目，去年 5 月发布在 arXiv 上，并已被顶会 ICLR 接收。

　　它的创新之处是将 Transformer 应用于视频生成这远在 OpenAI 发布 Sora 之前，以及在模型中引入统一的时空掩码建模。

　　为什么要将视频生成从基于 Diffusion 模型转向基于 Transformer 模型？

　　卢志武表示，Transformer 模型具有捕捉长期或不规则时间依赖性的优势，这在视频领域尤为重要；而 Transformer 模型的参数量可以根据需要增加，这为提高模型性能提供了灵活性。

　　在演讲中，卢志武提到了 VDT 模型中关键的时空 Transformer block，并解释了其与现有模型如 Sora 的细微差别。他指出，由于算力限制，团队在设计时采取了空间和时间分开的处理方法，以提高效率。

　　那 VDT 与 Sora 这样的 SOTA 模型相比如何？卢志武分析，两者在时空 Attention 处理上有所不同，但这个差别并不是本质上的。

　　我们推测 Sora 强大的物理世界模拟能力，主要来自于统一的时空 token 化和 Attention 机制。

　　卢志武在最后表示，团队通过实验发现，VDT 模型效果只和消耗的算力有关，这与 OpenAI 的图像生成模型 DiT 的结论一致。

　　「你好，新应用！」峰会设置了一场圆桌论坛，讨论的主题非常务实：怎么落地？如何赚钱？

　　从 ChatGPT 问世到现在，一年半的时间里，AIGC 有一个非常明显的趋势，就是从建设基础层逐步向「用起来」去发展。今年也被很多人认为是 AIGC 应用元年，在这个时间节点上，有必要坐下来聊一聊与 AIGC 相关的接地气的话题。

　　展开：大模型应用用得怎么样了、AI 赚钱之道各有招、百模大战利大于弊。

　　高玉石表示，轻松问医 Dr.GPT 的升级给医患双方都带来很大便利。在医生端，临床研究的效率提升 2 倍；科普内容创作实现月产万篇规模；智能辅助诊疗的采纳率达 86%，诊断时间从十分钟缩短为 1-2 分钟。患者端的健康顾问覆盖 30 多万用户，活跃率 70%。

　　周健的澜码科技基于大语言模型打造企业级 AI Agent，服务于企业日常办公场景下的增强自动化和创新业务的开展，在保险、银行、政务等行业和领域已实现专家知识赋能基层员工和管理增效的典型应用。

　　徐栋从通义大模型的视角给了两个维度的观点，目前看到第一类是大模型塑造了产业的核心商业模式，比如游戏行业的 NPC、社交领域的角色扮演，以及像智能硬件端侧的应用；第二类是企业级市场，未必是对商业模式做了根本性重塑，但大模型突出体现在降本增效上，最典型的客服场景、知识库的问答等等，这些场景在企业内部提效帮助很大。

　　在 AIGC 商业化方面，徐栋表示目前 AIGC 应用尚未出现杀手级产品，未来可能出现基于订阅制的创新商业模式，可以拭目以待。

　　高玉石则表示他们主要通过为 C 端用户提供增值服务获利，如医疗健康类的保险、商城、科普付费等。对 B 端则主要是按需付费。

　　周健提到一种可能性是把 AI Agent/基于大语言模型的数字员工按月收费。将专家知识、模型、算力等全新生产要素整合为一套服务，面向金融等行业按使用量收费分成。

　　对于如何评判一款 AIGC 产品的价值，三位嘉宾一致认为要看其能否提升 ROI，包括降本增效、提高收入或改善用户体验等。但具体衡量方式要根据行业和场景特点而定。

　　针对去年百家争鸣的「百大模大战」是否有必要，高玉石认为从加速技术发展角度看是有价值的，但资源损耗问题需要注意。他预判最终可能在科技巨头及其投资的创企中展开洗牌。

　　周健提出，未来通用大模型可能只需要少数几家，但细分的垂直领域模型可能多达上百个，需要更多创业公司参与。

　　徐栋也认为，「百模大战」并非完全铺张浪费，它培养了人才队伍，积累了模型和数据方面的经验，我们也欢迎非同质化的模型的竞争，这些培养的人才、积累的经验也会帮助大模型落地到千行百业，对未来 AIGC 的商业化大有裨益。

　　公司地址：北京市朝阳区酒仙桥路4号751 D·Park正东集团院内 C8座105室极客公园博鱼官方

上一篇：博鱼sports向“新”而行白酒行业创新驱动融合发展

下一篇：共议出行行业变局一图带你速览精彩博鱼体育官网观点

博鱼·(中国)官方网站

首页

HOME

关于博鱼(中国)官方网站

About Us Boyu Official

博鱼新闻中心

Boyu Official News

产品展示

PRODUCT

留言板

Feedback

饮食常识

Manual

联系我们

CONRACT

博鱼新闻中心Boyu Official News

万字梳理中国 AIGC 产业峰会激辩大模型应用最全行业参考在此博鱼官方