腾讯发布混元大模型

2023-09-08 09:02:47来源：热度:

9月7日，在2023腾讯全球数字生态大会上，腾讯混元大模型正式亮相，并宣布通过腾讯云对外开放。

“以大模型生成技术为核心，人工智能正在成为下一轮数字化发展的关键动力。”腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示。OpenAI的GPT发布后，在全世界引起轰动，不少互联网企业急于推出类似的互联网产品，不过腾讯显得颇为沉得住气，今日才对外发布。

混元大模型

腾讯混元大模型训练数据截至今年7月，有超千亿参数，预训练语料超2万亿，关键是还有很多行业应用。腾讯混元大模型将作为腾讯云MaaS服务的底座，客户不仅可以直接通过API调用，也可以将腾讯混元作为基底模型，为不同产业场景构建专属应用。

汤道生指出，大模型需要基于产业场景，与企业数据融合，才能释放出最大的价值。他提到：“腾讯将立足于未来，立足于实效，让数字化工具在产业中用起来、用得好。”

未来，腾讯产业互联网将全面拥抱智能时代，通过三个“增强”，助力产业建构“智能引擎”：

　　以“智能增强”，构筑产业发展“新动能”；

　　以“数据增强”，夯实企业数字化基石；

　　以“连接增强”，激发场景创新。

智能增强，就是通过数据有超千亿参数，预训练语料超2万亿等方式，增强中文理解和创作能力，让模型智能化，再通过开源的方式，引入行业数据，成为行业可以使用的大模型。

数据增强，是通过增加硬件能力的方式，服务对速度和安全有需求的客户。

连接增强，是腾讯独特优势，因为腾讯有众多用户已经很习惯的国民应用，可以和外界应用组成套装，提高效率。

混元大模型内部应用测试阶段，腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档等多个腾讯内部业务和产品接入腾讯混元大模型测试。

腾讯的独特优势是，之前5年在研发上投入2300亿元，云业务上四处拓展，有服务实体经济各个行业的经验，不缺训练数据，可以快速搭建生态，让模型使用起来。

腾讯混元大模型是由腾讯全链路自研的通用大语言模型。腾讯集团副总裁蒋杰表示：“我们研发大模型的目标不是在评测上获得高分，而是将技术应用到实际场景中。腾讯将全面拥抱大模型。”

针对大模型容易“胡言乱语”的问题，腾讯优化了预训练算法及策略，让混元大模型的幻觉相比主流开源大模型降低了30%至50%；通过强化学习的方法，让模型学会识别陷阱问题；通过位置编码优化，提高了超长文的处理效果和性能；提出思维链的新策略，让大模型能够像人一样结合实际的应用场景进行推理和决策。

此外，腾讯还自研了机器学习框架Angel，使训练速度相比业界主流框架提升1 倍，推理速度比业界主流框架提升1.3倍。

目前，微信上已有混元助手小程序上线，用户可以申请使用。

模型热

国内已经推出的大模型有百度的“文心一言”、商汤“商量SenseChat”、百川智能等。据机构不完全统计，中国10亿以上参数规模的大模型已经发布了79个。推出大模型主要有互联网公司，包括阿里云、字节跳动、京东云、昆仑万维等，还有商汤、科大讯飞、云从科技等AI公司。

OpenAI推出GPT系列面世后，强烈刺激了国内在这方面的热情。美团联合创始人王慧文在2023年年初成立的光年之外，一度融资5000万美元。

国内正在上演“百模大战”，一众公司推出大模型后，一度引起资本市场热捧，股价猛涨。

不过大模型投资很大，需要购买英伟达A100GPU，这是ChatGPT生长的硬件基础。一些公开数据显示，在训练GPT系列模型的过程中，OpenAI所使用的英伟达GPU数量约2.5万个。

和国内一样，美国也有众多公司推出大模型，除了OpenAI的GPT系列模型，还有Google的Transformer模型、Amazon的Comprehend、IBM的Watson等。海外模型也在努力占领全球市场，比如安卓版ChatGPT已在美国、印度、孟加拉国和巴西提供下载。

目前，业界大模型在场景中的应用依然有限，主要集中在容错率高、任务简单的休闲场景。

来源：证券时报

责任编辑：众视数字

{{i.label}}