新闻动态

体育游戏app平台同期高下文长度是 GPT-4o-mini 的八倍-开云(中国)kaiyun体育网址登录入口

体育游戏app平台同期高下文长度是 GPT-4o-mini 的八倍-开云(中国)kaiyun体育网址登录入口

谈到大模子的"国货之光"体育游戏app平台,除了 DeepSeek 除外,阿里云 Qwen 这边也有新动作——

初度将开源 Qwen 模子的高下文延伸到1M 长度。

具体而言,此次的新模子有两个"杯型":

Qwen2.5-7B-Instruct-1M

Qwen2.5-14B-Instruct-1M

它们在处理长文本任务中都照旧竣事默契超越 GPT-4o-mini,况兼在处理百万级别长文本输入时可竣事近7 倍的提速!

(百万 Tokens 长文本,如果换算来看的话,不错是 10 本长篇演义、150 小时演讲稿或 3 万行代码。)

当今,Qwen 新模子关系的推理框架和技艺呈文等骨子均照旧发布。

接下来,咱们就来继续深化了解一下。

模子性能

率先,让咱们来望望 Qwen2.5-1M 系列模子在长高下文任务和随笔本任务中的性能发扬。

在高下文长度高达 100 万 Tokens 的 "大海捞针" 式任务 —— Passkey Retrieval(密钥检索)中,Qwen2.5-1M 系列模子展现出超卓性能,大要精确地从长度为 1M 的文档里检索出避讳信息。

值得一提的是,在总计这个词系列模子中,仅 7B 模子出现了为数未几的演叨。

关于更复杂的长高下文理罢黜务,盘考团队选拔了 RULER、LV-Eval 和 LongbenchChat 等测试集。

空洞这些效果来看,不错得到的关键论断如下:

一方面,Qwen2.5-1M 系列模子比拟之前的 128K 版块有显赫高出。

在多数长高下文任务场景中,它发扬更为出色,至极是玩忽越过 64K 长度的任务时,大要更灵验地处理信息,展现出相较于 128K 版块更强的符合性与处理才智。

另一方面,Qwen2.5-14B-Instruct-1M 模子具备一定上风。

在与 Qwen2.5-Turbo 以及 GPT-4o-mini 的对比中,该模子在多个数据集上的测评收货更为杰出。

这意味着,在现存的长高下文模子可选边界内,它手脚开源模子,大要为使用者提供一种性能相对可靠、可替代其他居品的选拔,不外不同模子都有各自的特色与适用场景,仍需依据具体需求进行判断。

除了长序列任务的性能外,咱们相似形势这些模子在短序列上的发扬。

团队在庸碌使用的学术基准测试中比较了 Qwen2.5-1M 系列模子及之前的 128K 版块,并加入了 GPT-4o-mini 进行对比。

由此不错发现:

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在随笔本任务上的发扬与其 128K 版块十分,确保了基本才智莫得因为增多了长序列处理才智而受到影响。

与 GPT-4o-mini 比拟,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在随笔本任务上竣事了临近的性能,同期高下文长度是 GPT-4o-mini 的八倍。

怎样真金不怕火成的?

在先容完性能之后,咱们来看下 Qwen 新模子背后的关键技艺。

主要不错分为三大圭臬,它们分手是长高下文检修、长度外推和寥落难得力机制。

长序列的检修需要广宽的野心资源,因此团队领受了冉冉延伸长度的法子,在多个阶段将 Qwen2.5-1M 的高下文长度从 4K 延伸到 256K:

团队从预检修的 Qwen2.5 的一个中间查验点启动,此时高下文长度为 4K。

在预检修阶段,团队冉冉将高下文长度从 4K 增多到 256K,同期使用 Adjusted Base Frequency 的决策,将 RoPE 基础频率从 10,000 提高到 10,000,000。

在监督微调阶段,团队分两个阶段进行以保握短序列上的性能:* 第一阶段:仅在短辅导(最多 32K 长度)上进行微调,这里咱们使用与 Qwen2.5 的 128K 版块疏通的数据和圭臬数,以获取近似的短任务性能。

第二阶段:夹杂短辅导(最多 32K)和长辅导(最多 256K)进行检修,以竣事在增强长任务的性能的同期,保握短任务上的准确率。

在强化学习阶段,团队在随笔本(最多 8K 长度)上检修模子。团队发现,即使在随笔本上进行检修,也能很好地将东说念主类偏好对皆性能泛化到长高下文任务中。

通过以上检修,最终获取了 256K 高下文长度的辅导微调模子。

在上述检修经由中,模子的高下文长度仅为 256K 个 Tokens。为了将其延伸到 1M ,团队领受了长度外推的技艺。

现时,基于旋转位置编码的大型谈话模子会在长高下文任务中产素性能下落,这主如果由于在野心难得力权重时,Query 和 Key 之间的相对位置距离过大,在检修经由中未始见过。

为了科罚这一问题,团队引入了 Dual Chunk Attention ( DCA ) ,该法子通过将过大的相对位置,从头映射为较小的值,从而科罚了这一贫苦。

效果标明,即使是仅在 32K 长度上检修的 Qwen2.5-7B-Instruct,在处理 1M 高下文的 Passkey Retrieval 任务中也能达到近乎竣工的准确率。

这充分展示了 DCA 在无需非凡检修的情况下,也可显赫延伸复古的高下文长度的广大才智。

终末,等于寥落难得力机制。

关于长高下文的谈话模子,推理速率对用户体验至关重要。为为此,团队引入了基于MInference的寥落难得力优化。

在此基础上,盘考东说念主员还提议了一系列窜改:包括分块预填充、集成长度外推决策、寥落性优化等。

通过这些窜改,团队的推理框架在不同模子大小和 GPU 缔造上,处理 1M 长度输入序列的预填充速率培植了 3.2 倍到 6.7 倍。

终末,该表情照旧提供了在线体验的地址,感有趣的小伙伴不错去尝鲜了 ~

HuggingFace 体验地址:

https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo

魔塔社区体验地址:

https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

技艺呈文:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

参考集会:

https://qwenlm.github.io/zh/blog/qwen2.5-1m/体育游戏app平台



Powered by 开云(中国)kaiyun体育网址登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024