推进大模型自我进化，北理工推出「流星雨方案」

liukang20244个月前 (04-28)最新吃瓜1054

AIxiv专栏是机器之心发布学术、技术内容的栏目。曩昔数年，机器之心AIxiv专栏接纳报导了2000多篇内容，掩盖全球各大高校与企业的尖端试验室，有用促进了学术交流与传达。假如您有优异的作业想要共享，欢迎投稿或许联络报导。投稿邮箱：[email protected]；[email protected]

本文将介绍来自北京理工大学核算机科学与技术学院的流星雨研讨方案。该方案旨在深入研讨大模型自我进化的理论与办法，推动大模型的开展。

在人类个别才能提高进程中，当其具有了根本的技术之后，会自主地与环境和本身频频交互，并从中获取经历予以改善。大模型自我进化研讨之所以重要，正是源于该思想，而且更倾向于探求大模型本身才能的深度发掘和扩展。依据这一趋势，北京理工大学 DIRECT LAB 正式启动了「大模型自我进化」的流星雨研讨方案。这篇文章以代码大模型和垂域大模型进化为例，逐渐介绍流星雨方案。

SRA-MCTS：推动代码大模型自我进化

论文标题：SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
论文地址：https://arxiv.org/pdf/2411.11053
代码开源：https://github.com/DIRECT-BIT/SRA-MCTS
8B 模型的数据开源：https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B

代码大模型运用规划广、影响大，怎么提高其体现，一向备受业界外重视。在一项最新的研讨中，来自北京理工大学的研讨者提出了一种全新的思路 ——SRA-MCTS，旨在经过自我进化的办法，处理代码模型在处理杂乱问题时短少中心推理进程。

中心观念：自我进化的力气

跟从上述自我进化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）办法中，作者无需凭借额定的任何监督信号、彻底经过模型本身来进行推理途径生成，并进一步迭代大模型的才能。经过这个进程，模型能够自主地生成高质量的推理途径，并将这些途径转化为可履行代码，从而提高在杂乱使命上的成功率。

整个进程不只增强了模型的推理才能，还经过自我反应和反思提高了处理杂乱使命的成功率。试验标明，即便在小规划模型中，SRA-MCTS 也能明显提高使命处理才能，特别是在多样性和处理杂乱问题的才能上。

突出贡献与明显成果：

无需外部监督：与传统办法不同，SRA-MCTS 彻底依靠模型本身的推理才能进行数据生成和练习，避免了对人工标示数据或额定监督信号的依靠。
自我进化与继续提高：经过重复生成推理途径并进行自我练习，模型构成了一个正向反应循环，完结了功能的继续提高，尤其在较小模型中也展现出强壮的潜力。
提高杂乱使命处理才能：文中的办法在多种规划的模型上均展现出了明显的功能提高，特别是在处理需求剖析的使命时，SRA-MCTS 明显提高了成功率。
验证了小模型自我组成的潜力：试验分别在小模型（2B, 8B, 14B）上自我数据组成并进行练习，比照了 70B 模型的数据蒸馏成果。成果标明，小模型自我组成的数据练习成果能够超越大模型数据蒸馏的才能。

作业思想与完结办法

该办法中心在于将推理进程和数据生成紧密结合，经过 SRA-MCTS 引导模型自主生成推理途径。这不只安稳了剖析的准确性下限，还为模型供给了一个无需外部监督的自我改善机制。试验成果标明，即便在传统的思想链（CoT）办法体现退化时，SRA-MCTS 仍然能够安稳并有用地提高模型的功能，尤其在「pass@10」等多样性目标上体现出色。

1. 数据组成 - SRA-MCTS：

挑选阶段：运用 UCB1 公式，从推理树中挑选最优节点，作为推理的起点。
扩展阶段：依据挑选的节点，生成新的推理进程，构成新的推理方案。
评价与反思阶段：评价每个生成的推理进程的质量，并经过反思机制批改推理进程，保证其正确性与连贯性。
反向传达阶段：经过反应机制调整生成进程，强化推理途径的质量。

下面的示例展现了中心推理进程，以及依据推理所生成的代码进程：

问题：请帮我写一段拓扑排序的代码。

考虑进程：拓扑排序是针对有向无环图（DAG）的一种排序算法，它将图中的节点依照某种顺序排列，使得关于每一条有向边 (u, v)，节点 u 在节点 v 之前呈现。常见的拓扑排序算法有两种：Kahn 算法和深度优先查找（DFS）算法。这儿作者挑选运用 Kahn 算法来完结，由于它更直观且简单了解。

Kahn 算法的根本思想是：

找出一切入度为 0 的节点，将它们参加行列。从行列中取出一个节点，将其参加拓扑排序成果中。关于该节点的一切邻接节点，削减其入度。假如某个邻接节点的入度变为 0，则将其参加行列。重复进程 2 和 3，直到行列为空。假如终究拓扑排序的成果中包括一切节点，则阐明图是 DAG；不然，图中存在环。

・找出一切入度为 0 的节点，将它们参加行列。

・从行列中取出一个节点，将其参加拓扑排序成果中。

・关于该节点的一切邻接节点，削减其入度。假如某个邻接节点的入度变为 0，则将其参加行列。

・重复进程 2 和 3，直到行列为空。

・假如终究拓扑排序的成果中包括一切节点，则阐明图是 DAG；不然，图中存在环。

from collections import deque, defaultdict

def topological_sort(graph):

# Step 1: 核算每个节点的入度

in_degree = {node: 0 for node in graph}

for node in graph:

for neighbor in graph[node]:

in_degree[neighbor] += 1

# Step 2: 将一切入度为 0 的节点参加行列

queue = deque([node for node in in_degree if in_degree[node] == 0])

# Step 3: 初始化成果列表

topo_order = []

# Step 4: 处理行列中的节点

while queue:

node = queue.popleft()

topo_order.append(node)

# 更新邻接节点的入度

for neighbor in graph[node]:

in_degree[neighbor] -= 1

if in_degree[neighbor] == 0:

queue.append(neighbor)

# Step 5: 查看是否存在环

if len(topo_order) == len(graph):

return topo_order

else:

raise ValueError("Graph contains a cycle, topological sorting is not possible.")

推理转化为代码：在数据组成的阶段生成的自然言语推理进程，经过大模型转化为详细的代码，完结从推理到履行的转化。
练习阶段：终究，生成的推理途径和代码会被结合起来，构成一个高质量的练习数据集，用于进一步微调大言语模型。

上面的作业是代码模型的自主推理才能。作者表明，他们等待探求更通用化的自我进化结构和办法，使其在各种场景中都能够被广泛运用。

流星雨方案

论文：https://arxiv.org/abs/2411.11933
Github 链接：https://github.com/DIRECT-BIT/METEOR

该方案提出一个由弱到强的进化结构来引导大模型自我进化的全体流程，办法如下图所示：

该流程供给了一整套从无范畴才能进化成范畴专家模型的自我进化练习方案，包括三个要害阶段：

第一阶段：导师监督学习，旨在赋予模型根本的范畴常识，让模型能够完结范畴使命；
第二阶段：自我评价才能习得，经过凭借通用大模型的辅导，进一步迭代练习学习，赋予模型自我评判的才能；
第三阶段：自我提高练习，经过自我批评完结自我进化。

第一阶段：导师监督学习

常识蒸馏是一种有用的获取范畴常识的手法。但是作者发现，强模型与弱模型之间存在认知误差，导致从强模型中蒸馏下来的范畴数据无法高效作用于弱模型。

作者提出了 weak-to-strong 的范畴数据蒸馏办法，让强模型依据弱模型的辅导蒸馏范畴数据。详细的，当有一个范畴问题时，他们首要将该问题输入弱模型，但不让其直接生成答案，而是生成一段 guideline。这段 guideline 指示弱模型以为应该遵从哪些进程来答复范畴问题。接下来，他们将生成的 guideline 与范畴问题一同输入强模型。强模型依据 guideline 的辅导进程生成范畴问题的答案，或在 guideline 的基础上进行批改并生成答案。

第二阶段：自我评价才能习得

经过蒸馏后的范畴数据练习的模型能够完结必定的范畴使命，但经过剖析，该模型还或许发生很多过错信息或错觉信息，而且无法进行自我纠正。因而，作者提出要在这一阶段经过更强模型的反应来纠正模型内部的过错常识，进一步提高模型范畴功能。

他们参阅 StaR [1] 迭代式练习的办法，让模型首要对范畴问题进行作答，并由 GPT-4 给予答案反应。假如模型的答案是过错的，GPT-4 会将修正主张连同前一轮的答案从头回来给模型，让模型从头作答，直至模型发生正确的答案。整个进程的数据会被保存下来迭代式地练习模型，使得模型的范畴才能不断提高。

第三阶段：自我提高练习

作者期望模型在终究的范畴才能进化进程中能够脱节对强模型的依靠，完结彻底的范畴才能自我进化。因而，在模型具有完结自我批评的才能后，他们测验让模型进行自我进化。

遭到在推理进程中添加 FLOPs 能够有用提高模型在下流使命中的功能的启示，他们以为不同的推理战略会发生不同的作用。他们期望模型生成的成果尽或许挨近高 FLOPs 推理战略的成果，远离低 FLOPs 战略的成果。他们运用 beam search 作为高 FLOPs 战略，greedy search 作为低 FLOPs 战略，经过比照学习构建模型的自我练习办法，完结模型的自我进化。

功能剖析

作者比照了运用 Meteor 进化办法后 LLM 前后各维度的功能改变。在准确性、完整性、相关性、连贯性和可靠性方面，LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了功能的提高（评价办法：经过 GPT-4 挑选进化前和进化后答案的 win rate）。

未来作业

该作业开始探究和测验了模型进化的全体结构和每个阶段的对应办法，并有了一些开始的定论。未来，作者将在该主意的基础上，在每个阶段中立异更适用的模型自我进化办法，完结模型在各个阶段都能取得预期的功能提高，并在更多不同的场景中探究 Meteor 的适用性，推行流星雨方案。

作者表明，DIRECT LAB 等待与更多对大模型进化感兴趣的学者和业界同仁携手协作，一起推动这一重要范畴的探究与打破。试验室相关研讨的代码和数据已揭露，欢迎我们拜访：https://github.com/DIRECT-BIT

参阅文献：

[1] star: self-taught reasoner bootstrapping reasoning with reasoning

告发/反应

标签: 北理工流星雨进化自我模型

返回列表

上一篇：新闻多一度丨郭艾伦眼睛受伤引重视运动时咱们该怎么维护双眼？

下一篇：日译中犯错？讯飞翻译机大阪世博会街采翻车

人形机器人加快进化具身智能未来怎么演绎？

央视网音讯（焦点访谈）：曩昔几个月，您必定刷到过这样的视频：各种人形机器人在不同的场景中展现各类绝活。随同人形机器人“出圈”的还有一个新词，这便是具身智能。所谓具身智能，简单说，便是具有了物理身体，能...

友情链接：

天天吃瓜网

推进大模型自我进化，北理工推出「流星雨方案」

相关文章

人形机器人加快进化具身智能未来怎么演绎？

Copyright Your WebSite.Some Rights Reserved.

Powered By 吃瓜黑料. Theme by TOYEAN.

天天吃瓜网

推进大模型自我进化，北理工推出「流星雨方案」

相关文章

人形机器人加快进化 具身智能未来怎么演绎？

Copyright Your WebSite.Some Rights Reserved.

Powered By 吃瓜黑料. Theme by TOYEAN.

人形机器人加快进化具身智能未来怎么演绎？