近年来,基于研究的基于研究的(RL)代理和代理优化(代理优化)引起了人们对学术界的广泛关注。但是,通过工具呼叫功能实现端到端代理培训的主要瓶颈在于严重缺乏高质量的任务数据。当前,诸如Gaia和BrowserComp之类的主要数据集高度依赖于施工过程中的Manu通道,因此在任务的相同大小和复杂性方面存在明显的限制 - BrowserComp仅涵盖了约1,300个搜索活动,而Gaia仅提供约500个多功能任务样本。与在基本的大型模型培训中通常超过一千个水平的教学数据相比,差距是Napakat。尽管自我监督的监督技术(例如自我教学)在大型语言模型(LLM)的帮助下成功地构建了大规模的教学数据,从而有效地提高了大学能力和模型的整体生命在代理的情况下,这种静态教学数据很难满足实际需求。原因是代理商的复杂活动通常需要模型与环境之间的持续互动,涉及许多工具和多步推理的合作操作。但是,传统的教学数据缺乏这种相互作用和操作,导致过渡差和在代理培训中的使用有限。为了应对上述挑战,Oppo研究所的研究人员建议任务工艺,Isang自动生成的代理活动框架,旨在以可衡量的难度,多工具合作和经过验证的实施道路来开发代理工作机会。通过培养过程的培养机制,任务工艺消除了对手术批准的依赖,并且可以系统地发展复杂的工作情况,涵盖了各种工具(例如URL,PDF,HTML,Image等),并支持对WO的自动验证RK的目的是确保数据质量以及工作质量和关闭的关闭。基于此框架,研究团队开发并打开了一系列包含近41,000个代理活动的合成数据,这些数据大大扩大了总体代理的规模和差异和评估。 Thesis Title: TaskCraft: Automated Generation of Agentic TasksSisis Address: https://arxiv.org/abs/2506.10055Github: https://github.com/oppo-personalai/taskcraft set: https://huggingface.co/datasets/PersonAlab/TaskCraft Data The Break Mainly divided intionsets parts: the first part在原子中产生简单而久经考验的活动;第二部分是通过深层扩展和新原子活动宽度的扩展,以逐渐提高复杂性。原子活动的产生只能理解为从原始数据中将问题带到主要问题,然后确保应通过特定工具解决问题。整个过程包括以下内容四个主要步骤:1。收集信息:系统正在从许多资源(网页,PDF,照片等)中获取信息。例如,公司财务报告,统计图表或新闻文章。 2。确定主要内容:使用LLM从这些文件中得出结论,例如:苹果在2025年的总收入为383.3亿美元3。提出问题:LLM需要将这些结论转换为工具回答的问题。示例:在“苹果2025年年度报告”中,2025年的总收入是多少?” 。代理应该证明这应该确保可以正确完成任务。扩展任务旨在逐步将简单任务更改为更分层且具有挑战性的复杂任务,从而使代理商可以通过许多步骤来完成任务。扩展的方法主要包括深层扩展和广泛的扩展。其中,深层扩展的目的是可以在S的发展连贯的任务。每个步骤都取决于上一步的结果,从而开发了一个多步推理链。这包括以下四个步骤:1。确认主要任务和扩展标识符:扩展标识符通常具有具有很强特殊属性的文本,并且通常用作获取工具上下文的输入关键字。例如,为了使命:“电影的导演是谁”的星际星际? “(答案:克里斯托弗·诺兰),扩展标识符是:“星际”。辅助原子活动具有最初的主要任务,以提出逻辑连贯的复合任务。示例:“谁是著名的主任美国科幻电影于2014年11月7日发行? “对整合问题的一般验证,研究人员使用各种政策对汇总任务进行语义验证,包括:超集验证,关系验证,关系验证,信息泄漏信息,理性验证等。LLM将许多任务的语义结合在许多任务中,以自然,平稳的构建的构建,以提高工作的效率。角色。研究团队采用了一个射击的迅速优化机制,并根据生成的工作数据进行了迭代优化,从而实现了迅速模板的自我进化,如表1所示。配给时间减少了几乎20%。在深层扩展任务中,任务扩展的6个扩展的成功率从41%增加到51.2%,进一步验证了在构建任务的有效性下,开发质量数据提高的重大影响。 1插图实验结果对主要模型剂的SFT训练进行了训练。其次,研究团队甚至回顾了任务生成的任务数据对提高大型模型功能的实际影响。基于QWEN2.5-3B系列,研究人员根据三个典型的多跳问题和答案数据集(HOTPOTQA,Musique和Bamboogle)的训练组形成了约32K的多跳活动和轨迹,并使用了这些生成的数据来执行管理的模型维修(SFT)。如表2所示,实验的结果表明,修复后,基本模型的平均性能提高了14%,指令模型提高了6%,表明由任务生成的数据在大型模型的理解和工具性能的表现能力方面取得了重要成果。此外,当这些微调模型与搜索R1增强的研究结合使用时,该模型的性能得到了进一步的改进,进一步证明了由任务生成的数据生成的数据不仅用于管理研究,而且还用作刺激性研究开始训练的高质量培训。 2 Supervise还要好奇的是:您真的需要引入搜索代理吗?因此,研究团队设计了一个比较实验,以比较两种任务构建方法的效果:一个直接使用GPT-4.1根据特定结论提出任务,而另一个则根据GPT-4.1的代理搜索自动生成任务。结果显示在表3中,任务构建范式执行有许多指标更好。 3。相比之下,任务任务的通过率明显更高,验证时间较短,工具使用次数与“原子任务”的定义更一致(理论可靠性为:输入索引 +目标呼叫工具)。此外,任务的工具调用数量更稳定,差异更小,这反映了任务在保持原子活动难度的一致性方面具有更大的优势。基于任务,研究人员建立了一个庞大的数据大小,其中包含近41,000个代理活动为系统调整和AI代理的系统分析提供了稳定的基础。该数据涵盖了许多工具使用情况,包括Web搜索,PDF阅读,图像理解等。由于所有任务都具有实际的实现轨迹,不仅管理微调(SFT),而且还为加强(RL)提供了高质量的起点。这使该数据集广泛适用为了增强主体模型的能力,对代理识别技术的审查以及多工具呼叫环境中总体功能的测试。
澳门PG电子游戏_电玩城游戏大厅
客服热线:400-123-4567
邮箱:admin@baidu.com
地址:广东省广州市天河区88号