新闻动态

32B模型扫描SWE任务,该编码的敏捷模型几乎是一

作者:365bet体育投注 时间:2025/06/26 点击:

。 AI驱动的自动化软件工程有助于重建发展天堂。今天,Kunlun Wanwei已正式宣布,今天在世界各地启动了开源代码代理Skywork-SWE-32B,修复仓库级别的规则已在“小参数”中重写。这是与封闭的巨型资源的开源生态系统开放源代码之间的重大战斗 - SkyWork-SWE-32B使企业部署具有年级卡的AI工程师的事实。该模型在SWE基础验证的(开放式代码辅助轮廓)中将维修精度提高到了47.0%,该模型超过了该模型的现有开放模型,参数比例比32B低于32B,并且在Claude v3.7的封闭神话(56.0%)的封闭神话中。 AI与“合作”中的“工具”升级,与封闭资源的束缚分开,软件工程可以通过代理商驱动的范式进行真正查询。如今,开发人员可以通过拥抱的脸。技术报告:https://huggingface.co/skywork/skywork-swe-we-32b/resolve/main/main/assets/report.pdf博客:https://quixotic-sting-239.notion.notion.site.site/eb179610040f379610040ceb540ceb54dd55d5d5d2224065bd 224065bd tocy: https://huggingface.co/skywork/skywork-swe-32b01we任务:ang panghuli pagsubok ng matalinong Modelo。任何经常写代码的人都知道,可以说软件工程(SWE)的活动比普通的工作生成工作更加困难。在实际软件工程活动中,将大型语言模型驱动的代理放置并不意味着涵盖了简单的“代码写作”说明。尽管在与陌生项目交谈时,人类工程师的准确性不到70%。 Ngayon,ang paghahatid ng isang gawain ng sw sa isang inang intelihentego ay tulad ng nangangailangan ng ng isang ng isang'工程师a ng pamana, tumpak na maunawaan ang isang hindi malinaw na ulat ng bug, hanapin ang sanhi ng ugat, magdisenyo ng isang pag -aayos na sumusunod sa mga pagtutukoy ng koponan at hindi sirain ang anumang iba pang mga pag -andar, at isumite ang tamang code na nagbabago Nang Sabay -Sabay。这样的“ AI工程师”真的很难找到。与传统的代码相比,SWE要求是荒谬的-Laughs高。任何链接的弱点都可能导致工程复杂现实之前的无助代理。在上下文范围内以哈利姆川的身份获取问题。代码的生成侧重于语法和本地逻辑,只是看一棵树。尽管软件工程需要了解整个森林的生态系统。在更改函数时,生成器仅在查看功能本身,但是工程师应考虑十个呼叫点,并且三年前留下了TODO的评论。非技术级别更为关键。是否应该遵循尚未在代码中写的团队规格?您想了解文档中未写的性能行吗?这些不是异常的事情。创建“算法的分类”,当代码提供实施的快速分类时,代码的产生将结束;需要考虑汗水:为什么以前的雇主使用泡沫(历史)分类?报告模块的呼叫(依赖关系)会吗?它是否符合内存限制(障碍)?这似乎是一个简单的要求,但实际上它已经在代理中占据了无数的束缚,并且模型功能的要求也高于一个级别。您认为完成了吗?随着汗水的发展,每个决策都涉及多维权衡,需求,环境和工具链经历持续的变化,任何变化都将产生连锁反应。代理与开发人员进行了许多深度和澄清的对话Eloper或工程师。最好采取行动提出问题以消除要求的歧义。现在,我知道Kunlun Wanwei创建具有维修功能的型号的模型有多困难。在工程技能水平和代理商模型的系统思维能力上,存在三个致命的汗水数据集的致命缺陷。如果您想训练一个足够好的模型,那么困难在哪里?在大量从业者的眼中,SWE模型实践中最大的错误是数据集。大型模型的基础说,驱动代理商执行工程工程活动的活动在于培训数据。尽管许多工作集中在SWE的活动上并收集了相关的数据集,但目前的基本数据集仍然存在三个主要问题,这严重阻碍了该领域的进一步发展。它们就像重链,仅限于TH的潜力实验室笼中的E模型,这使得他们很难打破理论上的示威并朝着真正的战场转向。第一个主要问题是缺乏实施的环境机制和验证。开放资源数据(例如SWE-Bench-Extra,Swe-Fixer)通常缺乏环境或单元测试来验证数据准确性,因此很难证明生成的维修。第二大问题是高质量的培训数据很少。尽管某些数据集的大小很大(例如SWEV,SWE-GYM),但缺乏严格证明的培训样本,并且可用的高质量数据受到了极大的限制,从而导致SWE Acvision在SWE活动中封闭的资源模型后面引起了开源。第三个主要问题:DA Ruleta量表的可用性尚不清楚。与自然语言领域的任务相比,汗水活动的现有公共培训数据的大小很小,无法有效证明数据是否expAnsion会导致模型能力的持续增长。仅通过跨越此数据差距就可以期望代理商从“代码完成工具”变为可靠的“工程合作伙伴”。谁会认为,许多国内和外国公司无法真正实现的国内AI公司Kunlun Wanwei真正实现的问题? 02SKYWORK-SWE-32B摧毁僵局的方式是Kunlun Wanwei吗?许多人可以有这些问题。作为AI在中国开放资源领域的先驱,Kunlun Wanwei Changuesp自从2022年底之前发行了整个算法“ Kunlun Tiangong”的算法模型以来一直在AGI中,并且具有技术成功,并具有全面的和正向的生态布局。 2023年,Kunlun Wanwei开设了130亿个参数模型的SkyWork-13B系列,并在当时发布了最大的中国数据集,Skypile-150b(600GB),并开放了1000亿MOE MOE Sparse Skywork-Moe的第一世界,以支持在2024年对单个RTX 4090服务器的护理。几个小时前,中国大陆对OpenAi深入研究的第一位超级代理也是Kunlun Wanwei推出的代理商的产物。拥有相同的技术和工程技术并创建具有仓库级别的智能模型是很自然的。对于SkyWork-SWE-32B,Ikunlun Wanwei的Kunlun Wanwei已建立了自动,结构化的,可以复制汗水数据和验证过程的收集,分为3个阶段和9个步骤,最后建立了10,000多个高质量的工作示例和8,000个许多接触轨迹,并为模型培训提供了实体基础。数据流程图显示了10,000级经过验证的闭环数据集的构建数据流,A。数据采集和预筛选,B。基于实现的实施机制,C。代理轨迹的产生,每个阶段都有三个基本步骤。在数据收集和筛查阶段,元信息OF首先通过GitHub API获得了15万多个开放资源仓库,经过处理后,最终获得了8,472个有效Bodesga的元信息。然后,通过收集和初始筛选构建了最初的146,568个任务样本。最后,安装的验证保留了23,389个任务样本。数据构建过程每个阶段的数据样本量变化的图表基于实施机制的阶段,命令的产生,码头环境构建以及最终验证测试单元。在开发代理轨迹的最后阶段,它必须在每个任务中最多执行100个触点,并完成代理的轨迹生成和补丁级验证。最后,已经收集了8,209种质量,长篇文学以及与通过接触的轨迹的许多接触接触,以生成培训样本库。以这种方式构建的SkyWork-SWE数据集就任务数量和代码范围的宽度而言,比现有的类似数据集(例如SWE-GYM LITE和SWE-BENCEN的宽度)。它不仅涵盖了诸如Pydantic,SQLGLOT,DVC等的主要GitHub项目,而且还包括大量中小型仓库,提供大量丰富,多样化和实用的软件工作样本,并继续推动智能模型的演变。 Ling Law的系统验证软件工程的严重机会基于高质量的Skywork-SWEW数据集代理轨迹。 Kunlun Wanwei团队凭借最自动的开源OpenHands框架,培训了Skywork-SWE-32B型号。从该模型的参数和标记来看,它确实使Alarge的工作进入了开放的资源行业。 SkyWork-SWE-32B基于开源OpenHands Agents的框架,其准确度为38.0%@1,并已使用开源代码代理达到了当前的最佳水平32B量表。这是什么意思?相同尺寸的最佳型号不是!更重要的是,实验结果表明,规模定律在SWE工作中也取得了成功。我们以前曾说过,与语言活动不同,SWE活动的现有公共培训数据的规模很小,无法有效证明数据扩展是否会导致模型能力的持续增长。但是现在,昆伦·瓦韦(Kunlun Wanwei)证实了这一论点。只要训练数据量表可以继续扩展,模型性能就可以继续改善。在Worksin软件工程中,该句子同样有效且有用。 Skywork-SWE-32B限制是38.0%?否。增加测试时间缩放(TTS),模型性能直接持续到47.0%。我不仅旋转了同一框架的所有模型,而且还提供了DeepSeek-V3-0324的671B参数,这是前面的8.2%。小型模型击败了十次大型模型的经典复制场景s。在这一领域,一系列封闭的克劳德和Openai模型是国王。相比之下:在TTS中,SkyWork-SWE-32B显着超过了GPT-4.1-MINI(23.86%),Claude 3.5 Haiku(40.6%)和OpenAI-O1-Preview(41.3%)和LED Claude V3.5(46.0%)。开放性开放资源的模型对于企业私下部署特别有吸引力。他们只是不能保证安全和在本地环境中控制基本数据的能力,避免隐私泄漏的风险,还可以使业务自由根据自己的业务需求进行深入定制和优化,而无需继续支付高度的API费用。 DeepSeek-V3的开放资源已成为许多具有良好业绩的企业和组织的首选。 SkyWork-SWE-32B也足以吸引有汗水需求的企业。 03今年2月5日推广软件开发范式的新演变,Openai首席执行官Sam Altman讨论了AI如何更改SoftWa在公共场合进行工程。他的声明是:“到2025年底,软件工程发生了土壤震动的变化。这不仅意味着不稳定效率的不稳定效果有了重大改善,而且还可能对网络产生深远的安全影响。”该预测已实施。 AI软件开发范式的重建已从“工具辅助”阶段进入了一个新的“代理主导”时期,该阶段促进了发展过程的系统变化,协作模型,技术三项Skywork-Swork-Swe-32b是这一趋势的特殊时刻。

澳门PG电子游戏_电玩城游戏大厅

客服热线:400-123-4567

邮箱:[email protected]
地址:广东省广州市天河区88号

首页
电话
短信
联系