产品一类

ICML 2025

作者:365bet亚洲体育 时间:2025/07/12 点击:

那些文章的人来自Tsinghua大学和上海AI实验室。 Tsinghua University的相应助理教授Ding Ning和Tsinghua University的周·鲍恩(Zhou Bowen)和上海AI实验室主任。论文:https://arxiv.org/abs/2501.18362代码:https://github.com/tsinghuac3i/medxpertqa列表:https://medxpertqa.github.io,纸张由ICML 2025和DeepMend Medgems As Medgems As Medgems As Medgems As a a bench As a bench As a a bench As a bench As a bench As a bench As a a bench a a bench a.基准地址:https://deepmind.google/models/gemma/medgemma/我们在哪里需要新的医疗基准? AI切割模型申请实际医疗方案有多远? 1。现有的基准不足:提高剪裁的人工智能技能通常取决于难以且合理地评估模型性能的基准的指导和进步。但是,即使是最大的高缺陷医疗基准MEDQA也快速饱和(O1有96分) - 现有的医疗板凳KS很难有效评估并推动切割模型的进一步发展。 2。现有基准的临床相关性不足:医学人工智能的基本要求是真实世界临床诊断情况的灵活性。但是,现有的医学文本基准通常缺乏真正的临床环境的足够发生率,而以前的医学多模式基准仍然存在于自动生成的简单问题和答案中,并且临床相关性严重不足。因此,我们扩大了MEDXPERTQA,其中包括4,460个问题,涵盖17个专业和11个身体系统。 Kasfather这里是两个子集,尤其是用于医学文本分析的MEDXPERTQA文本和用于医学多模式的医学分析的MEDXPERTQA MM。为什么选择MEDXPERTQA?如何实现高贫困和高临床关系?此外,有两个点的医疗基准还不够。有何不同你有问题吗?质量是什么? MEDXPERTQA在上述挑战方面取得了重大改进:这是高度挑战性的,并有效地认识到切割模型:MEDXPERTQA在体检中引入了困难的问题,并经历了严格的筛查和增强,从而有效地解决了现有基准测试难度不足的问题,例如MEDQA,例如MEDQA; MEDXPERTQA目前是最具挑战性的医学多选择(MCQA)评论评论[1]的基准,甚至超过了最终的人类考试(医学)[2,3]。下图显示了各种基准上切割模型的性能:高临床关系,实际诊断方案:强大而广泛的数据资源:收集了美国医疗许可证考试的20多个问题的总和,所有这些都是高级专家。临床关系和完整性。 2美国许可评论:USMLE和COMLEX17/25大学许可大学许可大学许可医学放射学委员会主题RevieW(欧洲放射学委员会等)先前在下一代中收集了37,543个问题,在下一代多模式医学检查MEDQA-USMLE中:MEDXPERTQA使用实心,贪婪的高缺陷问题的高缺陷问题,开发多态多模态问题的高度困难问题,这些问题与多型问题有关,这些问题与多型问题有关,这些问题与多种问题有关,这些问题与多种问题有关,这些问题涉及多层问题,这些问题与多种问题有关(MM)子集,传统多模式医学评估基准中的劳动;包括各种图像和丰富的实际临床信息,专家级别的知识和高级推理能力。传统的医学多模式基准是由图像标题自动生成的简单问答对。下图显示了一个比较:“综合”差异 - IR:医疗特征:涵盖17多个医学专业,涵盖医学书籍当局中指定的所有体系(11种类型); mODAL:除了放射学和重要迹象之类的医学图像外,在审查医生期间可能需要的模态信息,例如文档和表格,这些信息和表格完全接近了真正的临床世界情景;任务:在实际诊断方案中介绍大量诊断活动。极低的数据泄露:我们进行数据综合以减少违反数据的风险并进行多个专家测试的周期,以确保准确性和可靠性;我们进行了数据污染审查,发现数据合成后进一步降低了数据泄露的风险。 MEDXPERTQA当前是数据污染的最低水平[1],它可以实现模型能力的目标和准确的腹泻。 O1型模型的医学推理能力分析:大量MEDXPERTQA问题不仅评估了医学知识的记忆,而且还要求该模型执行复杂的推理。例如,一些问题需要重新组合许多文本和图像提示,消除中断并开发完整的逻辑链以正确回答它们的模型;直到今天,我们一直根据审查该问题的基本功能(推理或理解)调用了每个问题。大多数问题属于推理子集,难以在医疗情况下进行复杂的推理,这特别适合评估模型的推理能力。 MEDXPERTQA是如何建造的?在Y结构数据收集期间,我们关注的差异和临床相关性。在随后的施工阶段,我们主要考虑四个基本原则:挑战,稳定,运动和准确性。收集数据后,MEDXPERTQA的构建已经进行了四个步骤:过滤,增强和专家分析:挑战:问题的三重滤波器滤波器机制 - 问题:使用用户的真实答案的正确和不正确的分布来计算困难y评估诸如Brier分数之类的问题;专家标签困难:医学专家正在将困难与问题分类; AI模型测试结果:选择了8个顶级AI模型。完成了14个独立实验以确定困难问题。扩展选项:生成中断错误的其他项目,文本(文本)的子集将其扩展到10个选项,并且多模式(MM)子集(MM)扩展到5个选项。鲁棒性:过滤问题:从文本编辑距离和语义级别中识别和删除类似的问题,从而降低了识别快捷方式和黑客模型的风险。无形:重写重写:为了降低数据泄漏的风险并客观地评估模型的能力,我们完全重写了每个问题的表达。重写句子的内容保持完整的信息,但形式上存在明显的差异,这有助于客观地评估模型的能力;准确性:多个expeRT评论:具有医疗许可的专家组成了一个审核团队,并与数据增强过程中介绍的问题,正确的错误或原始数据错误一起进行了lotrotate评论,审查和解决问题,例如缺失的信息,不一致之处以及使叙述感到困惑;发现和修改了将近一千个问题,专家已经对问题进行了详细的统计数据,对错误和对手段进行了分类,以确保最终基准的准确性。经过严格的筛选和分析后,MEDXPERTQA终于维持了该问题原始银行的12%,涵盖了4,460个问题,反映了质量优先级而不是数量。下表显示了与现有基准测试的比较,可以看出MEDXPERTQA显示出一个主要优势:切割模型如何执行?我们已经回顾了MEDXPERTQA中的Multimodal和纯文本模型,包括O3和DeepSeek-R1等推论模型。更多poINT详细信息,请参阅排行榜:https://medxpertqa.github.io。模型性能间隔很重要:在多模式模型中,O1标志最高,但是两个子集的总体准确率不超过50%,这表明切割模型在医疗领域仍然有足够的改进空间。在文本的子集中,DeepSeek-R1是开放资源的最佳模型,但是O1有一定的差距。人类绩效基线:我们根据原始测试问题的准确性,基于建立基准测试时收集的每个问题的答案数据,然后建立人类绩效的限制,每个问题的答案数量高达230,000,因此完全具有代表性;增强改进模型对推理的子集具有明显的优势:比较三组基本模型及其识别模型的版本,众所周知,增强模型显示了Signi推理子集的ficant且稳定的改进,虽然没有对子集的子集理解之类的东西,这表明推理子集特别适合审查O1级模型;错误分析显示了密集的特征:我们在GPT-4O中使用LLM以误差类型标记了完整的响应,并发现推理和图像理解的原因是最常见的,而纯粹的医学知识是相同的。以上结果从许多观点中证实了MEDXPERTQA的数量,尤其是为了强调推理子集的需求。 MEDXPERTQA的摘要,高差异,高临床相关性,全面的医疗基准,医学水平知识和推理能力评估。当前的研究广泛反映了通过AI医学模型推理能力的重要性。我们建议该药物作为一个复杂,丰富和重要的领域,有可能成为用于审查模型推理功能的新方案,从而扩展了主要基于数学和编程的当前审查范式。我们希望MEDXPERTQA成为促进专业医学和健康模型和推理模型通常开发的重要资源。参考文献[1] Tang,Xiangru等。 MedagentsBench:为复杂推理的基准测试思维模型和代理框架。 ARXIV预印型ARXIV:2503.07459(2025)。 [2] Wu,Juncheng等。 MEDREAN:通过知识图选择LLM中的医学推理步骤。 Arxiv预印型ARXIV:2504.00993(2025)。 [3] Phan,Long等。对人类的最后考试。 ARXIV预印型ARXIV:2501.14249(2025)。

澳门PG电子游戏_电玩城游戏大厅

客服热线:400-123-4567

邮箱:admin@baidu.com
地址:广东省广州市天河区88号

首页
电话
短信
联系