多项测评稳居第一！云知声再度登顶MedBench，医疗专业能力再获认可

2025年05月16日 17:11:57

5月15日，中文医疗大模型权威评测平台MedBench公布最新自测榜单结果，云知声基于山海大模型打造的医疗行业专用大模型（UniGPT-Med-U1）以综合得分93.1的成绩强势卫冕冠军之位。尤为瞩目的是，在医学语言理解与医学安全伦理双项评测中，UniGPT-Med-U1分别斩获122.3分与104.9分的佳绩，双双荣登榜首，成为参评的众多医疗大模型中的卓越典范。

“医学语言理解”评测得分

“医学安全伦理”评测得分

MedBench是由上海人工智能实验室、上海市数字医学创新中心联合多家机构打造的中文医疗大模型权威评测平台。作为全球AI医疗领域的重要参照标准之一，MedBench以其科学严谨的评测体系，为全球超过387个医疗大模型提供了提供客观科学的性能评估。评测维度涵盖医学知识问答、医学语言生成、复杂医学推理、医学语言理解、医疗安全和伦理5大关键维度。

多步深度推理，让诊疗决策有“根”可循

云知声UniGPT-Med-U1的优异表现，源于其先进的技术架构与创新技术。该模型基于山海大模型架构完成系统性升级，依托云知声在医疗行业深耕多年积累的海量诊疗数据，进行增量式强化训练。采用的多步深度推理架构，将知识图谱检索与逻辑链验证相结合，严格遵循循证医学框架，建立起可信的知识溯源机制。通过双重校验的推理范式，该模型在诊断准确性、临床逻辑完备性和决策过程可解释性等关键指标上实现了突破性提升，为医疗决策提供了更可靠、精准的支持，让诊疗决策有“根”可循。

在技术创新方面，云知声研发的引导式数据生成技术和可控验证深度推理技术，为UniGPT-Med-U1赋予了独特优势。

针对传统GRPO强化学习训练数据筛选效率低的问题，引导式数据生成技术采用动态答案预置机制，在生成阶段引导模型输出多样化医学回答，确保训练数据具备天然多样性。这不仅大幅缩短数据筛选耗时，还增强了模型对错误答案的鉴别能力，显著降低临床决策支持任务中的误诊风险。

而可控验证深度推理技术，则有效解决了现有大语言模型在医疗推理中的痛点。该技术采用“推理-反思-再推理”循环架构，并结合可验证推理奖励和可验证反思奖励机制，使模型在生成诊断建议时具备严格的自检能力，实现精准反思与可靠决策，避免出现逻辑漏洞和冗余信息。

技术落地赋能，推动医疗行业智慧化发展

从技术研发到场景应用，云知声基于医疗行业专用大模型、智能语音识别、自然语言理解、临床知识图谱等人工智能技术，构建了丰富的产品和解决方案体系，覆盖医政医管、临床诊疗、医保管理、患者服务等多个业务领域，服务对象包括卫健委、医保局、医院管理者、医护人员、患者等多类用户，全面赋能医疗智能化建设。

其中，基于医疗行业专用大模型推出的门诊病历生成、智能病历质控、DRG/DIP医保支付管理等系统，已在全国几十家医院成功落地应用。

门诊病历生成系统能够实时捕捉医患之间的对话内容，智能提取关键问诊信息，并自动生成结构化病历。医生仅需进行简单审核，即可完成病历书写工作。目前该系统已在北京友谊医院顺义院区广泛应用，单份病历采纳率高达98%，大幅降低了医生文书负担；智能病历质控系统能够精准理解病历内容，并智能识别其中的书写错误与缺陷。系统对影像描述、专业术语进行细致分析，并对检查结果、检查结论以及检查依据进行深度解读，从而实现高效、精准的病历质控；DRG/DIP医保支付管理系统以智能提醒和数据分析两种方式，从诊疗过程中、医保结算前到医保结算后，为医生、质控员、编码员和医保处提供全流程、全方位的医保支付管理服务。该系统成功助力中国人保财险完成核赔风控AI医疗审核系统的全国性部署。

持续创新，引领AI医疗新未来

凭借领先的技术架构与扎实的场景落地能力，云知声医疗行业专用大模型在AI医疗赛道的专业技能比拼中屡获佳绩。在MedQA、CCKS医学大模型评测、Medbench医学大模型评测、全国医保大赛等专业竞赛中，始终保持大模型医学能力全球领先的地位，充分展现了其在技术创新和实践应用方面的卓越实力。

此次再次登顶MedBench榜单，不仅是对云知声技术实力的再次证明，更是对其在AI医疗领域持续创新的肯定。未来，云知声将继续深化专业技术，进一步提升UniGPT-Med-U1的性能和应用水平，携手更多医疗机构、科研单位，共同探索AI医疗的更多应用场景。为提升医疗服务质量和效率，改善患者就医体验，促进医疗行业智慧化、可持续发展贡献更多力量。

（如有侵权，请联系平台删除。）