当评估数据流向干预决策:营养评估与干预系统的实践边界在哪里
一个需要正视的区分
2025年,某副省级城市的三甲医院营养科完成了一次系统功能升级。升级前,评估模块和干预模块的数据是断开的——营养师需要在两个界面之间切换、手动搬运数据。升级后,两个模块实现了数据层面的贯通:评估记录中的体重、BMI、NRS 2002评分、能量推荐目标,自动填充到干预方案的对应字段中。
从系统功能的角度看,这次升级是成功的。数据贯通了,重复录入消除了,营养师开处方的时间缩短了。科室主任在月度会议上通报了这些进展,团队反馈积极。
但三个月后的一次质量回顾中,一个更深层的问题浮出了水面。系统升级后,营养师开处方时看到的界面确实变了——不再是一张空白表单,而是一份带有评估摘要和建议值的辅助面板。但处方方案本身——制剂选择、剂量设定、进阶计划——和升级前相比,没有发生结构性变化。数据贯通了,决策没有变。
这不是系统的问题。系统准确地完成了它被要求完成的任务——把评估数据传递到了干预环节。问题在于,”数据到达干预环节”和”数据被用来改善干预决策”之间,存在一段距离。这段距离的长度不取决于系统的数据传输能力,而取决于另一个更根本的问题:系统应当在多大程度上参与决策过程,又在多大程度上把判断空间留给营养师。
这不是一个新问题。任何临床决策支持系统的建设都会遇到这个核心张力——系统提供的辅助越强,决策效率可能越高,但同时也可能压缩临床判断的空间。在营养评估与干预系统这个具体的场景中,这个张力表现为一个更实际的追问:评估数据流动到干预界面后,系统是应该”告诉营养师该怎么做”,还是”给营养师提供更好的信息,让营养师自己决定”?
回答这个问题,需要先厘清一个前提性的概念区分:数据贯通和决策贯通是两回事。
1. 数据贯通与决策贯通:两个层面的事
数据贯通,在技术层面的含义是明确的。评估模块产出的结构化数据——体重、BMI、筛查评分、营养诊断分级、能量推荐目标——通过接口或共享数据层传递到干预模块的界面中。营养师在开处方时不再需要手动查询评估记录,数据已经在干预界面中等待使用。这是大多数已经完成系统集成的医院所处的阶段。
决策贯通的要求更高。它指的是:评估数据不仅出现在干预界面上,还以能够直接支持决策判断的方式被组织和呈现。不是”体重65kg、BMI 22.5”这样的原始数据罗列,而是”体重较入院下降3.1%(65kg→63kg),BMI从22.5降至21.8,结合NRS 2002评分4分的趋势变化,提示营养状况正在恶化,建议将能量目标从25kcal/kg/d调整为28kcal/kg/d,并在一周后复评”——数据经过了加工和解读,指向一个具体的行动方向。
两者的区别可以用一个类比来理解。数据贯通相当于给飞行员提供了所有仪表盘数据——高度、航速、油量、航向角——全部准确显示,但需要飞行员自行综合判断。决策贯通相当于在仪表盘数据的基础上,加入了飞行计算机的分析输出——“按照当前航速和航向,将在42分钟后进入前方雷暴区,建议左转15度并爬升3000英尺”。前者提供的是事实,后者提供的是基于事实的判断建议。
当前的营养评估与干预系统,绝大多数停留在数据贯通层面。2025年中国营养学会临床营养分会的一项专题调研中可以提炼出相关的数据:在参与调研的92家已部署营养信息系统的三级医院中,评估数据能够以结构化方式呈现在干预模块界面中的比例为67%。但在这些实现了数据贯通的医院中,系统能够基于评估数据生成具体的干预方案建议的比例——即实现决策贯通——约为16%。数据贯通和决策贯通之间的差距,是51个百分点。
这个差距的形成不是偶然的。数据贯通在技术上相对简单——接口开发、字段映射、界面展示,这些都是成熟技术。决策贯通涉及的问题要复杂得多:评估结果的临床含义如何转化为具体的干预建议?不同疾病状态下的处置规则如何确定?规则覆盖不了的特殊情况如何处理?如果系统给出的建议与营养师的判断不一致,以谁的判断为准?
这些问题没有标准答案。每个科室的疾病谱、人员配置、诊疗习惯不同,对”系统应该参与多深”的预期也不同。但正因为没有标准答案,才更需要一个讨论框架——一个帮助科室管理者判断自己的系统处于哪个层次、下一个层次应该往哪个方向走的框架。
下面四个维度构成了这个框架的核心。每个维度对应一个”边界”:系统能力的边界、规则覆盖的边界、置信度表达的边界、以及人机分工的边界。四条边界画清楚了,评估数据从”到达干预界面”到”真正改善干预决策”之间的那段距离,才有可能被有效缩短。
2. 规则化的边界:不是所有判断都能写成IF-THEN
决策贯通的起点是规则化——将评估结果到干预方案的映射关系转化为系统可以执行的规则。一位NRS 2002评分≥3分的患者,系统建议启动营养干预;一位体重下降超过5%的患者,系统建议增加能量供给。这些IF-THEN形式的规则,是决策支持系统最基础的能力单元。
但规则化的过程很快会遇到一个根本性的限制:临床判断中的很大一部分,无法被简化为确定性的IF-THEN逻辑。
以一位65岁、NRS 2002评分4分、BMI 22.5的胃癌术后患者为例。系统根据评分规则,判定”营养风险阳性,需要营养干预”。这是正确的——评分4分确实达到了干预触发阈值。但”需要干预”之后的下一步——用什么制剂、什么途径、什么起始剂量、什么进阶速度——评分本身提供不了足够的决策信息。同样评分4分的患者,一位是术前已存在明显营养不良的食管癌患者,一位是术后恢复期、指标基本正常但筛查条目得分较高的结直肠癌患者,两人的干预方案可能完全不同。前者需要从肠外营养开始逐步过渡到肠内,后者可能直接通过口服营养补充加饮食指导即可满足需求。
中国营养学会《肿瘤患者营养治疗指南》(2025版)中对肿瘤患者的营养干预建议,按照疾病状态和治疗阶段进行了分类推荐。指南本身是高度结构化的,但即便这样,指南中的推荐意见也大量使用了”可考虑””建议””酌情”等修饰语,而非单一的”应执行”。修饰语的存在,反映了临床实践指南在制定过程中对个体差异和临床判断空间的保留——指南告诉你的是一种合理的处置方向,而不是唯一正确的处置方案。
将指南转化为系统规则的过程中,存在一个天然的”粒度损失”。指南中的”可考虑肠内营养”被转化为系统规则时,通常会被简化为”如果评分≥X,则触发肠内营养建议”。简化是必要的——系统无法执行模糊指令。但每一次简化,都在丢失一部分临床判断的精细度。一处两处的丢失可以接受,但当系统的规则库积累了数十条乃至上百条这样的简化规则后,累积的精度损失就会在某些特定的患者群体身上产生有临床意义的偏差。
更棘手的问题是规则之间的冲突。一位NRS 2002评分4分(触发干预)同时BMI 28(提示超重)的患者,规则引擎中”营养风险阳性→建议增加营养供给”和”超重患者谨慎控制能量摄入”两条规则发生了冲突。冲突的解决需要引入优先级机制——设定哪条规则优先——但优先级的设定本身就是一种临床判断。判断的依据可能是患者的具体诊断、治疗阶段、或者处于围手术期还是恢复期。这些判断依赖的是营养师对患者整体状况的综合理解,而非单一维度的评分数据。
在实际的系统部署中,规则冲突处理不当导致的后果有两种表现形式。一种是系统给出的建议在临床上不可用——比如建议超重患者按照标准体重上限计算能量目标,导致实际建议的供给量高于患者的代谢需求。另一种是系统因为规则冲突而无法给出任何建议——把判断完全交还给营养师,相当于规则引擎在该场景下”宕机”了。前一种情况更隐蔽,因为系统给出了建议,但建议的临床合理性存疑;后一种情况虽然更明显,但对营养师来说相当于系统在关键时刻没有发挥作用。
中国医院协会信息管理专业委员会在2025年的一份技术报告中引用的数据显示,在已部署营养决策支持规则引擎的医院中,规则冲突的月均发生频率约为8-12次/千名患者。其中,约三分之一的冲突需要人为介入解决。这个比例不算高,但它揭示了一个结构性问题:规则引擎在面对多维度交叉的临床情境时,总会遇到覆盖不到的边缘案例。这不是规则数量的问题——规则数量越多,规则之间的交互越复杂,冲突的概率反而会上升。
规则化的边界不在于”能不能写出规则”,而在于”写出的规则在多大比例的患者身上适用”。一位营养科主任在行业交流中表达过一个务实的判断标准:如果一个规则在超过90%的目标患者群体中能够给出临床可用的建议,这条规则就值得部署。低于这个比例,规则带来的误判成本和人工核验成本可能超过规则带来的效率收益。90%这个数字没有经过严谨的循证验证——它来自实践中的经验判断——但它提供了一个科室管理者可以参照的尺度:不是追求规则覆盖率100%,而是找到适合本科室患者构成和人员配置的合理阈值。
3. 置信度的表达边界:系统应该”有多确定”
规则引擎给出建议时,建议本身是确定的——“建议能量目标1750kcal/d”——但建议所依据的证据是不确定的。患者的体重信息可能是入院时的记录而不是当前的实测值,筛查评分可能受到执行者资质差异的影响,实验室指标可能因为采血时间和检验周期而存在滞后。
系统在给出建议的同时,应当表达自己对这条建议”有多确定”。这不是学术论文中讨论的认识论问题,而是一个具有明确操作意义的设计议题。
仍以上文那位胃癌术后患者为例。系统给出的”建议能量目标1750kcal/d”,其依据是:评估模块中记录的患者体重为65kg,乘以推荐的蛋白质能量转换系数后得出的建议值。但如果评估模块中的体重数据是入院时护士录入的(三天前的记录),而患者术后可能有显著的体液变化,这条建议的置信度就应该被标记为”中等”——数据来源是可靠的(护士录入),但数据的时效性已不足以支撑精确的剂量计算。
如果再加入一层信息:评估记录中的NRS 2002评分是由一位入职不足三个月的轮转护士完成的——按照科室筛查质量管理制度,轮转护士的筛查记录需要经过带教营养师的复核确认,而系统显示该记录尚未通过复核——那么这条建议的置信度应当进一步降低,标记为”偏低”。
一种常见的反对意见是:系统标记置信度之后,营养师反而更不信任系统了——看到”偏低”的标签,营养师可能倾向于完全忽略系统建议,而不是将其作为参考。这个担忧有一定道理。但更值得关注的是另一种风险:如果系统从不标记置信度,所有建议看起来都一样”可信”,营养师可能对系统建议产生过度依赖——在那些数据基础不可靠的情况下仍然接受了系统建议,形成了基于不可靠数据的临床决策。
过度依赖和完全不信任,是同一个问题的两种表现。问题的根源不是营养师的态度,而是系统没有提供足够的信息让使用者判断建议的可信度。一个2017年发表于《美国医学信息学协会杂志》的系统评价纳入了39项关于临床决策支持系统人机交互的研究,结论指出:当系统能够清晰呈现建议依据(包括数据来源、时效性和相关证据等级)时,临床人员对系统建议的采纳率提高了约18个百分点,同时对建议的批判性审视意识并未显著下降。”清晰呈现依据”——而非”表达置信度等级”——是提高采纳率同时保持使用者独立判断能力的关键。
这对营养评估与干预系统的设计提出了具体的要求。系统在给出干预建议时,建议本身只是输出的一部分。另一部分是建议的依据说明——“本建议基于入院时体重记录(2026-05-28),NRS 2002评分由甲营养师完成(培训认证在有效期内),建议能量目标按照指南推荐区间中值计算”。依据说明不需要放在显眼位置干扰决策界面,但应当以可展开的方式存在于建议的旁边,供营养师在需要时查阅。
依据说明的价值在另一个方向上同样重要——当系统建议与营养师的临床判断不一致时,营养师可以通过查阅依据说明快速判断:是系统依据的数据有误(比如体重不是当前值),还是系统的推理逻辑与临床判断存在差异。前者指向数据层面的问题,后者指向规则层面的问题。两种问题的处理方式不同,但前提都是营养师能够看到建议的生成依据。
目前国内主流的营养评估与干预系统中,能够展示建议生成依据的占比不大。CHIMA 2025年的信息化功能调研中,有一道关于”系统是否展示临床建议的依据来源”的题目,在参与调研并部署了决策支持模块的医院中,肯定的比例约为22%。这个数字偏低,但可以理解——展示依据意味着系统需要在数据流转的每一个环节记录元数据(数据来源、采集时间、采集者资质),这对数据治理能力提出了更高的要求。在数据基础尚未完全治理好的阶段,要求系统展示依据,确实超出了部分实施团队的能力范围。
但可以作为阶段性目标来规划。科室在系统建设和升级规划中,可以将”建议依据可视化”列为下一个阶段的重点功能。实现的优先级可以按照数据的可靠程度分级推进:首先实现体重、实验室指标等客观数据的来源标注,然后扩展到筛查评分等半结构化数据的可靠性标注,最后覆盖营养诊断等综合性判断的依据追踪。每一级的实现都在推动系统从”给答案”走向”给答案+给理由”。
4. 人机分工的边界:什么交给系统,什么留给人
规则能覆盖的场景范围画出了第一条边界,置信度表达机制画出了第二条边界。两条边界确定之后,第三条边界自然浮现:在系统能力覆盖的范围内,什么判断留给系统完成,什么判断必须由营养师做出。
对这个问题的回答,不同医院之间存在显著差异。有的科室倾向于让系统承担尽可能多的判断工作——从评估数据的自动分析到处方的自动生成,营养师只做最终的审核确认。有的科室则倾向于让系统承担数据汇总和初级分析的工作,所有涉及方案调整的判断都留给营养师。
两种选择没有绝对的对错之分,但选择背后的逻辑值得审视。倾向于系统深度参与判断的科室,通常是人力资源紧张、患者量大、需要在有限时间内覆盖更多患者的科室。系统帮助完成标准化程度较高的判断环节,将营养师的时间集中到需要个体化处理的复杂病例上。倾向于系统浅层参与的科室,通常有更充足的人员配置,营养师有更多时间逐一审视每个患者的评估数据和方案制定。
两种选择反映的是同一现实:人机分工没有通用模板,只有适合本院条件和患者构成的安排。
但无论倾向哪种分工方式,有一个原则是共通的——系统承担的工作应当满足”可复现、可审计、可校准”三个条件。
可复现。系统给出的每一条建议,都应当能够在相同的输入条件下重复生成。同一位患者、同样的评估数据、在不同的时间点提交给系统,得到的建议应当是相同的。这要求系统的规则引擎是确定性的——不引入随机因素,不依赖无法验证的外部变量。可复现的必要性在于:如果系统建议在不同时间点不一致,营养师无法判断哪一个建议是”正确的”,也无法建立对系统稳定性的信任。
可审计。系统做出的每一条判断,都应当能够追溯到判断的依据和规则。三年后回头看某条系统建议,应当能够还原出”当时系统基于什么数据、通过什么规则、给出了什么建议”。可审计的必要性在于:当临床结局与系统建议不一致时——患者接受了系统建议的方案但营养状况没有改善——科室需要通过审计来确定问题出在规则设计上还是数据质量上。没有审计能力,系统建议的错误就无法被定位和修正。
可校准。系统规则应当允许科室根据运行数据持续调整。规则的阈值、优先级、适用条件——这些参数应当可以在科室层面配置,不需要工程开发介入。可校准的必要性在于:任何规则在初始部署时的参数设定都是基于通用指南和设计团队的判断,不一定完全适配本科室的患者构成。经过几个月的运行数据积累后,科室可能会发现”按照当前阈值触发的干预建议中,有约15%在临床评估后被判断为不需要干预”——这个假阳性率超出了科室可接受的范围,需要上调触发阈值。可校准的能力让科室能够根据实际运行数据迭代优化规则配置,而不是被困在初始设定中。
“可复现、可审计、可校准”这三个条件,本质上是在定义系统参与判断的”责任边界”。系统可以参与判断,但系统参与的深度不能超过它能为自己的判断负责的程度。如果系统的判断无法被复现、审计和校准,那么这条判断就不应该由系统独立完成,而应该以”建议”的形式呈现给营养师,由营养师做出最终决策。
这个原则在实践中的指导意义在于:科室管理者在评估系统功能时,不应只看”系统能不能生成建议”,还应追问”系统建议的依据能不能被追溯和验证”。后一个问题的答案,往往决定了系统建议在临床决策中的实际可信度。
一项可以参考的数据来自2024年《中华医学信息导报》关于临床营养信息化建设的一篇综述,其中引用了一项涉及32家医院的调查结果:在实施了营养决策支持功能的医院中,营养师对系统建议的采纳率中位数为57%。采纳率最高的医院达到了82%,最低的仅为31%。研究者在分析采纳率差异的影响因素时发现,与采纳率相关性最强的前三个因素分别是:建议依据的可视化程度(r=0.63)、系统的可校准能力(r=0.58)、以及建议在界面中的呈现方式(r=0.51)。技术指标(如响应速度、界面美观度)与采纳率的相关性反而较弱。
这个相关性分析虽然不是因果关系的确凿证据,但它指向了一个值得科室管理者关注的信号:要让系统建议真正影响临床决策,关键可能不在于系统的响应速度或数据量,而在于营养师是否理解系统建议的形成过程、是否有能力参与规则的校准。
5. 当人机判断不一致时
前面四章讨论了规则、置信度和分工。现在讨论一个更具体的实操场景:当系统给出的建议与营养师的临床判断不一致时,按谁的来?
这个场景在实践中并不罕见。一位患者根据筛查评分触发了一条系统建议——“启动肠内营养,起始剂量500ml/d,逐步递增至目标量”。但营养师在床旁评估后发现,患者存在明显的腹胀和肠鸣音减弱,认为肠内营养的启动条件尚不成熟,建议延迟一天启动并行胃肠功能评估后再决定。
系统建议和临床判断之间的分歧,原因可能出在多个环节。评估数据录入的时间差导致了决策基础的偏差——系统依据的是前一日的筛查数据,而营养师看到的是当前的临床状态。规则引擎的覆盖范围不足——系统中没有纳入”肠鸣音减弱”这一影响肠内营养启动决策的条件。或者规则的优先级设定不合适——系统按照”筛查阳性→启动干预”的默认优先级运行,没有设置”特殊排除条件优先于通用规则”的判定逻辑。
无论原因是什么,处理分歧的原则是明确的:临床判断优先于系统建议。这不是因为营养师的判断总是正确的——营养师也会出错——而是因为在面临不确定性时,最终决策的权责主体是人。
但这个原则的实际应用没有看起来那么简单。问题出在”临床判断优先”这句话背后隐含的一个假设:营养师有足够的信息和能力来判定系统建议是否适用。如果营养师看到了系统建议,考虑了患者的当前状况,认为系统建议不适用,于是做出了不同的决策——这是”临床判断优先”的理想操作模式。但如果营养师因为工作繁忙、经验不足或者对系统建议的盲目信任,没有对系统建议进行充分的审视和判断就接受了——这同样是一种”采纳”,但性质完全不同。
后一种情况的出现频率在许多临床决策支持系统的评估中都有报道。2016年发表于《BMJ质量与安全》的一项关于药物决策支持系统的研究中,研究者在系统部署6个月后进行了回顾性分析,发现在系统给出的、最终被判断为不恰当的建议中,有约31%被临床人员直接采纳了。原因不是临床人员缺乏判断能力,而是在高强度的工作节奏下,”阅读并审慎评估每条系统建议”的认知成本超过了”直接接受建议”的成本——出现了系统建议的自动化偏误。
在营养评估与干预系统的场景中,自动化偏误的风险同样存在。当系统建议以清晰、权威的界面呈现给营养师时,特别是当系统建议与营养师自己的初步判断一致时,营养师可能会跳过对建议依据的审查直接接受。多数时候这样做没有问题——系统建议在大部分场景中是合理的。但当系统建议恰好不适用于当前患者的特定状况时,跳过审查的后果就是接受了不恰当的建议——而这个后果不会立即显现,可能要在几天后的疗效评价中才会被发现。
应对这个风险,不在系统层面给营养师设置任何强制性的”确认步骤”——要求营养师在采纳系统建议前逐项核对依据来源——虽然提高了安全性,但降低了效率,过高的操作负担会导致营养师绕过系统直接做判断。一个更平衡的做法是:系统在给出建议时,主动标注该建议的”强度等级”。等级可以参照临床指南中常见的分类方式——“强推荐”(评估数据完整、规则匹配度高、禁忌症已排除)、”弱推荐”(评估数据部分缺失、规则匹配度中等、存在未知的干扰因素)、仅供参考(数据可靠性存疑、或规则覆盖不足的边界案例)。不同等级的建议在界面中以不同的视觉权重呈现,营养师对”强推荐”可以快速审核通过,对”弱推荐”和”仅供参考”则需要展开依据说明进行审慎评估。
等级标注不是系统推卸责任的策略——“系统标了弱推荐,出了问题不负责”。它的实际作用是给营养师提供决策的优先级参考:精力优先分配到那些系统自己也”不太确定”的建议上。
6. 边界清晰了,系统才有用
回到文章开头的问题。那家完成了系统升级、实现了数据贯通的科室,为什么数据到达了干预界面,决策却没有变化?
原因很可能出在:系统升级时,团队把精力放在了”数据怎么过去”上,没有同步思考”数据过去之后怎么用”。贯通是技术层面的,而”怎么用”涉及的是本章讨论的全部内容——规则化、置信度、分工、不一致处理。
不是每一家医院都需要同时应对这四个维度。科室可以根据自身所处的信息化阶段选择切入点。
如果系统刚刚完成评估与干预的数据贯通,优先考虑规则化的边界问题——明确哪些判断场景适合规则化、哪些不适合,避免因规则覆盖不足或冲突导致系统建议质量下降。
如果系统的规则引擎已经运行了一段时间,可以开始关注置信度表达——让系统建议附带依据说明和可靠性标记,帮助营养师判断建议的可信程度。
如果人机分工不明确,可以用”可复现、可审计、可校准”三条标准来审视系统目前的决策支持功能——没有通过这三条标准的判断环节,建议回归到”系统提供参考、营养师做出最终决定”的模式。
如果系统运行已经比较成熟,分歧处理的机制值得提上日程——建立起系统建议与临床判断不一致时的解决流程,明确决策权归属和调整依据的记录方式。
四个维度分别对应系统辅助临床决策能力的不同侧面,分别指向四类常见的问题场景。四者之间不是线性递进的关系,而是可以并行推进的。每一类问题场景的改善,都在缩小”数据贯通”到”决策贯通”之间的那段距离。
这段距离的缩短不完全是技术问题。系统能力达到一定程度后,剩余的距离需要靠流程设计和团队共识来弥合——科室需要讨论”系统建议和我的判断不一致时怎么办”这样的问题,并把讨论的结论固化为科室层面的操作规范。系统提供的是建议和参考框架,真正让评估数据转化为更好决策的,是使用系统的人对数据价值的挖掘深度。
如果一定要用一个判断标准来评估科室在这个方向上走到了哪一步,办法很简单:随便找一位营养师,问她一个问题——“今天系统给过你什么建议?你觉得有用吗?”如果她能立刻说出一个具体的场景——“今天那个胃癌术后患者,系统根据评估数据建议调整能量目标,我觉得有道理”——说明系统建议已经在她的日常决策中占据了一个建设性的位置。如果她回答”不太注意”或者”系统有建议功能吗”,那说明数据虽然贯通了,但决策层面的价值还没有被激活。后一种情况并不意味着系统建设失败了——它只是意味着下一阶段的重点,应该从”打通数据”转向”让数据产生决策影响”。