被筛查数字掩盖的两类患者:营养风险筛查系统的准确性问题
「覆盖率达标」之外的另一个问题
2023年,国家卫生健康委将营养风险筛查覆盖率纳入三级医院评审常态化监测指标。次年,全国范围内以省为单位开展的专项督导检查中,多家医院报告的营养风险筛查覆盖率已超过90%,部分达到95%以上。从评审数据的维度看,这项工作推进得相当不错——筛查覆盖率达标,是临床营养质控体系建设中第一个被攻下的山头。
但在覆盖率的数字之下,一个更隐蔽的问题正在浮现:那些被系统标记为「已筛查」的记录,筛查结果可靠吗?
2025年,某省级临床营养质控中心在年度数据核查中做了一次专项比对。他们从辖区内12家三级医院调取了当月完成营养风险筛查的全部住院患者记录——总计超过8000条——逐条核查了患者病程记录中的临床信息与筛查结果之间的一致性。核查发现:在NRS 2002筛查为阴性(即无营养风险)的患者中,约16%的患者同时存在血清白蛋白低于30g/L、BMI低于18.5或近一周经口摄入量不足目标量60%中至少两项异常。换句话说,系统记录为「筛查阴性」的患者中,有相当比例从其他临床指标判断实际上很可能存在营养问题——这些筛查结果很可能是假阴性。
这不是一个科室、一个医院的问题。假阴性和假阳性是任何筛查工具都无法完全消除的系统性偏差——这是筛查工具本身的统计学属性决定的。但当筛查数据被纳入质控报表、用于评价科室绩效、甚至作为诊疗路径的决策依据时,识别和管控这些偏差就不再是学术讨论层面的问题,而是直接影响临床决策质量和管理评价公正性的现实问题。
本文不讨论「哪一个筛查工具更好」——关于NRS 2002、MNA-SF、SGA等工具的敏感度和特异度比较,已有多篇系统综述和Meta分析提供了充分的证据。本文想讨论的是另一个问题:当筛查工具被嵌入信息系统、在规模化使用中产生大量结构性数据之后,系统本身在放大还是抑制筛查结果的偏差?
一、假阴性:系统「没筛出来」的那些患者
谁来填表?——执行者差异对筛查结果的影响
NRS 2002的填答需要经过培训的人员完成。但「经过培训」在实际操作中是一个范围很宽的表述。一项于2024年发表的覆盖全国6个省份、54家医院的多中心调查显示:在实施营养风险筛查的科室中,筛查的执行者分布为——入院接诊护士完成占47%,病区责任护士完成占38%,营养师完成占11%,其他人员完成占4%。不同执行者对同一量表条目的理解存在差异,最终筛查结果的一致性在三个执行者群体间存在约12%的偏差。
这个偏差在系统筛查记录中是无法体现的。系统中存储的只有「NRS 2002评分:2分」「结论:无营养风险」这样的结构化字段。谁执行的筛查——是经过专门培训的营养师还是第一次使用该量表的轮转护士——这个信息在数据层面被抹去了。相同的一条筛查记录,在不同执行者手中代表的信息质量是不同的。当系统把所有记录存入同一个数据库、用同一套统计口径计算覆盖率时,质量差异被「数据一致」的表象掩盖了。
中国营养学会临床营养分会2025年发布的《临床营养信息化建设专家共识》中明确提出,筛查模块应记录执行者身份信息和培训认证状态。这一要求在系统功能层面并不难实现——在执行者字段上增加一个认证状态标记即可。但目前将其付诸实施的系统部署案例还不多。
工具的选择偏差——系统默认配置无形中「过滤」了部分患者
大多数营养风险筛查系统在配置阶段会为全院各科室设定统一的筛查工具。最常见的配置是全科室统一使用NRS 2002。但从临床适用的角度,NRS 2002并不适用于所有患者群体——它不适用于未成年人、非住院患者、意识障碍无法配合问答的患者、以及某些特定疾病状态下的患者。MUST适用于社区和门诊,MNA-SF适用于老年患者。一套全院统一的筛查工具配置,必然有一部分患者被排除在适用人群之外。
被排除的患者去哪里了?在实际操作中,通常有两个去向。第一种去向是系统直接将该患者的筛查标记为「不适用」——这一类记录虽然不影响「筛查完成率」的计算(因为它不在应筛分母中),但患者的营养风险状态实际上没有被评价。第二种去向是执行者强行使用不适用工具完成筛查——结果准确性存疑,但系统记录为「已筛查」。
两种去向都不理想。2024年中华医学会肠外肠内营养学分会发布的一份关于临床营养筛查实施质量的专题报告中,引用了来自参与调研医院的数据:在统一配置NRS 2002作为全院筛查工具的医院中,约22%的患者因年龄、疾病状态或其他原因不完全适用该工具。其中约13%被标记为「不适用」,约9%由执行者强行完成筛查。后9%的结果中,有多少是准确的是一个未知数。
系统层面的改进方向是工具选择的分路径配置。不是「全院统一」,而是根据患者入院时的结构化信息——年龄、科室、入院诊断——自动推荐或分配最适用的筛查工具。65岁以上内科患者自动默认为MNA-SF,18岁以下患者自动转向儿科营养评估工具。这种配置不需要额外的人工判断,只需要在筛查模块中预先配置好科室-年龄-工具的映射规则。
筛查窗口期与病情动态变化的错位
NRS 2002评估的是「入院当时」的营养状态。但对于住院周期较长的患者——特别是肿瘤放化疗患者、重症监护患者——入院时的筛查结果可能在住院后第5天就已经不能反映患者的实际营养状态。这在当前的大多数营养风险筛查系统中是一个未被覆盖的问题。
系统记录了一条「入院筛查阴性」的记录,这条记录在后期的质控统计中被归入「已完成筛查」的类别。但如果在住院过程中患者的营养状况发生了实质性恶化——体重下降、摄入量锐减、炎症指标持续升高——系统中没有触发复评机制来捕获这个变化。入院筛查是阴性,住院期间患者变成了营养风险阳性。系统层面上,该患者被记录为「筛查阴性——无风险」。
广州某医院在2024年实施了一项内部改进:对住院超过7天的患者自动触发复评任务。实施6个月后,初次筛查阴性患者的后续复评中,约8%被重新识别为阳性。这8%的患者在原有流程中可能一直带着「无营养风险」的标签直到出院。一个系统内嵌的复评触发条件——住院超过固定天数、体重记录出现下降趋势、关键检验指标异常——可以将这些脱离动态变化的假阴性重新拉回筛查视野。
二、假阳性:筛查「阳性」之后发生了什么
「阳了」但没干预——筛查结果与实际行动的脱节
假阴性的问题是患者被漏掉了。假阳性的问题则是另一种方向:系统标记了一批「有风险」的患者,但其中部分患者实际上并不需要营养干预——或者更准确地说,不需要当前系统流程所预设的那种干预强度。
这不是筛查工具本身的问题——每种筛查工具都设定了特定的敏感度和特异度组合。临床中的通常做法是优先保证敏感度——宁可多筛出一些假阳性,也不能漏掉真正的阳性。这个取舍本身是合理的。但问题在于:假阳性被筛出之后,会进入什么流程。
在不少医院的实际操作中,筛查阳性自动触发了一条标准流程:通知营养师→完成评估→评估阳性→启动干预。这个流程对真阳性患者是合理的,但对于假阳性患者——系统标记为阳性但实际营养状况尚可——会产生不必要的评估工作量。
2025年中国医院协会信息管理专业委员会的一份专项调研中有一个值得关注的数字:在已完成部署且正常运行超过一年的营养风险筛查系统中,筛查阳性率的中位数约为34%。而同批医院中,营养师完成评估后的「确认阳性」率中位数为27%。两者之间存在约7个百分点的差额——大约每5个筛查阳性患者中,有1个在评估后被确认并非真正的营养风险阳性。这个差额就是系统层面的假阳性率。
7个百分点听起来不大,但对于一个有每月筛查量在2000人次以上的科室,意味着每月新增约140次不必要的评估任务。对于一个营养师人力本身就不充裕的科室,这些无效的评估任务占用了本可以分配给真正需要评估的患者的临床时间。
系统如何放大假阳性——缺乏分级过滤机制
假阳性产生的根源在筛查工具的统计学特性。但系统层面的设计可以在一定程度上过滤假阳性,也可以在没有过滤机制的情况下放大假阳性对临床流程的冲击。
当前大多数营养风险筛查系统的流程设计是单层级的:筛查阳性→触发评估任务。没有中间的分级过滤层。这个设计逻辑的出发点是「不漏」,但带来的直接后果就是「所有筛查阳性的患者都进入评估队列」。
如果有分级过滤机制,情况可能不同。第一级是系统自动的数据校验——筛查记录中的异常值校验(如体重的录入值与HIS中的记录差异超过阈值时标记为待确认)、关键条目的逻辑一致性校验(如「近一周体重下降」为「超过5%」但「近一周饮食摄入」为「正常」的冲突标记)。第二级是患者维度信息的自动补充——筛查阳性记录与患者近期的实验室指标做关联,如果白蛋白、前白蛋白等客观指标均处于正常范围,筛查阳性的置信度标记为「待确认」。
分级过滤不是要替代营养师的临床判断,而是在将患者推入评估流程之前,追加一层自动化的数据支撑,帮助营养师判断「这个阳性结果的置信度有多高」。目前能够实现这种分级过滤的系统部署还很少——不是技术能力不够,而是需求定义阶段没有将「阳性结果的分级置信度」纳入系统功能规划。
「假阳性是否造成了真正的临床浪费」——一个需要重新定义的问题
在讨论假阳性问题时,有一个潜在的假设需要审视:假阳性导致的评估行为,本身是不是一种浪费?
从一个角度看,是的。每次评估都需要营养师投入时间,而评估结果可能否定筛查阳性——时间花在了「确认没有事」上。但从另一个角度看,筛查被设计为高敏感度的目的就是宁可多筛也不能漏。假阳性评估的流程消耗,可以被理解为「保险的成本」——用一定量的额外评估来确保不遗漏真正的风险患者。
关键在于权衡。如果假阳性率在可接受范围内(比如低于10%),额外的评估工作可能是科室可以承担的「保险成本」。但如果假阳性率偏高——比如超过20%——评估工作量的无谓消耗就会挤压真阳性患者的评估深度和响应速度。
问题不在于「有没有假阳性」——任何筛查系统都有。问题在于科室管理者是否知道自己的假阳性率是多少,是否能接受这个水平。当前的大多数营养风险筛查系统没有提供假阳性率的自动统计功能——系统可以告诉你「筛查阳性了多少人」和「评估确认阳性了多少人」,但不会主动计算二者的差异。这看起来是一个报表指标的缺失,但本质上是系统在「反馈机制」层面的设计不足——使用者无法便捷地获取筛查质量的评价数据,也就无法有针对性地进行流程优化。
三、从筛查准确性的系统治理向度看
前面两章拆解了假阴性和假阳性各自产生的机制和系统层面的成因。把两个方向合在一起看,筛查准确性的系统治理可以归纳为四个向度。
向度一:筛查执行的质量管控
筛查结果的质量,始于执行环节。系统可以在三个层次上提供执行质量保障。
第一层:执行者资质校验。在筛查模块中嵌入执行者认证状态检查——未经培训认证的人员在系统中无法提交筛查记录,或提交的记录被标记为「待复核」状态。第二层:过程数据的完整性监控。筛查量表中的每个条目是否都完成了填答?是否存在大量使用了「不确定」或「无法判断」选项的记录?这些执行层面的信号可以转化为质量报表中的绩效指标。第三层:抽查复核机制。系统中按比例随机抽取已完成的筛查记录,触发复核任务分配给上级营养师或质控人员。复核结果与原始筛查结果的符合率,可以作为筛查质量的量化评价指标。
这些机制都没有增加太多系统开发工作量——资质校验是一个字段比对,完整性监控是表单校验逻辑的扩展,抽查复核是任务分配规则的调整。但它们的共同前提是:在系统设计阶段,就把「筛查质量管控」作为一个独立的功能需求纳入规划范围,而不是依赖事后的人工检查。
向度二:多源数据交叉验证
单一筛查工具的判断结果,在条件允许的情况下,可以与其他客观数据进行交叉验证,以提升筛查结果的置信度。
交叉验证的数据来源包括但不限于:实验室数据(白蛋白、前白蛋白、淋巴细胞计数等常规营养相关指标)、体格测量数据(与筛查记录中填写的体重进行一致性比对)、护理记录中的膳食摄入量评估(与筛查中「近期饮食摄入变化」条目的自报数据做对比),以及药房记录中的营养支持药品使用情况。
交叉验证的目标不是让系统替代筛查工具做出判断——筛查工具的临床有效性已经经过验证,不需要额外的「验证」。交叉验证的目标是让系统能够自动识别那些「筛查结果与其他临床数据不一致」的记录,将其标记为需要人工复核。
在一套整合度较好的临床营养诊疗系统中,这些数据的获取不需要额外的手工录入——实验室指标从LIS接口获取,体重从护理记录或HIS获取,膳食摄入评估从护理系统中的营养记录获取。系统层面的工作是将这些分散的数据汇聚到筛查记录的校验逻辑中。
向度三:筛查-评估-干预的闭环反馈
筛查准确性的改善不是一次性的——它依赖持续的数据反馈。将筛查结果与后续的评估结果、干预结局做关联分析,可以为筛查质量的持续改进提供数据支撑。
具体的实施路径并不复杂。在系统层面,每条筛查记录与对应的评估记录建立数据关联——同一个患者、同一次住院、筛查是否阳性、评估是否确认阳性。月度或季度的关联分析报表,可以自动计算筛查的阳性预测值和阴性预测值——前者反映「被筛为阳性的患者中,有多大比例确实存在营养风险」,后者反映「被筛为阴性的患者中,有多大比例确实没有营养风险」。这两个指标比单纯的覆盖率更能反映筛查质量。
多位营养科主任在行业交流中表达过类似的感受:覆盖率的逐月攀升让科室对筛查工作有了信心,但「覆盖率的上升是否等同于筛查质量的改善」这一点,始终没有明确的数据来回答。建立筛查-评估的关联分析数据链路,是回答这个问题的第一个前提条件。
向度四:筛查工具的科室化配置与定期校准
最后一项治理向度指向系统配置层面的灵活性。
筛查工具的敏感度和特异度不是固定不变的——它们会因适用人群的差异而波动。同一家医院的不同病区之间,患者的年龄结构、疾病谱、入院前营养状态基线都存在差异。一套全院统一切换阈值在所有病区同时使用,较难实现对每个病区而言都是最优配置。部分医院已经在尝试根据病区历史数据,为每个病区设定个性化的筛查阈值——比如某病区过去六个月的筛查数据显示,NRS 2002评分3分及以上对应的评估确认阳性率为89%,而2分对应的确认阳性率为31%。如果该病区的评估资源紧张,「2分」的分类可能需要更审慎的处置。
系统层面支持这种科室化配置的能力要求不高——筛查工具的阈值参数、复评的时间间隔、阳性结果的自动处置流程——这些都可以作为可配置参数在系统管理端开放给科室自行调整。但前提条件是,系统提供了足够的历史数据来支持这些配置决策——科室需要知道「在当前的阈值设定下,假阳性和假阴性各有多少」,才能有针对性地调整参数。
四、系统治理的起点:从哪里开始
回到文章开头的场景:筛查覆盖率达到95%以上,但筛查结果中有约16%的假阴性、筛查阳性与评估确认阳性之间有约7个百分点的差额——这些数字不是某一家医院的问题,而是规模化筛查实施后普遍存在的质量偏差。
系统层面的治理不需要一步到位。一个务实的起点是:先让系统「看得见」筛查质量的现状。具体来说,可以在现有系统中追加三个维度的质量报表设置。
第一个维度:筛查记录的质量核查报告。每个月度自动生成一份报告,展示当月筛查记录中执行者资质标识完整率、字段完整率、异常值标记数和复核抽查的完成情况。
第二个维度:筛查-评估关联分析。将当月筛查阳性记录与对应评估记录的确认结果做逐条比对,计算筛查阳性预测值。将当月有完整评估记录且筛查为阴性的患者中,经评估后被判断为「存在营养问题」的比例(即筛查的假阴性率)一并呈现。
第三个维度:筛查工具在不同病区的适用性分析。按照各病区分别统计筛查工具的覆盖率、阳性率、完成率,与院均水平的偏离值超过一定范围的病区被标出。
这三个维度的报表本身不直接改善筛查准确性——它们的作用是让科室管理者在「覆盖率达标」之后,有能力看到覆盖率的「质量」。而「能看见」是「能改进」的第一步。有了这三个报表,科室就可以在一个合理的时间窗口内积累基线数据,然后有针对性地调整筛查工具配置、优化执行者培训重点、校准复评触发条件和阳性处置流程。
筛查准确性的提升不是一次性工程。它更像一个持续校准的过程——每次调整的参数在下一周期的质量报表中得到验证,再有针对性地进行下一轮微调。系统在这个过程中的角色不是「给出正确答案」,而是「持续提供可用于校正的信息反馈」。一个能够持续提供筛查质量反馈的系统,比一个「筛查覆盖率99%」的系统,在真正意义上更接近筛查的设计初衷:筛出该筛的人,不遗漏、不错判。
千方膳食专注于临床营养信息化建设,为医疗机构提供覆盖筛查、评估、干预、随访全流程的营养诊疗系统。