科技创新2030——“新一代人工智能”重大项目(2020AAA0105000,2020AAA0105001)
人工智能医疗器械具有自身特性,其监管问题已成为国际医疗器械监管领域的研究焦点之一,亟需深入研究。本文介绍了人工智能医疗器械所面临的监管挑战,提出了人工智能医疗器械监管的总体思路,在分类界定、技术审评、体系核查等方面重点讨论了人工智能医疗器械的监管考量,并就今后的人工智能医疗器械监管研究方向提供相关建议。
人工智能医疗器械具有自身特性,特别是当前代表产品所用深度学习技术具有黑盒特性,存在可解释性差等问题,其监管问题已成为国际医疗器械监管领域的研究焦点之一,亟需加强监管研究。
2019 年7 月, 我国成立人工智能医疗器械创新合作平台,以促进人工智能医疗器械监管研究;同时在全球率先发布《深度学习辅助决策医疗器械软件审评要点》,明确人工智能医疗器械审评关注重点,引发国际广泛关注。2020 年至今,我国大力推进人工智能医疗器械监管研究,积极参与国际医疗器械监管机构论坛(IMDRF)人工智能医疗器械工作组、国际电信联盟/ 世界卫生组织医学人工智能焦点组(ITU/WHO Focus Group on Artificial Intelligence for Health)等国际监管协调工作;先后制定和发布多项相关指导原则、审评要点和行业标准,陆续批准20 余项第三类深度学习辅助决策类独立软件产品上市,标志着我国人工智能医疗器械监管研究已取得阶段性成果。
时值医疗器械监督管理新法规实施之际,及时对人工智能医疗器械监管研究进行总结和展望,不仅有利于提升监管能力和水平,持续推进人工智能医疗器械监管研究,而且有利于指导注册申请人做好产品质控工作,切实促进人工智能医疗器械产业健康发展。
一、人工智能医疗器械的监管挑战
人工智能医疗器械是采用人工智能技术实现其医疗用途的医疗器械,其监管挑战主要源自于人工智能技术所具有的特性。
人工智能技术具有快速迭代特性,特别是基于数据的算法。算法更新对于人工智能医疗器械安全性和有效性的影响具有不确定性,可能会提升产品性能,也可能会降低产品性能,甚至导致产品召回。若每次算法更新均需变更注册,不仅会大幅增加注册人负担,而且会占用大量监管资源。如何规范人工智能医疗器械算法更新的监管要求,是监管研究的重点。
人工智能技术需要高质量医学数据进行算法训练,尤其是基于数据的算法。由于受多方面客观条件的限制,算法训练所用数据存在数据质量不高、数据量不足、数据多样性不够、数据分布不合理等问题,易引入算法偏倚,降低算法泛化能力,导致产品难以在临床落地。如何控制人工智能医疗器械的算法偏倚以保证算法泛化能力,也需要深入研究。
人工智能技术包含黑盒算法,黑盒算法可解释性差。由于医疗决策路径复杂,存在不确定性和开放性,故因果性对于医疗决策至关重要。而黑盒算法仅是反映输出与输入的相关性而非因果性,难以与现有医学知识建立有效关联,用户知其然不知其所以然,不利于后续医疗决策。如何提升人工智能医疗器械所用黑盒算法的透明度以增强可解释性,亦需加强研究。
此外,人工智能技术包含多种算法,不同算法虽有不同技术特征,但相互之间存在着交叉、包含等关系,没有清晰严格的划分界线。同时,不同算法在医疗场景应用的情况和程度也不同,存在着单独使用、组合使用等情况,划分界线也不清晰。这些模糊性使得人工智能医疗器械的监管范围难以确定。
二、人工智能医疗器械的监管思路
人工智能医疗器械从医疗器械软件角度可分为人工智能独立软件(软件本身即为医疗器械,SaMD)和人工智能软件组件(医疗器械内含的软件,SiMD),二者虽存在技术差异,但软件生存周期过程质控原则相同,故监管要求基本一致。
人工智能医疗器械作为医疗器械软件的子集,亦属于数字医疗(Digital Health)范畴,其监管思路遵循数字医疗监管的框架和原则,同样采用基于风险的全生命周期管理方法进行监管,同时兼顾国际监管经验和技术发展趋势。
基于风险是指人工智能医疗器械的监管要求取决于其风险水平,风险水平越高监管要求越严,其风险水平采用软件安全性级别进行表述,分为轻微、中等、严重三个级别,可结合人工智能医疗器械的预期用途、使用场景、核心功能进行综合判定。全生命周期管理是指在医疗器械质量管理体系框架下,明确人工智能医疗器械生存周期过程质控要求,涵盖上市前和上市后监管要求,并可参考良好机器学习实践(GMLP)进行完善。
同时,需要将国际监管经验和中国国情相结合,综合考虑人工智能医疗器械的监管要求。不同国家的国情不同,医疗器械监管的范围、模式、资源、条件等方面均有所不同,因此国际监管经验可以参考借鉴,但不能简单照搬照抄。比如,美国FDA 正在制定“预定变更控制计划”用于控制人工智能独立软件的更新,待成熟时扩至人工智能软件组件,其核心思想是取消原有“算法锁定”要求,制造商可在经美国FDA 批准的软件预定更新计划下进行软件更新而无需重新申请注册。由于软件预定更新计划所含内容可能涉及重大软件更新,按照我国现行法规要求需要申请变更注册,因此“预定变更控制计划”在我国存在法规冲突,难以完全实施。再比如,美国FDA 正在试点“软件预认证”项目,尝试将独立软件监管模式由基于产品改为基于制造商质量与组织卓越文化(Cultureof Quality and Organizational Excellence,CQOE), 也适用于人工智能独立软件,后续将扩至软件组件。“软件预认证”在优化产品上市流程等方面虽有参考借鉴价值,但从产品上市角度类似于我国已取消的免检产品项目,不适合当前国情。
此外,需要结合人工智能技术发展趋势,稳妥考虑人工智能医疗器械监管要求。采用传统人工智能技术的医疗器械已有众多产品获批上市,需要考虑监管要求的延续性,不能置之不顾推翻重来。采用深度学习技术的医疗器械是当前人工智能医疗器械的代表产品,并且处于快速发展阶段,可作为切入点予以重点研究。采用人工智能新技术的医疗器械处于研发阶段,亦需提前开展监管研究,做好技术储备以应对新挑战。
三、人工智能医疗器械的监管考量
围绕人工智能医疗器械所面临的监管挑战,基于人工智能医疗器械的监管思路,人工智能医疗器械监管研究在分类界定、技术审评、体系核查等方面取得相应进展。
(一)分类界定
人工智能医疗器械需要明晰分类界定原则确定监管范围。因其属于医疗器械软件子集,故可参考医疗器械软件的分类界定原则,结合其自身特性予以考虑。独立软件是否作为医疗器械管理,通常结合预期用途、核心功能进行判定,管理类别主要基于风险水平进行判定。软件组件作为医疗器械的组成部分,其管理类别通常与所属医疗器械相同,特殊情况参考独立软件分类界定情况并按风险从高原则进行判定。下面以独立软件为例进行重点讨论。
由于医学知识的真伪优劣评判不属于医疗器械监管范围,故基于知识管理的医学人工智能软件不是人工智能独立软件, 其代表产品是采用自然语言处理(NLP)技术对电子病历的文本信息进行处理分析,生成知识图谱或量表并以此为基础向用户提供医疗决策建议。此类软件的预期用途、核心功能与人工智能独立软件类似,需要引入易于操作的分类界定新维度加以区分。考虑到人工智能独立软件的处理对象基于医疗器械数据(即医疗器械产生的用于医疗用途的客观数据),而此类软件的处理对象基于非医疗器械数据,并且处理对象概念清晰易于操作,故可引入处理对象作为分类界定新维度。因此,医学人工智能软件是否为人工智能独立软件,需结合其预期用途、核心功能、处理对象进行综合判定。
人工智能独立软件的管理类别判定需要基于其风险水平,兼顾已上市产品的监管延续性。风险水平可从预期用途、算法成熟度两个维度细化,其中预期用途可分为辅助决策和非辅助决策,前者提供医疗决策建议,后者提供医疗参考信息,前者风险高于后者;算法成熟度可分为成熟算法和全新算法,前者是指算法安全性和有效性已在医疗应用中得到充分证实,后者是指算法未上市或其安全性和有效性尚未在医疗应用中得到充分证实,后者潜在风险多于前者。全新算法若用于辅助决策按第三类医疗器械管理,若用于非辅助决策按第二类医疗器械管理;成熟算法无论何种预期用途管理类别保持不变,以保证监管延续性。
(二)技术审评
人工智能医疗器械的技术审评不仅要考虑人工智能医疗器械指导原则要求,而且要考虑数字医疗等相关指导原则要求,包括但不限于医疗器械软件、医疗器械网络安全、医疗器械人因设计、移动医疗器械、医疗器械临床评价、医用软件通用名称命名等指导原则。
技术审评主要结合算法特征和产品特性,综合权衡风险和受益,系统评价安全性和有效性。算法特征不同,评价重点也不同,比如,黑盒算法可解释性劣于白盒算法,需要关注其可解释性提升问题;有监督学习数据标注要求高于无监督学习,需要关注其数据标注质控问题;基于数据的算法对于训练数据量的要求高于基于模型的算法,需要关注其数据质控问题。产品的预期用途、使用场景不同,即使采用同一算法,其产品特性亦不同,评价亦有所侧重。风险主要关注过拟合和欠拟合等算法风险,以及假阴性和假阳性等医疗决策风险,进口产品还需考虑中外差异风险。系统评价需结合算法训练、算法性能评估、临床评价等结果对产品的适用范围、使用场景、核心功能进行规范和必要限制,对于前期已开发且不满足要求的产品允许开展差距分析并采取补救措施。
在算法更新控制方面,将算法更新分为算法驱动型更新和数据驱动型更新并区分要求,前者是指算法发生实质性变化或者重新训练,属于重大软件更新,需申请变更注册;后者是指仅由训练数据量增加而发生的算法更新,若算法性能评估结果与前次注册相比存在统计学差异则属于重大软件更新,需申请变更注册,反之属于轻微软件更新,无需申请变更注册,通过质量管理体系进行控制,待下次变更注册时提交相应注册申报资料,即无需“算法锁定”。同时,通过软件版本命名规则进行算法更新控制,软件版本命名规则需涵盖算法驱动型更新和数据驱动型更新,列举重大算法更新常见典型情况,在方法学上实与“软件预定更新计划”相同,但更早实施。
在算法泛化能力保证方面,训练数据需结合目标疾病流行病学特征,尽可能来源于多家、多地域、多层级的代表性临床机构,以及多家、多种、多参数的代表性采集设备,从而提高数据充分性和多样性,从源头保证算法泛化能力。算法训练需提供训练数据量- 评估指标曲线等证据,持续监测算法泛化能力。算法验证所用测试集需不同于训练集,以客观评价算法泛化能力,并可结合压力测试和对抗测试深入评价算法泛化能力。算法确认需保证临床评价数据集不同于训练数据集,机构数量尽可能多,地域分布尽可能广泛,以全面评价算法泛化能力。上市后亦需在真实世界持续开展算法泛化能力研究。
在黑盒算法可解释性提升方面,算法设计需对黑盒算法开展算法性能影响因素分析,研究影响算法性能的主要因素及其影响程度,根据分析结果明确产品使用限制,并在说明书中予以警示和提示,以提升算法可解释性。同时,明确算法开发生存周期过程质控要求,以提升算法透明度。此外,建议与现有医学知识建立关联,以进一步提升算法可解释性。
此外,在人工智能新技术应对方面,针对当前处于研发阶段尚无产品注册的人工智能新技术,仅作原则性要求,提供算法基本信息、算法选用依据和算法验证与确认资料即可,预留监管空间。在算法评价方法方面,提出可基于测评数据库进行算法确认,测评数据库需满足权威性、科学性、规范性、多样性、封闭性、动态性等要求,公开数据库因不具备封闭性而不能用作测评数据库,但可用于算法性能评估或算法训练。
(三)体系核查
人工智能医疗器械的体系核查需要基于医疗器械生产质量管理规范、独立软件附录(软件组件参照执行,含网络安全)及其现场检查指导原则,并可参考人工智能医疗器械指导原则相关要求,其以有监督深度学习为例明确了人工智能医疗器械生存周期过程质控要求,涵盖需求分析、数据收集、算法设计、验证与确认、更新控制等阶段。
考虑到有些注册申请人刚进入医疗器械行业,对于质量管理体系文档化要求的认识和理解不到位,着重加强体系记录的要求,包括数据采集质量评估、数据标注质量评估、数据扩增、算法更新等方面。
数据质控对于保证产品质量至关重要,特别是基于数据的算法,因此着力规范数据质控要求,明确并细化数据采集、数据整理、数据标注、数据集构建等环节质控要求,涵盖人员、过程、结果等方面。
算法更新质控是体系核查的重点,特别是对数据驱动型更新,因其轻微软件更新主要通过质量管理体系进行控制。以算法更新与软件版本命名规则的匹配性作为切入点,将是算法更新体系核查的基本方法。
算法可追溯性分析作为算法质量保证的重要方法,也是体系核查的重点,需追溯算法需求、算法设计、算法实现(即源代码)、算法测试、算法风险管理的相互关系。算法更新亦需开展算法可追溯性分析。
四、人工智能医疗器械的监管研究展望
我国人工智能医疗器械监管研究虽已取得阶段性成果,但所面临的监管挑战依然存在且将长期存在,一是现有挑战尚未全部得到根本解决,二是人工智能新技术层出不穷,亦会带来新挑战,因此需要持续推进监管科学研究,进一步提升国际竞争力和话语权。
持续学习/ 自适应学习具备自学习能力,此时用户亦成为产品开发者,与注册申请人共同承担法律责任和质量责任,同时算法更新迭代速度更快,用户不同算法更新情况亦不同,对于产品安全性和有效性的影响具有高度不确定性,因此当前限定持续学习/ 自适应学习仅可用于算法训练或医学研究,不得用于医疗决策。从长远角度来看,需要从法规、产品质量评价等方面深入研究其监管模式,明确注册申请人和用户的责任划分,利用年度报告等制度及时、精确评价算法更新影响。
人工智能医疗器械安全有效性评价体系亦需全面研究。一是大力推进重点产品指导原则和审评要点的制修订,与人工智能医疗器械产品发展趋势相匹配,不断完善人工智能医疗器械指导原则体系的构建工作。二是充分利用真实世界数据客观评价人工智能医疗器械的算法泛化能力,实现全生命周期闭环监管。三是继续探索测评数据库的评估要求和作用价值,测评数据库具有封闭性,注册申请人无法直接评估,需要结合医疗器械主文档登记事项予以评估,在此基础上进一步探索测评数据库在产品质量评价中的作用和价值。
有些人工智能医疗器械预期在基层医疗机构使用,由于基层医疗机构不具备医疗器械临床试验机构的备案条件,故这些产品难以在真实临床场景下开展临床试验进行算法确认,影响产品质量评价结果。以基层医疗机构的业务主管医疗机构作为临床试验的牵头单位或许是解决方法。
随着人工智能新技术的快速发展,人工智能医疗器械新产品形态也会出现,其监管的范围、模式和方法可能均需调整,分类界定、技术审评、体系核查等方面具体工作的关注重点亦需随之调整,这样方能及时、有效地解决人工智能新技术所带来的监管挑战。
国家药监局器审中心 彭亮 孙磊
文章评论(0条评论)
登录后参与讨论