合成数据练AI 保私隐易偏差(郝本尼)

原文刊于信报财经新闻「CEO AI⎹ EJ Tech——智情笔报

「合成数据」(Synthetic Data)是指透过算法或人工智能(AI)模型,依照真实世界统计数据,生成更多虚构人工资料。它们并非直接取自任何真实人员,但在结构规律上高度近似真实数据。近年随着AI技术发展加速,训练数据需求激增,「合成数据」重要性日益提高。

「合成数据」透过算法或AI模型,依照真实世界统计数据,生成更多虚构人工资料。(SDV网上图片

采用小量真实资料建模

使用「合成数据」最大好处,在于符合保护私隐法规。真实数据涉及个人身份、财务交易或健康纪录等敏感资料,受到香港《个人资料(私隐)条例》、欧盟《通用数据保障条例》(GDPR)等法律框架的保护。「合成数据」表面不含此等资讯,故可在合规情况下自由使用。

况且在许多领域中,真实数据往往不易取得,例子有医疗领域的罕见病例、网安领域的攻击事件等,「合成数据」正好能够解决此一难题。透过小量真实样本建模,产生大量相似数据来扩增训练集;如此不仅能改善模型准确率,还能降低资料蒐集成本。

不过,「合成数据」并非万能,首要风险就是可能放大偏差(bias)。麻省理工学院「合成数据仓库」(SDV)计划创办人维拉马查内尼(Kalyan Veeramachaneni),日前提醒:「因为它是从小量真实资料生成,真实资料中存在的偏差,可能延续到合成数据中。」

SDV计划创办人维拉马查内尼提醒,真实资料存在的偏差,或延续到合成数据中。(SDV网上图片)

另外,「合成数据」终究只是模拟生成,难以完全涵盖现实的复杂性。即使模型在「合成数据」上表现良好,亦不保证能在真实世界维持同等效能,这种落差在自动驾驶等领域尤其明显。不少用户、机构,也倾向质疑以「合成数据」为基础的模型,这又成为一些实验室隐瞒使用「合成数据」的诱因。

港宜制定统一评估指标

「合成数据」在本港应用早有一定进展,例如金管局2019年发表的《AI重塑银行业》报告,就提过可以用它协助金融业训练欺诈检测模型,到2021年推出「反洗钱合规科技实验室」(AMLab),亦有使用「合成数据」做实验,以识别可疑傀儡户口网络。

尽管如此,业界未来仍需要就「合成数据」建立标准化的评估指标,确保在私隐与效用之间,达到真正平衡。同时,为促进本地化的AI模型,香港院校也可以参考SDV计划,建设一套符合本地情况的公开「合成数据」集。

分享到Facebook
技术平台: Nasthon Systems