AI时代,如何打破“数据孤岛”释放数据效能?

·数据要产生效益就必须流动,但数据一旦流通必然会产生安全问题。出台数据安全政策后各机构间的隔阂逐渐加深,更不敢共享数据。联邦学习以分布式、本地化的数据处理来规避数据传输过程中的隐私泄露问题,实现数据不动、模型动。隐私计算是数据广域可信流通必需的“管道”技术。

南京航空航天大学研究生院院长陈兵分享《打破数据孤岛,释放数据效能》。

数据要产生效益就必须流动,但数据一旦流通必然会产生安全问题。国内外对数据安全进行监管,但政策出台后,各机构间的隔阂逐渐加深,不敢共享数据,原本格式不统一的分散数据更难流通。5月25日,在福建省福州市举办的第七届数字中国建设峰会数据要素赋能新型工业化工作会议上,南京航空航天大学研究生院院长陈兵在《打破数据孤岛,释放数据效能》中介绍了破解数据孤岛、保护数据隐私的技术手段。

当数据被他人获取后,自身就失去了对数据的控制权。一些单位害怕数据流通,最典型的例子就是医院之间不愿共享数据。在AI时代,如何解决数据流通与安全的矛盾,在破解数据孤岛的同时保证隐私?

陈兵表示,目前有多种技术和方法解决这一问题,如安全多方计算、差分隐私、集中加密计算、联邦学习等。其中,安全多方计算通过隐藏部分信息保护隐私,参与各方基于交换的部分数据计算出正确结果。差分隐私即针对数据库查询分布与模型发布,通过混淆个体实现隐私保护。集中加密计算是将集中数据进行计算以解决性能问题,通过加密数据或加密程序运行防止数据泄露。联邦学习是目前最流行的方法,以分布式、本地化的数据处理来规避数据传输过程中的隐私泄露问题,实现数据不动、模型动。

陈兵表示,横向联邦学习适用于参与者的数据特征重叠多、样本ID重叠少的情况,可应用于医疗、视觉检测等。在推进智慧医疗过程中,病症、病理报告、检测结果等病人隐私数据常分散在多家医院、诊所等不同地区不同类型的医疗机构,联邦学习使得机构间可以跨地域协作而数据不出本地,多方合作建立的预测模型能够更精准地预测癌症、基因疾病等,同时能解决该领域样本少、数据质量低等问题。纵向联邦学习适用于参与用户重叠多、特征重叠少的场景。例如在同一地区的不同医院,其用户集可能包含该区域的大多数居民,但不同医院记录了用户的不同疾病数据,特征空间有较大不同,把不同医院的看病数据综合起来,实现对病人更加精准的治疗。“通过联邦学习,我们可以有效地让数据在不需要流通的情况下,能够被联合起来使用,保护数据隐私。”

蚂蚁集团董事长兼CEO井贤栋。

数据作为关键生产要素的价值日益凸显,如何助力数据要素安全高效流通、促进数据要素价值释放成为第七届数字中国建设峰会期间各方热议的焦点。5月24日,蚂蚁集团董事长兼CEO井贤栋在峰会主论坛上也表示,数据要素要“用得好”,关键是“流得动”。数据要素的流通发展已经从“水井”式的自采自用、“桶装水”式的点对点流通,快速发展为犹如“城市自来水网”的行业和区域间可信流通。井贤栋表示,要走向未来更广域的可信流通,形成综合水利工程,隐私计算是必需的“管道”技术。蚂蚁正在探索下一代隐私计算技术,提供普惠隐私计算服务,让数据价值的流动像自来水一样即开即用。

以农业为例,过去农业数字化程度低,涉农数据“孤岛化”,难以满足银行授信风控要求而获得信贷支持。农业农村部大数据发展中心与网商银行发起“农户秒贷”项目,通过蚂蚁集团隐私计算技术,安全融合多源数据,实时分析,掌握农户经营情况,手机一点就能“秒贷秒批、随借随还”。至今超600万农户通过获得贷款额度,累计授信964亿元,其中约8成农户种植面积不到10亩。