新闻动态

“硬核”技术| 同盾科技李晓林教授:联邦学习用“小数据”实现“大智能”

2019.5.18重磅消息

深度学习的挑战

如果我们追溯历史会发现,当下正值爆发期的人工智能技术,在过去60年间的发展是一个螺旋上升的增长曲线,期间遭遇过质疑,经历过寒冬。直到深度学习的出现,利用多层神经网络模拟人类大脑神经元的信息传递方式,才使得人工智能技术开始大放异彩。

 

20世纪50年代引入感知器开始,到80年代多层感知器及反向传播算法,再到2010兴起的深度学习,几乎每三十年技术都会经历一次质的跃迁,与此同时自20世纪80年代以来,全世界的数据总量每三年就会翻一番。大数据促成了深度学习的腾飞,然而其背后的隐忧也随之而来。

 

1.数据垄断加剧 数据孤岛林立

达维多定律认为在网络经济中,进入市场的第一代产品能够自动获得50%的市场份额。

 

尽管无数业界人士都发出过警惕数据垄断的呼声,但现实情况正在向少数巨头垄断,小企业获取数据困难,大大小小数据孤岛林立的局势滑落。

 

2.谁拥有最多数据,谁就拥有最大的话语权

如果没有数百万张图像和其他类型的标签数据,就无法训练真正的大型深度学习网络,换言之那些拥有大数据的公司可以创建各类预测模型来进行操控,比如脸书将5000万人的数据卖给剑桥分析公司,从而影响美国总统大选。近年来,欧美各国频繁颁布数据安全、隐私保护相关的政策,未来对于数据的使用将变得更加谨慎。

 

3.大数据 高能耗

运行人工智能应用的大型网络需要巨大的运算能力,按照摩尔定律,计算机的运算能力每18个月才会翻一番,目前深层神经网络模型有数百万个单元和数十亿的权重,比人类大脑皮层中的神经元和突触的数量少一万倍,人的大脑本身就是一台超级计算机,功耗只有几瓦,而运行一台超级计算机则需要几百万瓦的能耗。高耗能对于深层神经网络的发展,将会是一个非常巨大的挑战。

 

为什么是联邦学习?

当前,大多数机器学习算法是在20年前开发的,那么现在是否存在一种算法可以把复杂问题变得简单化,既保证系统的复杂性泛化能力,又能求得最优目标函数,又能兼顾数据的安全性呢?

 

同盾科技副总裁兼人工智能研究院院长李晓林教授正在带领团队,致力于「联邦学习」技术的研发。李晓林是美国公立常春藤名校佛罗里达大学的终身教授,牵头创立了美国国家科学基金首家深度学习中心NSF CBL

 

李晓林在某次同盾行业大会上,深度剖析了「联邦学习」所展现出的强大的应用前景。

 

 

同盾科技副总裁兼人工智能研究院院长李晓林教授


 

Q:「联邦学习」是个什么东西?

顾名思义,联邦的概念是脱胎于联邦政府联邦国家而来,政治术语中联邦是指规定各州自治权保留给州政府,只有外交、军事等权限移交给联邦政府,在这样的框架安排下,各州共同组成一个国家。

 

「联邦学习」与其非常类似,它是一个采用分布式深度学习技术,参与各方在加密的基础上共建一个公共虚拟模型,训练和交互的全过程各方的数据始终留在本地,不参与交换和合并。

 

Q:「联邦学习」有什么优势?

李晓林介绍说:联邦学习的好处是不求所有,但求所用。不管是联合建模或联合学习都不需要传输聚集大量数据,只需要做一些参数上面的交换,用小数据就能实现大智能,整个交互是非常轻量级的。

 

基于联邦学习去中心化的算法逻辑,使得参与各方没有一方能拥有所有的数据,也没有一方拥有所有的模型,共用开放数据,而不享有数据,能最大化保护数据安全和数据隐私。

 

以对信息安全敏感度很高的金融为例。众所周知,银行内存在严重的数据孤岛问题。当下很多银行的做法较为粗糙,就是纯粹找来尽可能多的大数据,用量来暴力求解,但往往收效甚微,而且因为数据合规的限制,这样的模式也不可能长久。

 


 

Q:「联邦学习」是怎么另辟蹊径的呢?

李晓林教授说:在联邦学习的模式下,模型训练的时候每个银行和金融机构,各自的数据不需对外输出,甚至连模型的参数都不用给到对方,只需要将模型梯度的变化告知另一方即可,对方从梯队的变化不一定能反推出你模型的参数情况。

 

在整个训练、交互过程中,模型尽管碰触了很多数据,但数据却始终没有离开本行和本机构,完全化解数据安全、合规的忧虑。这跟原来集中式的大数据模型,有截然不同的思维逻辑。未来在银行与银行、银行与金融机构、银行与金融机构和科技公司之间的合作,联邦学习必将走上历史舞台,成为主流。

 

同时,在联邦学习的模式下,中小企业的话语权被前所未有的提升,前文我们提到谁拥有最多数据,谁就拥有最大的话语权。试想这样一个场景,一家中小企业跟国有大行合作,需要双方同样拿出100万的数据,但这或许已经是小企业所拥有的全部数据,对大行来说连零头可能都算不上。

 

看似平等的互换,实则不公平。

 

联邦学习会避免这个情况,银行和中小企业都没有数据流出的忧虑,对于银行来讲只要没有安全问题,拿出一亿和100万的数据对本地模型的意义是一样的。联邦学习就可以使大家都相对比较公平。

 

当然,基于去中心化、分布式的计算方式,还是存在一定的系统风险,李晓林教授说:我们可以通过加密的手段,搭配区块链的手段去防范参数泄露的问题,即使攻击的一方技术极为高明,参数泄露其实会非常有限。他的团队也在进一步研发更安全的、能抵抗恶意攻击的算法及机制。

 

联邦学习不仅在泛金融领域展现出灿烂的商业图景,对于人工智能的发展路径也有着深远影响。联邦学习将是同盾科技研发的战略重心,目前已经有诸多创新在智能信贷、小微金融风控、反欺诈、用户分析等领域进行探索,同盾将以人工智能研究院为重要载体,在全球范围内广泛招揽中外顶尖人工智能、机器学习等领域的工程师和科学家,与万千家客户携手智能、开放共赢。

  • 400-068-9796
    热线电话
    热线电话
  • 400-068-9796
    热线电话
    热线电话
Copyright @2018 同盾科技有限公司 版权所有浙ICP备12036190号-1组织机构代码:05368706-1隐私政策服务条款信贷风控SLA