2021-12-22 00:00
人工智能技术主要分为三层,即智能感知、智能交互和智能决策。随着算法的进步,算力的不断提升和数据原料的丰富,近年来人工智能在三层技术上都取得了不错的成果,由感知智能不断迈向认知智能。
计算机视觉、自动语音识别、自然语言处理是当前人工智能领域最为成熟,应用最广的三类感知技术。在计算机视觉领域,自 2012 年 AlexNet 被提出以来,GPU 加持下的卷积神经网络推动了计算机视觉的高速发展,随后被提出的 ZFNet、VGGNet、GoogLeNet、ResNet 等逐年刷新 ILSVRC 竞赛的物体识别准确率,目前基于卷积神经网络的 AI 模型在识别准确率上已经超越了人类水平,而人脸识别作为计算机视觉的典型应用已通过人证核验、门禁出入、会议考勤等场景融入我们的日常生活。相比以往的模型多考虑二维图像,如今计算机视觉的前沿在于向更高维度发展,例如在空间维度拓展进行立体物品的识别和匹配,向时间维度拓展实现运动物体的检测和跟踪,此外,利用生成模型开发创意型应用,如拟物滤镜、古风滤镜等,也得到了市场关注。
在自动语音识别领域,传统基于 GMM-HMM 框架的语音识别系统已逐渐被基于循环神经网络的端到端语音识别系统取代。2017 年,IBM 的研究人员将高速神经网络(Highway Network)引入 LSTM 构建出 HW-LSTM模型,在语音识别任务上实现了与人类一致的水平。目前的语音识别技术在安静环境下可以做到准确识别发音标准的音频输入,然而嘈杂环境以及不标准口音仍是自动语音识别真正达到与人类听觉系统相近能力的制约因素,目前各国研究人员正在从软硬件两方面进行探索,力图攻克这一挑战。
智能决策指的是利用 AI 技术实现推理、决策、最优化等功能的应用场景。得益于大数据和机器学习的蓬勃发展,机器在决策过程中的独立性随之提升,原先的决策支持系统和知识管理系统的本质作用是辅助决策者完成决策流程,而智能决策强调无需人类干预的自主决策。AI 智能决策取代人工决策的典型应用是信用卡交易欺诈检测,由于机器学习算法能够从历史欺诈案例中学习欺诈交易的范式,且能够发现人类无法察觉的复杂欺诈交易的特征,在监测新的交易数据中能够以更快的信息处理速度识别可疑行为,因此使用机器学习智能化信用卡交易欺诈判定比人工检测更为高效。
目前智能决策的前沿在于与强化学习技术的融合,例如 DeepMind 开发的 AlphaGo、AlphaStar,以及腾讯 AI lab 开发的觉悟AI,都是深度强化学习在游戏环境下的智能决策应用,真实环境下,强化学习已被用于电商新品推荐策略以及仓库拣选策略的制定和执行等,提升了企业的商业效率。
人工智能产业化落地的 6 大挑战
中小企业应用门槛高
对于大部分中小企业,依靠自身力量从零开始引入机器学习,需要付出巨大的人力、资金、时间成本。根据机器学习算法和业务之间相关程度的不同,企业在采用机器学习时可能需要进行模型调参、选择机器学习算法和框架、搭建机器学习所需的软硬件环境等流程,从而确保开发的机器学习模型适用于企业业务。然而,流程中的每一步都需要大量成本投入。例如,模型调优需要花费大量时间用于手动调参、数据采集与清洗,算法和框架选择需要专业人才,而计算资源的配置需要长期资金投入。
如果企业主营业务与人工智能不是直接相关,倾斜过多资源来构建机器学习模型,势必影响企业整体效益。因此,门槛高、投入大、周期长已经成为中小企业零基础使用机器学习的痛点,市场亟需机器学习的服务化。中小企业利用智能云平台上的模型,可以把重点放在对行业和场景的理解上,不必从零开始,仅需选择适合业务的模型即可,为行业创新带来了全新的方式。
数据价值难释放
人工智能与实体经济的结合,离不开大量行业数据的输入和学习,而当人工智能进入到产业互联网领域,往往面临大数据价值难以释放的拦路虎。首先,各行业的数据基础和集中度不同,金融、电信等行业的数据基础较好,而很多制造企业的信息化程度不高,缺乏自动化的数据采集手段,导致人工智能学习缺乏样本数据,未来需要在小样本学习等方法上进一步突破。其次,数据的质量不高,特别是一些行业的数据仍然是人工填报的方式,导致数据的连续性和稳定性有较大问题,需要在数据清洗上投入更多力量。再次,海量行业数据散落于不同的组织机构和信息系统中,即使是同一家大型企业,也仍然存在“数据孤岛”问题。
数据使用需要符合个人数据保护的严格要求,而且由于数据所有权的界定尚未清晰,在数据使用中需平衡好数据采集、利用和保护之间的关系。一个可行的应对方法是推进联邦学习、可信计算、安全多方计算以及区块链和隐私计算的融合发展,探索数据使用的新方式。
场景和技术碎片化
人工智能落地跟服务的场景密切相关,而不同的场景需求和交付具有很大的差异化。随着 AI 在不同行业的拓展,由场景碎片化带来的需求个性化对 AI 落地提出了挑战。以人脸识别技术为例,较为常见的人证核验场景下,用户通过识别终端记录人像,与身份证件进行一对一的比较,以证明证件与用户身份一致,由于身份验证错误带来的风险较大,这种场景对识别精度的要求很高。除了一对一的比较之外,门禁出入场景下,门禁系统需要将识别到的人脸与数据库中的人脸进行匹配,后台数据库的容量和响应速度影响人脸识别技术的应用表现。此外,近年来还兴起了基于人脸识别的远程开户服务,即用户通过上传手持身份证件的图像完成金融机构的开户手续,此类场景下系统除了需要对人脸进行识别,还需要采集证件所含的文字信息。
通用大模型对算力的高需求
近年来,面对各行业的需求,不同的项目团队开发了各种各样的定制化算法模型,但这些模型的迁移性较差,只能满足特定的任务需求。因此,开发通用性更强、规模更大的人工智能模型成为行业重点研发方向,让人工智能行业从“大炼模型”走向“炼大模型”,而这对算力提出了更高的需求。以 Open AI 推出的 GPT 3 为例,人们可以通过开放接口的方式,调用 GPT3 的能力,系统不仅可以自动生成文本、图像,还可以与人们聊天、写论文、生成图像和写小说等,展现了人工智能在自然语言理解上的强大实力。GPT3 拥有 1750 亿个参数,其背后除了算法方面的进步,算力的支撑也是一个重要的保障。GPT3 所需的算力达到 3640petaflop,而当前全球最快的超级计算机日本的富岳 Fugaku ,也只有每秒 550petaflop。据报道,微软为 GPT3 的训练还建设了一个 5 亿美元的超算中心,并装载了 1 万个英伟达GPU 和 28.5 万核 CPU 。
算法模型的可解释性不强
伴随人工智能在各行业场景的应用深入,行业用户对于模型算法稳定性和可解释性的需求不断提升。深度学习往往被称为“黑盒”,其原因是人工神经网络结构的层级多而复杂。在模型的输入数据和输出结果之间,存在着人们无法洞悉的“隐层”,深埋于这些结构底下的零碎数据和模型参数,蕴含着大量难以理解的代码和数值,这使得 AI 的工作原理难以被清晰解释,一定程度上造成了应用落地的问题。
可持续商业化的能力不足
经过多年的高速发展,全社会对人工智能产业的期待日趋理性,早期大规模投融资的热潮逐步褪去,行业发展的泡沫被不断挤出,迫切需要构建可持续的盈利模式。
云上智能ABCI 云智融合新架构
解决人工智能产业落地的挑战,需要跳出单一的人工智能技术,从数据这一核心要素资源出发,以数据采集、传输、存储和计算的全流程视角,综合应用人工智能(AI)、大数据(Big Data)、云计算(Cloud Computing)和物联网(IOT)等技术,推进物理世界和数字世界的全面连接、交互和融合,从而实现由单点智能到全局智能的升级。
云上智能包含云基础底座、智能平台、智能产品和服务、智能生态四层架构。
云基础底座包含存储、数据库、云原生、服务器和网络计算等部分,为云智能提供丰富的算力和存储等资源;智能平台层包括机器学习平台,物联网使能平台和大数据平台,为行业开发者提供一站式的平台服务。其中,机器学习平台能够对各种数据源、组件、算法、模型和评估模块进行组合,使得算法工程师和数据科学家在其之上能够方便地进行模型训练、评估和预测,支持公有云访问、私有化部署以及专属云部署。物联网使能平台可以为各行业的设备制造商、方案商及应用开发商提供一站式设备智能化服务,平台提供海量设备连接与管理能力及小程序应用开发能力,提升传统行业设备智能化的效率,降低用户的开发运维成本,助力用户业务发展。
智能产品和服务层则包括语音、图像、人脸识别等标准化的人工智能能力,数字虚拟人、对话机器人等人机交互服务,企业画像、联邦计算等云大数据 SaaS 产品,以及面向 C 端用户的物联网小程序。
智能生态层,面向消费互联网、产业互联网以及可持续的社会价值创新三大方向,提供金融、工业、教育、医疗、政务、交通、文旅、传媒、地产、文娱等各行业的智能化解决方案。
从“泛在智能”到“云上智能”,智能从广覆盖进入到深融合,各行各业上云赋智的进程进一步加快,智能已经不仅仅是数字化工具,更成为行业塑造竞争优势的新生产力,为每个人带来全新的价值。智能的最终目的是服务于人,帮助人们从复杂的劳动中解放出来,让人们工作更高效、生活更幸福、体验更美好,为人们带来新的启发和认知,帮助人们探索世界和创造未来,是智能在新时代肩负的更大使命。
面向需求端的管理者、业务型员工、开发者和用户四大类人群,云上智能提供决策、协作、创新和服务四大能力,不仅可以为管理者提供智能驾驶舱,洞察行业趋势和新兴机会,还可以推动组织内部的管理效能提升,加速协同。对业务型员工来说,云上智能可以提供人机协同的环境,辅助生产者更好地完成工作,达成更多的创新;对开发者来说,云上智能可以帮助其降低开发门槛,开展更为高效的创新,并加速获得变现收益;对 C 端用户来说,智能化将让人们获得更为便利的服务和更优质的体验。