• 登录  |  注册
  • 首页>检索页>当前

    类脑智能的时代何时到来

    ——看计算机如何与中文信息处理“亲密接触”

    发布时间:2016-12-31 作者:本报记者 黄蔚 通讯员 徐禾     来源:中国教育新闻网—中国教育报

    语言是人类最重要的交际工具,人们借助语言保存和传递人类文明的成果;语言又是一种符号系统,由人类创造,只有人类才有真正的语言。自计算机技术、人工智能技术诞生伊始,语言学家及信息处理专家就一直渴望能够让计算机、智能机器像人一样来理解和使用语言。在这一方面,英文作为与计算机联系最密切的语言,大多数编程语言都与其有关;与之相比,缺少单词间的空格、人名首字母大写这类明显表层语法特征的中文,给机器识别和表达信息增加了许多的困难。为此,自1981年中国中文信息学会成立以来,对利用计算机开展汉语的音、形、义等语言文字信息进行加工与操作等处理技术的研究一直没有间断。2016年12月23日至24日,中国中文信息学会第八次全国会员代表大会暨学会成立35周年学术会议在北京举行,就集中了中文信息的高手们一起切磋技艺,纷纷“亮剑”。

    中文信息简繁双向转换,技术进步将提升认知能力

    会上的一大亮点,是颁布了“钱伟长中文信息处理科学技术奖”。该奖项是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予在基本方法或关键技术上有原始创新或重大突破的项目或个人。本年度获得“钱伟长中文信息处理科学技术奖”一等奖的,就有来自厦门大学史晓东教授团队的“多目标智能化简繁文本双向转换平台”。

    据了解,史晓东教授团队研发“多目标智能化简繁文本双向转换平台”始于2009年。当时,在第五届两岸经贸文化论坛上,双方提出了两岸共同研发汉字简繁文本智能转换系统的任务。经过长达三年的努力,史晓东教授团队成功完成了一套功能完备的多目标智能化简繁文本双向转换平台,并在准确率上达到了世界领先水平,支持面向古籍,以及港澳台使用文字等多种转换目标,提供字、词、专业术语等多层次的转换功能;实现了网站的全站简繁转换功能,供大众免费使用。“多目标智能化简繁文本双向转换平台”是中文信息处理技术取得的又一个重大成果,对促进两岸三地文化交流、传承和弘扬中华文化具有重要意义。

    中国中文信息学会理事长李生教授表示,如今,随着谷歌的阿尔法狗(AlphaGo)、百度的小度机器人等人机交互系统走入人们的日常生活,能与人类进行“语言”交流的智能应用已随处可见。由于在信息处理上,中文与英文存在诸多差异,其中最核心的区别是中文重义合,而英文重形合。因此,在中文信息处理领域内,有很多资深的科学家一直强调正视中英文差异,独立发展中文的处理理论。在这个以互联网、大数据和深度学习为标志的信息时代,人工智能技术给中文信息处理带来了很多新的应用场景,其中产生的大量用户反馈数据,促进了基于中文的知识图谱建立和深度学习等新技术的应用和发展。在他看来,这些变革会极大地将人们从中文记录、翻译、文字识别等机械劳动中解放出来,同时也会提升人们的认知能力。“总之,借助中文信息处理技术的诸多进步,我们会了解得更多,变得更‘聪明’。”李教授乐观地表示。

        语言翻译“信、达、雅”有赖于神经网络技术的发展

    “由于多学科交叉的复杂性,中文信息处理仅在歧义消解这一方面就足够让研究者力不从心,难以招架。”中国科学院自动化研究所研究员宗成庆认为,人类在运用语言的过程中还会呈现多种多样的表现手法,比如夸张、隐喻、幽默、影射等,这些对语言的理解研究有着深刻的影响。要实现计算机、智能机器对中文语言的理解,必须首先解开人类理解语言机制的秘密。举例来说,像诸如“有道”这样的能够进行各种语言互译的软件是现如今人们常用的语言处理工具。但经过多年的发展,机器翻译仍无法让人十分满意。在语言翻译“信、达、雅”三个不同的层次上,当下的机器翻译还基本处于“信”的阶段。未来,机器翻译质量的提高还有赖于基于神经网络技术的翻译方法等的发展进步。

    中国科学院自动化研究所徐波研究员在作报告时指出,未来,人工智能将会是一种受脑启发的人工智能,即类脑智能。正因如此,类脑计算、类脑智能等已经成为人工智能研究的热门领域。目前的深度学习,由于计算的数据庞大,需要大量的计算耗能,以谷歌旗下的深度学习系统阿尔法狗(AlphaGo)为例,其功率为每小时280000瓦特,在与棋王李世石的对弈过程中每小时耗能225千卡;相比之下,类脑智能是一种面向人工神经网络,将生物机制与数学原理融合的新型网络模型和学习方法,功耗会大大降低。一旦受大脑多尺度信息处理机制启发的计算模型及软硬件成为现实,将使机器逐渐逼近具有学习和进化能力的通用智能。

    徐波介绍了目前在类脑智能研究方面的相关进展。大脑是典型的复杂系统,由上千亿神经元通过百万亿突触组成巨大的网络,实现感知、运动、思维、智力等各种功能。类脑研究在认知科学上融合了短、长时记忆单元和多伦推理机制。信息处理将会成为理解生命系统的一个统一框架,也就是全脑认知功能计算模拟平台。

    中文信息处理发展报告发布,机器翻译产业潜力巨大

    本届大会上,中国中文信息学会发布了2016年度的《中文信息处理发展报告》(以下简称“报告”)。该报告是中国中文信息学会召集该领域部分专家对中文信息处理学科的方向及前沿技术所进行的一次梳理,将目标定位于深度科普,旨在向政府、企业、媒体等相关人士简要介绍中文信息处理领域的基本概念和应用方向,向高校、科研院所和高技术企业中从事相应工作的专业人士介绍本领域的前沿技术和发展趋势。

    当前,随着互联网和机器学习技术的快速发展,中文信息处理面临许多新的挑战。今年的报告系统介绍了中文信息处理各个研究方向的目标、任务、关键科学问题、现有技术和前沿发展方向,包括词法与句法分析、语义分析、篇章分析、语言表示与深度学习、知识图谱与计算、文本分类与聚类、信息抽取、情感分析、自动文摘、信息检索、信息推荐与过滤、自动问答、机器翻译、社会媒体处理、语音技术、文字识别、多模态信息处理、医疗健康信息处理和少数民族语言信息处理。

    报告指出,根据目前机器翻译研究发展的态势和技术现状,基于端到端的神经网络翻译方法具有较大发展潜力,但仍有诸多不足;统计翻译方法和神经网络翻译方法都强烈依赖于大规模高质量的双语训练数据,而很多特定应用领域中往往没有足够多的双语平行语料,这就导致数据驱动的翻译方法无法取得理想的翻译效果;互联网上使用的语言文本大多具有口语化、社交化等诸多新的特征,弱规范甚至不规范的现象比较严重,而目前的机器翻译系统几乎都是面向规范文本开发的,处理非规范语言现象的能力较弱。

    纵观20余年来机器翻译研发的趋势和现状,可以相信,随着机器学习、语义分析和篇章理解等相关技术的快速进展,这一人工智能中最具挑战的问题将在可预见的未来得到相当程度的解决,机器翻译系统的产业化应用前景将更加广阔。(本报记者 黄蔚 通讯员 徐禾)

    《中国教育报》2016年12月31日第3版 

    0 0 0
    分享到:0

    相关阅读

    热门标签

    相关检索

    社区

    热点推荐

    北京市公安局海淀分局备案号:1101083516号 工信部备案号:京ICP备05071141号

    互联网新闻信息服务许可证 1012013005

    中国教育新闻网版权所有,未经书面授权禁止下载使用

    Copyright@2010-2020 www.jyb.cn All Rights Reserved.