微软亚洲研究院 - 澳纽网Ausnz.net聚合阅读



干货 | 论文解读:基于动态词表的对话生成研究

​ 编者按:近年来,聊天机器人在飞速发展,很多人也对机器人的对话系统产生了很大兴趣。近期,北京航空航天大学—微软亚洲研究院联合培养博士生吴俣应邀参加了PaperWeekly优质论文线上直播分享活动,带大家回顾了近几年来聊天机器人的发展,对比了检索式和生成式聊天机器人的优缺点,并以第一作者的身份解读了北京航空航天大学和微软亚洲研究院在AAAI 2018上发表的有关基于动态词表对话生成研究的论文Neural Response Generation with Dynamic Vocabularies。 一起来看看吧!文章转载自公众号“PaperWeekly”。


浅析对话系统

对话系统主要分为两类,一类是任务型,另一类是非任务型。任务型对话系统主要应用于企业客服、订票、天气查询等场景,非任务型驱动对话系统则是指以微软小冰为代表的聊天机器人形式。 

之所以强调这一点,是因为今年我在ACL发表了一篇论文,有同学发邮件问我为什么参考了论文和源代码,还是无法让聊天机器人帮忙订披萨。我只能说,目前聊天机器人实在种类繁多,有的机器人只负责闲聊,有的机器人可以帮你完成某些特定任务。 

本次 Talk 会更侧重于介绍闲聊机器人,也就是非任务驱动型对话系统。首先我想给大家推荐一篇关于聊天机器人的综述文章 — A Survey on Dialogue Systems: Recent Advances and New Frontiers。

这篇文章来自京东数据科学团队,是一篇较为全面的对话系统综述,其中引用了 121 篇相关论文,并对论文进行了归类。不仅非常适合初学者,也能让大家对聊天机器人领域有一个更为全面的认识。

​面向任务的对话系统主要分为知识库构造、自然语言理解、状态跟踪和策略选择。针对知识库构造,假设我们的使用场景为酒店预订,那首先我们需要构建一些和酒店相关的知识,比如酒店房型、报价以及酒店位置。

具备了这些基础知识之后,接下来就需要展开对话,通过自然语言理解去分辨问题类型(酒店类型、房间类型等)。确认好相关类型后,我们需要借助 policy 模块,让系统切换到下一个需要向用户确认的信息。更直观地说,我们需要循循善诱引导用户将右表信息填写完整。


聊天机器人类型

普遍来说,聊天机器人主要分为两类,我认为准确来说应该分为三类。

比较早期的研究基本属于第一类:基于模板的聊天机器人,它会定义一些规则,对你的话语进行分析得到某些实体,然后再将这些实体和已经定义好的规则去进行组合,从而给出回复。这类回复往往都是基于模板的,比如说填空。

除了聊天机器人,这种基于模板的文本形成方式还可以应用于很多其他领域,比如自动写稿机器人。

目前比较热门的聊天机器人应该是另外两类,一类是检索型,另一类则是生成型。检索型聊天机器人,主要是指从事先定义好的索引中进行搜索。这需要我们先从互联网上获取一些对话 pairs,然后基于这些数据构造一个搜索引擎,再根据文本相似度进行查找。

生成型聊天机器人目前是研究界的一个热点。和检索型聊天机器人不同的是,它可以生成一种全新的回复,因此相对更为灵活。但它也有自身的缺点,就像图中的婴儿那样,它有时候会出现语法错误,或者生成一些没营养的回复。

检索型聊天机器人首先需要构建一些文本和回复的 pairs,然后再训练匹配模型,上线之后先做检索再做匹配。相似度算法有很多种选择,现在一般都采用深度学习,如果是做系统的话,肯定需要融合很多相似度的特征。


生成模型大多都是基于 Seq2Seq 框架进行修改,所谓万变不离其宗,不管大家怎么做,都会是以这个框架为基础。文本生成也是如此,在 RNN 语言模型和 Seq2Seq 出来之后,几乎所有生成模型都是基于这个框架。即使把 RNN 换成 CNN 或 Attention is All You Need,也仍然离不开这个框架。


检索型VS生成型

检索型聊天机器人的最大优点在于它的回复多样且流畅,其次,这个系统对编程者的入门门槛较低。即使你对深度学习和自然语言处理不甚了解,但只要你善于写代码,并且能从网上抓取一定量的数据,就可以搭建一个检索型聊天机器人。

另外,对于研究人员来说,检索型聊天机器人比较易于评测,借助 MAP、MRR、NDCG 等传统信息检索方法即可完成。 

检索型聊天机器人的缺点在于它过于依赖数据质量。如果你抓取的数据质量欠佳,那就很有可能前功尽弃。

就工业界来说,要评估某个检索型聊天机器人,首先我们会看其背后的排序算法,其次不能忽略的则是数据质量和规模,最后再看其回复数据是否足够有趣,以上几个因素共同决定着检索型聊天机器人的整体质量。 

生成模型的最大优势在于有一套通用 code,可以忽略语言直接开跑。只要在某种语言上跑得较为顺利,就可以将其应用到所有语言上。

很多人认为 safe responses 是生成式聊天机器人的一个缺点,但其实从某种角度上来说,这也是它的一个优点。相比检索型聊天机器人,它生成的回复质量较为稳定。

生成模型的另一个优点是,它非常容易实现多轮对话,并且能够偏向于某种情感。假设我希望生成一句高兴的话,那么用生成模型会比检索模型更容易实现。 

对于早期的研究者来说,生成模型的最大缺点在于它的回复较为单一。其次,由于缺乏自动评评测手段,研究人员难以对生成式聊天机器人进行评估。一个模型的好坏,更多需要靠人进行标注。此外,对工业界而言,生成式聊天机器人的门槛会相对较高。


怎样提高生成的多样性


第一种方法是将模型做得更复杂,比如上图这篇论文使用了 latent variable 来解决 boring responses 这个问题。

上图中的论文,则是在生成时将概率 bias 到一些特定的主题词。假设某个词是主题词,我们就在生成过程中相应提高它被选中的概率。

第二个流派是采用重排序方法,目前最简单有效的方法是先用生成模型生成大量回复,再用分类器对回复进行排序,排名越靠前效果越好。只要生成的回复数量够多,该方法就一定可行。

第三种方法是基于增强学习的。增强学习有两种不同方法,一种基于策略,另一种基于价值。

基于策略的代表作来自李纪为,其基本思路是:假设已有生成模型 G,给定一个 input 并生成 20 个回复,利用排序公式 P(S|T) λP(T|S) 对回复进行评分作为 reward。Reward 值越大,梯度更新则相应越大。

我们再来看看 GAN 的相关方法。李纪为对 SeqGAN 的模型加以改进,将其用在了回复生成上。

其基本思路是,每生成一个词的同时,用搜索的方法去搜索其最后生成的完整句子,然后用 discriminator D 对其进行评分,分值越高,意味着词的 reward 也越高。之后的思路则跟 SeqGAN 一模一样。


本文思路


我们做这篇论文的初衷,是为了提出一种不借助繁重工具或算法的回复生成方法。因为无论是复杂模型、后排序、增强学习还是 GAN,都属于一种用时间换精度的方法。 

我们希望在避免产生大量时间开销的同时,还能提高回复生成的质量。提升效率的关键在于 Seq2Seq 的最后一层 — 投影层,这个投影往往会是一个大型矩阵。

我们认为其实没有必要形成这个大型矩阵,因为有用词汇仅有很小一部分,而这一小部分词汇就足够生成一句非常流畅、高度相关的话。比如对“的地得”这类功能词和与 input 相关度较高的词做一个并集,就可以仅用一个小规模字典生成极为流畅的有效回复。 

详细来说,我们会给每一个 input 构建一个动态词典。这么做的目的是为了减少在线 decoding 时间,同时对不相关词进行剔除。


本文其实是在 Seq2Seq 的基础上加了一个动态词表,每给一个 input,我们会生成两类词。

第一类词的生成完全基于规则,即静态词典。静态词典主要包含一些功能词,功能词主要起润滑剂的作用,它们能让一句话的语法变得通畅。静态词典是基于词性构建的,主要包含代词和助词,名词和动词不包含在内。 

第二类词是内容词,即动态词典。动态词典是根据 input 猜测与其相关的词,即我们可以用哪些词对 input 进行回复。这个词典的构建不能再像静态词典那样基于词性,而是要借助分类器或词预测模型,预测哪些词和已给定的 input 相关。 

有了这两个词之后,我们就可以给每个 input 构建一个词典。这个词典的规模会很小,很小的概念是指原来的词典规模是 3 万,现在能缩减到 1000-2000 这个量级。

从矩阵乘法角度来看,如果能把一个矩阵从 N 乘以三万的维度,缩减到 N 乘以一千的维度,就可以大大提升矩阵乘法的运算速度。


词预测模型



接下来我们来看如何做词预测,即如何对内容词(content words)进行预测。内容词的 input vector 是 encoder 生成的 vector。有了 vector 后,我们需要过一个回归模型(MLP),继而预测需要用到哪些词。这个预测的损失就是将最后出现在回复里的词作为正例(标签为 1),再随机采样一些负例作为 0 标签的词,从而进行预测。 

如何采样负例非常关键。剔除掉一句话中的功能词,大概会剩下 10-15 个正例的词。我们需要通过频率对负例进行采样,如果一个词经常出现,那么它被采样为负例的几率就会很大。 

通过对负例进行采样,我们在进行词预测时,可以更准确地预测出内容词是什么。反之,这个词预测模型会跟 Seq2Seq 生成回复模型出现同样的问题,即总是出现高频词。只有利用频率对负例进行采样,才能让高频词在构建词典时就被剔除。


时间复杂度

在介绍完词预测方法后,我们来看时间复杂度的计算,即以什么样的速度进行 decoding。

首先将 Seq2Seq 和本文的 decoding 方法进行对比,可以发现二者在 GRU 和 Attention 上花费的时间完全一致,但是本文方法在 Projection 上花的时间会少很多

原因在于 Seq2Seq 的 vocabulary size 通常都很大,比如 3 万这种级别乘出来的数。而本文这个 T 可能只有几千,并且我们无需为每个词建立一个表,而是为每一句话建立一个表。因此,我们构建词典的时间开销要远小于从全局字典里进行词预测。

当然,这种情况的前提是回复词数需大于 1。当回复词数等于 1 时,即逐词预测,本文方法反而会比 Seq2Seq 变得更慢。也就是说,在词的数量越多的时候,词典规模越小,节省的时间也就越多。

经实验证明,这种方法相比 Seq2Seq 能节省约 40% 的时间


模型训练​

如果只对动态词典进行训练,将导致训练和预测的时候出现一些 gap。即使在训练的时候就采用动态词表这种方法,也依然会面临一个问题,就是你不知道选词这个过程会对你做回复造成什么影响。

为了解决这个问题,我们在训练时选择将动态词典作为一个隐变量来处理。针对公式的详细推导,大家可以参考论文。 

由于是隐变量,假设动态词典 T 是完全变例,即一个词有选或者不选这两种可能。如果有 3 万个词,那么 T 就有 2 的三万次方这么大,因此这种方法是不可行的。那我们应该怎么做呢?

​这样一来,我们就可以把词典构建和回复生成这两个损失串在一起,相当于放入一同一个公式里表示,而不是将词典和生成分开单独训练。利用逐次采样得出的结果,来评估动态词典在不同情况下,其相对应的回复生成的损失是什么。 

由于这个损失是通过采样得出,因此它会和 RL 一样存在 variance。因此我们加了一个 baseline BK 用于梯度更新,从而使训练更为稳定。


实验

​ 本文实验所用数据来自我们之前的一篇文章,这些词可以覆盖约 99% 的词。

本文使用的开源 baseline

目前研究界仍未找到一个很好的自动指标,能用于回复生成或对话评测。

现有的方法可分为四类:

第一类方法是计算 BLEU 值,也就是直接计算 word overlap、ground truth 和你生成的回复。由于一句话可能存在多种回复,因此从某些方面来看,BLEU 可能不太适用于对话评测。

第二类方法是计算 embedding 的距离,这类方法分三种情况:直接相加求平均、先取绝对值再求平均和贪婪匹配。

第三类方法是衡量多样性,主要取决于 distinct-ngram 的数量和 entropy 值的大小。

最后一种方法是图灵测试,用 retrieval 的 discriminator 来评价回复生成。

表 1 中的前四行是 baseline,DVS2S 是将词预测和 Seq2Seq 的损失串在一起计算,S-DVS2S 则是对这两个 loss 分别进行计算。从结果可以看出,DVS2S 的效果均优于其他方法。 

表 2 是人工标注结果,数值 0 和 2 分别代表最差效果和最优效果,Kappa 则指三者的一致性。人工标注得到的 Kappa 值通常较低,也就是说,即使让真人来进行评测,也很难得到一致性的评价。

速度对比:本文模型可节省40%的时间

案例效果对比

总结

首先,我们将静态词典换成了动态词典,用于聊天机器人中的回复生成。其次,我们提出了一种全新的方法,将词预测损失和回复生成的损失融入到同一个损失函数,以 joint 的方式对这个函数进行优化。最后,我们基于一个大规模数据集,对本文模型的效率和效果进行了验证。



 

Source: 微软亚洲研究院 | 10 Jan 2018 | 2:08 am(NZT)

二十一世纪计算 | 大图数据科学: 图数据中的推理

​编者按:我们正淹没在大数据的河流里,数据之间的相互关系蕴含着丰富的信息,但也常常被我们忽略。本文中,加州大学圣克鲁兹分校计算机科学系教授、美国人工智能学会(AAAI)院士Lise Getoor讲述了图识别是如何依靠数据做出推理的,并给出了自己对于概率软性逻辑PSL优越性和可能应用的看法。Lise Getoor表示我们还需要对图进行更多的机器学习,考虑各种关联结点之间的复杂关系。


南加州大学圣克鲁兹分校计算机科学系教授Lise Getoor

(以下为Lise Getoor教授分享的精简版文字整理)


我们正淹没在大数据的河流里,大数据并非是平的,而是多模态、多关系、兼具时空、多媒体的。目前的AI技术,特别是机器学习,它将丰富复杂数据平放到矩阵的形式当中。我们当下所做的一些工作很可能忽视了数据当中的很多丰富信息,其中很重要的一点就是错误假设了数据之间的相互关系。作为研究者和开发者,我们需要考虑到这些图的结构和相关的环境因素。

我想首先和大家说说三种常见的图数据推理模式,最简单的一种叫做协同分类。如果一个图的部分结点已经有标签,我们就可以推理出其结点的标签。社交网络就是很典型的例子,其中包含着非常丰富的信息和联系,通过信息和数据去做推理可以得出某位朋友的饮食习惯或其他偏好。基于数据在已有的信息,设置不同的权重,我们能够做一些简单的推理,充分利用本地信息和标签,再去推理出一些之前没有加入的标签信息。

第二种叫做链接预测,我们不仅仅可以预测某一个结点的标签,还可以推断结点之间的链接。比如说有一个通讯网络,我们能够通过通讯信息推理出网络中所有人的层级,并通过不同种类的信息判断不同人之间的关系。

​​

第三种是实体解析,任务是确定哪些结点指向同样的实体,我们就能从中获得一些信息。


对我个人而言,我最喜欢的图推理问题是图识别(发现可观察图结构所潜含的真实图结构),它能够把上面提到的的三个小模型结合到一起。还是以邮件通讯网络为例,通过对邮件信息进行推理就可以发现这几个人之间的关系及角色。我们需要对每一个信息进行研究,研究他们的实体状况和邮件状况。具体做法是首先对这些人进行分组,对之间的关系进行预测,并对实体身份做出判断。这其中也存在非常大的挑战,如何打造一个非常鲁棒的算法来理清其中的人物关系非常重要。


目前,统计学研究也在开发相应的算法,例如概率性推理和关系推理。有一个工具叫概率软性逻辑PSL,它是一种概率编程语言,即用描述性的语言对图上的问题进行描述。这个基础是,我们有属性、关系的逻辑表示,还有规则和约束来捕捉他们的依赖关系。PSL是一个这样的存在,它根据模板和数据来定义他们之间的概率分布用于推断。


PSL比较有意思的一点是,它通过将逻辑规则映射为凸函数,实现了大规模推断的可扩展性。更有意思的是,这个映射的合理性是用已有的理论计算机科学的结论证明的,用MAX SAT的近似随机算法结合统计学、机器学习、图模型方面的理论。之后我们就可以将从理论计算机科学当中的一些东西转化到实际的图识别应用当中去,最后将这种软性的逻辑和AI进行结合,在不同的情景下,很多时候你们会得到同样的优化结果。在我看来,我觉得我们现在能看到的这些东西仅仅是冰山一角,我们称之为叫Hinge-loss马尔科夫随机域。在这里有包含着很多具体微小的细节,每一个逻辑规则实际上都和某一个函数是相关的,相关的函数实际上都会造成一定的依赖损失。

​在图识别领域,PSL在推理速度和准确度上的表现和离散的马尔科夫规则相比都要更好,且从数据当中学习权重和变量的效果也更加出色。由此PSL可以衍生出很多具体的应用,首先是分类问题。以在线讨论为例,PSL通过观察大家讨论的文字内容和行为数据,就能够很好地来预测用户的观点。再比如大数据和AI领域常常需要聚合信息做推荐、预测甚至打分,我们有来自社交互动、图像方面的各种信息,其实这些信息中存在一定的相似性。PSL的优势就在于它具有非常好的扩展性,特别是逻辑相似性较高的情况下扩展也会更加容易。


另外一个领域可能和安全相关,通过研究社交媒体当中的垃圾邮件可以进行协同推断,哪些可能是垃圾邮件。还有一个问题是如何把视觉的、文本的、关系的数据全部融合起来,去推测使用用户的个性。我们把所有的信息结合起来就能够预测一些人口学特征,比如性别、年龄,同时还可以预测人们在社交媒体当中的信任。


最后我想和大家分享有关知识图的建构,如何获取足够多的数据来实现知识的自动架构是一项长期以来的挑战。我们能够结合统计学的数据信息以及一些相对简单的语义信息,把它们和我开始提出的图识别问题结合起来,并在做图识别时找到它的结点、标签以及结点之间的关系,在此之上可以再融入一些本体的限制,同时还可以融入一些关于信息和其他来源的数据。把它们相结合能够产生比较好的效果,而且速度可以得到显著提升。


我们需要对图进行更多的机器学习,考虑各种关联结点之间的复杂关系。另外,当我们在做数据驱动技术时需要思考究竟什么才是负责任的数据科学,如何检查数据并通过算法做出决策。我个人对PSL感到兴奋的原因就在于它的逻辑规则确实比一大批权重或是参数的算法更加容易解释。这个领域会有一些隐私和安全性的问题,这值得我们进一步研究;相伴而生的还有很多机遇,有更多社会、商业、科学、安全以及其他方面的应用可以去发现、去探索。


Lise Getoor教授的演讲全文


 

Source: 微软亚洲研究院 | 5 Dec 2017 | 11:28 pm(NZT)

微软推出中文学习AI助手Microsoft Learn Chinese


编者按:美国总统特朗普访华期间,他6岁的外孙女阿拉贝拉用中文普通话演唱和背诵传统诗歌的视频在中国社交媒体上引起广泛关注,可以感受得到,越来越多的人对中文学习充满了兴趣。智能私教微软小英帮助很多中国人解决了练习英语的难题。现在,为了让“歪果仁”朋友也能说一口顺流的中文,我们又派出了新的AI贴心私教——Microsoft Learn Chinese。


想要学习好一门外语,大量的语言练习是必不可少的,但是如何能找到一个有时间、有能力、有耐心的陪练可是难倒了一大批小伙伴。之前微软亚洲研究院研发的贴心英语私教微软小英就完美地帮助学英语的同学解决了这一困难,让随时随地练英语的梦想不再遥不可及。


练习英语的问题被解决,可你有没有想过正在努力学习中文的国际友人也有着相似的烦恼呢?为了帮助中文学习者解决这一难题,微软小英团队基于小英的底层技术开发了一个免费的智能手机应用——Microsoft Learn Chinese,一位24小时待命的人工智能语言学习助手。


目前,Microsoft Learn Chinese应用已经在苹果的iOS平台上发布。扫描下方二维码即可下载。

24小时助教


对于语言学习者来说,虽然花费了大量的时间去听老师讲课、观看学习视频、或者背诵词汇和语法,但最终却发现自己仍然无法与母语人士在真实场景中进行对话。项目负责人、微软亚洲研究院资深开发经理夏炎表示,Microsoft Learn Chinese采用了微软最先进的语音和自然语言处理技术,来帮助学习者解决学习过程和实际交流脱节的问题。 


(从左至右)资深开发经理夏炎、副院长田江森、语音组首席研究员宋謌平

Microsoft Learn Chinese以及微软小英背后的机器学习模型由微软亚洲研究院语音组首席研究员宋謌平及其团队开发。宋謌平博士表示,Microsoft Learn Chinese并非想要取代中文老师,它只是作为老师的一个助教,在学习者有时间或者精力练习的时候可以随时帮忙。尽管有“一对一”私人授课,真人老师能够辅导学生口语的时间总是有限的。而借助这款应用强大的语音技术,用户即便没有真人陪伴练习,仍然可以不断提高自己的口语能力。


宋謌平团队利用大量母语人士语音数据训练出深度神经网络模型。利用该模型以及微软亚洲研究院最先进的TTS语音合成技术,Microsoft Learn Chinese可以识别学习者发出的语音,并对发音做出评价,给出一个分数反馈,还会高亮提示需要改进的单词。用户只需要点击界面里的链接即可听到正确发音的音频示例。


针对不同语言水平的学习者,Microsoft Learn Chinese提供初级和中级两套课程。初级课程主要帮助用户学习简短词句,然后提供跟读和对话练习,以巩固用户刚学过的中文知识。中级课程则是交互式的,旨在帮助用户学习如何驾驭真实世界中的场景,例如租赁公寓和餐馆点餐等。


独立于语言,扎根于文化


Microsoft Learn Chinese应用的开发工作是微软亚洲研究院正在进行的语言学习产品孵化项目(包含微软小英微信公众号等产品)的一部分,这个孵化项目融合了研究院在语音和语言技术方面数十年的研究成果,其中包含了语音识别、自然语言理解和TTS语音合成等细分领域的最新突破。

Microsoft Learn Chinese和微软小英背后的机器学习模型和神经网络跟语言本身是无关的——也就是说,同样的技术既可以帮助人们学习中文,也可以辅导大家学习英文。正如微软亚洲研究院副院长、创新工程组负责人田江森所说,中文和英文语言学习应用之间的本质差异在于文化。

田江森博士负责的创新工程组从事所谓的“开发导向型研究”——研究人们在实际生活中如何使用这些应用,并基于从用户处采集的数据对应用的模型、界面和架构等进行调整。他说:“中文虽然是我们的母语,但我们并不知道如何去学习中文,这正是Microsoft Learn Chinese开发的难点所在。在整个过程中,我们自己也学到了很多东西。”

目前,Microsoft Learn Chinese的研究人员还在与外语老师通力合作,学习先进的教学方法,不断尝试开发更好的语言学习技术,用来提高学习者的语言使用频率和真实场景下的语言技能,从而强化真人老师的教学方法。


欢迎大家扫描二维码下载Microsoft Learn Chinese.








 

Source: 微软亚洲研究院 | 28 Nov 2017 | 12:44 am(NZT)

二十一世纪计算 | John Hopcroft:AI革命

编者按:信息革命的浪潮浩浩汤汤,越来越多的人将注意力转向人工智能,想探索它对人类生产生活所产生的可能影响。人工智能的下一步发展将主要来自深度学习,在这个领域中,更多令人兴奋的话题在等待我们探讨:神经网络、图像识别、语言翻译······

本文是第十九届“二十一世纪的计算”大会精选系列的第四篇,康奈尔大学计算机系教授、1986年图灵奖获得者、电气电子工程师学会(IEEE)及美国计算机协会(ACM)院士John Hopcroft将就AI革命这一话题为大家带来精彩讲解。​


康奈尔大学计算机系教授,1986年图灵奖获得者John Hopcroft

​​

(以下为John Hopcroft分享的精简版文字整理)


一百多年前,工业革命成功帮助人类实现了许多物理任务的自动化。而现在,我们正面临一场前所未有的信息革命,越来越多的人将自动化构想投射到智能任务上,而这势必会对人类生活产生深刻的影响,深度学习就是其中一个非常重要的方面。

在1960年左右,研究者开始对阈值逻辑单元展开研究,如果我们在这里放入一个信号,这个设备就有一个输出的信号:0和1。它的工作原理是每一个输入都有一个权重,这个设备它会计算去预测输入乘以权重。如果说最后得出的结果是超过了某一个阈值T的话,它的结果就是输出就是1,否则的话就是0。研究者所做的工作,他们开发出一种技术,这个技术是去训练这个设备,让它能够识别不同的信号。


相应的我们有一个训练阈值逻辑单元的算法——感知器算法。首先我们要根据第一个模式对权重赋值,并对每一个模式进行测试,检测它们的分类是否正确。如果一个模式的分类发生错误,当期望输出为1时,则将权重加上这个模式的值;反正当期望值为0时,则将权重减去这个模式的值。用该过程不断检测所有模式,直到实现全部模式的正确分类。 ​

其中有一点需要注意的是,最后的权重因子应该是所有模式的线性组合,原因在于每一次修改权重因子时,我们都是加或者减一个模式的值,最终结果就是这个权重因子是一个模式的线性结合。支持向量机就是在此技术基础上进化而来的。我们所做的就是训练这个单输出门的设备,让它正确地完成模式分类,就像它们是可以线性分割的一样,希望可以实现一边的输出是1,另外一边输出的是0。


现在的问题就是,有多少状态是可以进行线性分割?实际上这个数量并不多。这时我们就需要把这些数据映射到更高维的空间,然后再来解决这个问题。我给一个简单的例子来向大家展示一下我们怎么样实现映射。原始的数据是二维的,我把它称为X&Y,现在我要做的就是要把这个数据映射到一个三维的空间。我有一个Z轴,而Z轴的值将会是X平方加上Y平方,它可以实现的就是把一些元素从平面上拿出来变成立体的,这样你就可以看到这些数据可以用一个跟之前平面平行的平面来进行分割。这是一个非常简单的例子,但是它就是我们所谓的支持向量机的工作原理。


我们经常会遇见这样的情况,将这样的数据映射到一个无限的空间,如此一来它可以更加容易地进行线性分离,无需去计算每一个个体的图像映射值,因为我们所需要知道的就是最后的图像映射值之间的乘积是什么。那么什么样的矩阵能够表达样本在高维空间的内积?如果K是一个半正定矩阵,那么存在一个高维映射函数使得K是其的内积矩阵。核函数和样本的高维空间映射是支持向量机的本质。


人工智能的下一步发展将主要来自于深度学习,在深度学习领域有很多非常令人兴奋的话题值得深入研究和讨论。深度学习为什么会到来?比如说我们要训练计算机进行图像分类,针对ImageNet这个比赛,在2011年,人类能够实现的图像分类最低错误率是25%,并且一年内并没有突破性的改进。但2012年,我们开始启用AlexNet进行图像分类,错误率立刻就降低到15%,这吸引了所有人的注意;两年后,GoogleNet把错误率降低到6.7%,而一年后微软亚洲研究院提出的152层深度残差网络ResNet更是将错误率降至史无前例的3.5%,目前计算机图像分类已经远超5%错误率的人类水平。


学习理论有两种:一种是有监督学习,例如,首先我们需要将有标签的数据用于训练特定网络模型,根据标签调整模型权重使它能对输入数据正确地分类。这个过程是用一个叫梯度下降的技术实现的,具体是根据误差对权重的导数来调整权重值。另外一种是无监督学习,例如,首先我们将图像输入网络模型,但是不是对它进行分类,而是让模型重新生成相同或相近的图像,从而使其从没有标签的数据中学习得到图像的表示。比如无人驾驶,要设想所有可能遇到的情景对机器进行训练是不现实的,因此我们会选择给它一个方法,让它实现自我学习。



接下来要说的神经网络跟之前的神经网络结构不太一样,所使用的神经网络结构因用途而不同,我在这里主要关注图片数据。大家使用卷积神经层来处理图片数据,具体做法是使用一个3×3的方格逐行逐列扫描整张图片,然后将其中的9个像素值以相同的权重值输出到下一层的一个门中。这个3×3的窗口是用来识别一个特征的,比如拐角、边沿、眼睛或者鼻子。然后在这些卷积层后面放置池化层,池化层用于减少网络的规模,比如将2×2的窗口中的元素平均值或最大值输出到下一层。AlexNet包含了5个卷积层和3个全连接层,这个网络真正开始了深度学习。


接下来我想谈一谈“激活空间”的概念。如果你把一个图像放进来,你可以尝试在不同层的门计算每一个门的值。给定某一个图像的话,比如说它有固定的门的输出量,我称之为“激活空间”或者叫“矢量空间”。这里有一个矩阵,横轴是网络中的门,纵轴是图像。这里的矢量可以看行也可以看列,行指的是在某一个门中,它会告诉你图像对应的门到底有多少个;看列的话,对于某一个图像,它到底里面有多少个门。


从激活矢量的角度来说,我们去不断寻找激活矢量就能够反推出这个图像。如果把这个图像放到卷积神经网络中,激活矢量就会组成一个矩阵,我们称之为图像的风格。这个矩阵之所以和风格有关系,是因为它能够告诉你与它比较相近的的风格或者特点。卷积神经网络可以帮助我们实现图片的风格迁移,比如说以康奈尔大学这张图片作为原始内容,把这张中国画作为风格信息,这两者相组合就能够出来不同的风格效果。


另外一点非常有意思的是,基于我们现有的设备,进行深度神经网络训练通常需要几周时间。问题就在于这些网络是否必须经过训练才能够做出不同风格的照片,还是用随机权重去重新制作照片也能达到同样的效果。我们需要研究的是如何又快又好地对网络结构进行表现评估,加速我们网络训练的时间。


我还想给大家留下一些非常值得研究的问题。每一个门能够学到什么东西?随着时间的流失,这些门是如何学习的?如果我将一个网络训练两次,最开始用随意权重进行训练,网络和门学习到的最终结果是否一样?其中一点,当你在训练一个网络时,你肯定有很多训练数据,其中可能会有很多本地小的数值,错误率非常相近。我们的问题在于,哪一个训练的网络能够有更强的规划能力?也就是说,同样的测试数据,哪个结果会更好。从统计学角度来说,训练数据实际上是从一个大的数据集当中选出来的,所以这个全数据集的错误率不应该和选取一部分的数据集的错误率有太大的差别。但是其实我们发现其实在某些地方,在使用不同权重之后,使用训练数据和全数据的错误率差别还是非常大的。深度神经网络的损失函数有很多局部极小值点,有些极小值比其他的好。如何保证我们在训练的过程中能够找到一个好的局部极值点?这是很值得研究的方向。


还是回到语言学习,有实验表明,同时学习两门语言会使得其中一门语言更加熟练。因此如果有两项任务,我们是应该分开学还是应该一起学?如果我们一前一后学习两项任务,这两项任务是否在不同的激活区域?对于孩子而言,如果让他们在很小的年纪就学两种语言,这两种语言共享大脑同一块激活空间。但如果他们成人以后再学一种语言,这两种语言就是放在大脑不同的位置。


一个当前比较火的例子就是生成式对抗网络,这两个网络就属于一前一后学习的情况。我们以语言翻译为例,首先我们会先列举一些英语单句,并找出一些与之对应的德语词汇。其次我们要生成一个判别器,用于判定放入的德语词汇到底能够组成一句完整的句子,或者仅仅只是单词的集合。在反复训练和测试中,这个判别器最终也难以分辨出某句话是机器生成还是自然语言,这能够帮助我们实现相当不错的翻译效果。


大量的数据赋予我们训练网络的能力基础,最近深度神经网络很火,但是深度神经网络很容易被欺骗。

上图所示有两只人眼看来几乎没有区别的猫,左边的猫能够被正确识别出来,但右边的却被错误识别为汽车,原因就是右边的图改动了几个像素,导致了深度神经网络的识别错误。因此尽管深度神经网络可以在某些特定的任务特定的数据集上达到甚至超过人的水平,但是它并不是真正的人工智能,距离人的智能还有很长的路要走。


经常会有人问我:“人工智能实现了吗?”在目前的发展阶段,我觉得人工智能实际上就是高维空间的模式识别,以图像识别为例,人工智能无法做到抽象物体的功能或其他属性。


想要学习演讲全文,请戳下方视频观看:

https://v.qq.com/x/page/j0502dm40po.html







 

Source: 微软亚洲研究院 | 24 Nov 2017 | 11:18 pm(NZT)

张益肇:AI 医疗,微软有哪些布局?

编者按:近几年来,医疗和人工智能碰撞出了相当多的火花,大量资金短期投入到医疗领域当中。然而在微软亚洲研究院副院长张益肇博士看来,人工智能医疗是一场持久战,大家一定要沉下心多调研、多思考、多学习。


人工智能大潮之下,微软在医疗领域又有哪些布局?近日,张益肇博士接受雷锋网AI掘金志的专访,解读了“AI 医疗”可能带来的巨大变革。本文授权转载自公众号“AI掘金志”。


“作为一个研究人工智能二十多年,同时在医学影像处理方向耕耘八年的过来人。我认为现阶段医疗人工智存在的一大挑战是,从业者们既没捋顺流程,也没想清模式。单纯觉得我有AI技术,有几家合作医院,就能大干一场。现在风口的确很火,很多基金也愿意投钱。但医疗与其他行业不同,它是一个文火慢炖的过程,不见得那么容易。”


在微软亚洲研究院副院长张益肇博士接受专访的一个多小时里,他不断在强调人工智能在医疗领域的长期价值,但也有存在一些短期的担忧。以下是雷锋网AI掘金志与张益肇博士的访谈内容:


您怎么看待今年医学影像 AI大热的现象?


当然是好事。我经常谈一个观点,人类如果想要健健康康活到100岁,技术将扮演着非常重要的角色。近几年我也看到不少计算机界精英投入大量人力财力到医疗领域,如此大规模的医工交叉大潮非常激动人心。


这里我也不得不提醒大家,在医疗领域,无论是创业者也好,投资人也罢,必须要有愿意长期投入和投资的心态,切勿焦躁,保持平常心。


我个人研究人工智能二十几年,其中八年时间在专攻医疗,我不觉得这个领域很容易出成果。


医学技术的落地,不仅要千辛万苦找对场景,还要说服政策制定者、监管部门、医院采购者、科室主任、临床医生、病人等无数当事人证明技术的有效性、安全性和可行性。最后,你还要明白你的产品谁来买单。


现阶段行业存在的一个挑战在于,很多时候,大家这三大关都没有想清楚。单纯觉得我有AI技术,找到一些合作对象,就能大干一场了。


现在医疗 AI的确很火,很多创投也愿意投这个钱。但从长久来看,不见得那么容易,也没那么快,大家一定要沉下心多调研、多思考、多学习。


美国很多新药研发公司可以获得大量的融资,有些甚至不盈利也能够上市。大家期待它所研发的新药品最终能通过FDA,并且在药效达到预期后,公司市值能够上涨5倍、10倍甚至更多。当然,面临一文不值的风险也非常巨大。


大家在投资时明知道风险很大,明知短时间内账面并不可观,但仍旧愿意投资、愿意长期等待,因为他们能够真正理解风险。国内医疗人工智能大潮中,我最担心的是国内医疗人工智能创业者和投资者并没有真正理解风险,就开始投入大量资源在其中,这很可怕。


微软目前在医疗AI方向有哪些研究?


微软其实在医疗领域投入很多,在世界各地的研究院里有不少同事在做相关方面的工作。


医学影像处理这块,微软亚洲研究院和微软剑桥研究院都有在做。不过微软亚洲研究院聚焦在病理切片,英国剑桥研究院专攻CT。我们微软亚洲研究院近几年开始钻研脑肿瘤病理切片的识别和判断,通过细胞的形态、大小、结构等,去辅助分析和判断病人所处的癌症阶段。近两年在该领域我们基于“神经网络+深度学习”的模式取得了两大突破:


首先,实现了对大尺寸病理切片的图片处理。通常图片的尺寸为224*224像素,但脑肿瘤病理切片的尺寸却达到了20万*20万、甚至40万*40万像素。对于大尺寸病理切片影像的识别系统,我们没有沿用业内常用的数字医学图像数据库,反而在ImageNet的基础之上利用尽可能多的图片,通过自己搭建的神经网络和深度学习算法不断进行大量训练而成,最终实现了对大尺寸病理切片的图片处理。


对大尺寸病理切片图片通过神经网络与深度学习算法进行处理的流程


其次,在解决了细胞层面的图像识别之后,又实现了对病变腺体的识别。对病变腺体的识别,主要是基于医学角度三个可以衡量癌细胞扩散程度和预后能力的指标:细胞的分化能力,腺体的状况和有丝分裂水平。我们针对这三个角度,通过多渠道(Multi-Channel)的数据采集和分析,希望在未来帮助医生实现对病人术后、康复水平乃至复发的可能性做出预估和判断。


腺体图像经过计算机处理后被抽象成不同的结构,以便于计算机进一步识别与判断


不同种类的恶性肿瘤切片经过算法处理后进行分类


该研究结果也可以扩展至其他疾病的二维医学影像的识别和判断,例如我们正在研究的肠癌等。此外,我们还在研究肝肿瘤患者的CT三维影像。


除了医学图像外,我们在医学文献的处理和理解上也有所研究。全球平均每年有将近50多万篇医学研究文献发表,这种情况下,医生在查询所需文献时,不可能覆盖到位。我们微软亚洲研究院具体是如何解决这一问题的呢?比如医生在寻找遗传基因的研究与哪几篇文章相关,我们会通过算法自动对相关文献进行关联。另外也在做不少与医学相关的自然语言处理,比如不同病人想要问相关的医疗问题,可能有很多不同的方法来表达。而在话语里又有像阿莫西林等药物在不同医院里有几十种、上百种叫法。


我们的工作就是用AI技术让这些话语和词汇的不同表达,转换为机器可以理解的统一信号。最终以AI系统的形态解答各种医学问题。


团队研究医学影像处理这8年间,相比于过去有哪些大的进步?


深度学习算是一个比较大的跨越,坦白讲,2013、2014年前后,深度学习开始被应用到医学影像分析当中。按照传统方式,很多医学影像分析题目要做特征提取,这个特征甚至可能是细胞,过程较为复杂。而深度学习可以自己学习并提取特征,节省了很多设计特征的时间。


其次就是迁移学习,我们在ImageNet上训练出一个深度学习模型,以它作为基础做医学影像分析,虽然ImageNet上的图像为自然图片,但从中训练出来的特征提取能力,对医学影像也相当有用。


这个过程中您发现了哪些新的思路,并走过哪些弯路?


2012年我们团队开始用弱监督学习来更好地使用数据,这是一个对我们意义很大的方向。


大家也都知道医生的时间非常宝贵,如果你没办法尽量节省他们的精力与时间,相比而言,你获得数据的能力会更弱。用更优秀的算法去填部分数据的坑,这是一个很好的思路,而不是单纯想着从医院拿更多数据。


弱监督学习在医学影像中的应用会是一个好的开始,也是一个值得长期投入的方向。


找到好的场景,再找到好的数据库,其实比大家想的要耗时。很多时候,找到一个优质数据库外,还要找到一个既懂技术,又能帮忙做标注的医生。


对于我们走过的弯路,更多是认知和思维上的弯路吧:过早觉得我们已较好地解决了医学问题。


包括我们在内的很多公司用Kaggel数据做基础训练,但这种研究仅是长期研究的起步,而且这个起步往往并不见得特别有用,所以大家应理性看待从Kaggle中训练出的结果。在医疗 AI方向,大家不要迷信短时间内得到的数字结果,一定要做好长期投入的准备。


语音识别从1960年代就开始萌芽,直到1970也还是所谓的非连续性语音识别,离绝大部分使用场景很远。尽管语音识别在今天已经解决得很好,但在复杂环境和语境下的识别率仍旧不是特别理想。人工智能在医学中的应用亦是如此。


像您刚提到的深度学习和迁移学习让医疗人工智能大跨步发展,但这两者的不可解释性使得很多医学问题无法询证,这个难题目前微软亚洲研究院有没有一个标准对其进行参考?


深度学习的可解释性确实是一个很热的题目。算法可解释性通常可以用看边界和颜色特征来判断正负,偏统计学方法,但也很难说出具体原因。


其实很多医学任务也是靠统计来做。之前有医生提到说,假如一个肿瘤小于5厘米和大于5厘米该各应怎么判断。大家提到“5厘米”这个单位也凭经验去描述,为什么是5,而不是5.1或4.9。


我的意思是,医学本身很多判断是依照经验来做,这些经验里,也存在一些无法解释的因素,因此不能完全否定“不可解释性”。


很多AI功能尤其像靠深度学习训练出来的系统,除了给你一个明确的判断外,还会生成百分比形式的“程度值”做参考,这个程度值体现机器对判断的“自信”与否。现阶段我们希望只做辅助医生的工具,最后的结论还是需要医生自己判断。


任何系统都多多少少会产生一定的误差和偏差,哪怕简单的血压仪也可能存在偏差,所以最终还需让医生把所有信号整合起来判断机器给出的结果是否合理。


也确实因为深度学习存在的弊病,最近Hinton提出要“抛弃”反向传播,您怎么看待这件事的?


反向传播也有几十年的历史了,这期间陆续有人提出不同的想法、不同的算法。人的学习能力很强,无需很多数据,往往通过一两个样本就能学习、分类,但现在机器没有办法靠少量不同样本进行驱动。所以人工智能在算法层面可提升的空间很大,所以要有新的学习方法来做,尤其像可供使用数据量较小的医疗领域。


相比于医学影像处理,语音电子病历录入服务各方面的条件更为成熟,Nuance和讯飞都已在医院落地,微软亚洲研究院目前有没有切入这个方向?


推出这类产品,需要做的事情就比较专比较细了。我加入微软之前在Nuance Communications做语音识别,你提到的语音电子病历录入是Nuance的主要业务之一。


但国内很多人可能有所不知,Nuance的业务里,语音转录系统只是一方面,另一方面Nuance还需雇人把机器转好的文字,进行人工整理。所以Nuance提供的是一整套服务,而非单一的语音识别这一环节的产品。与此同时,Nuance针对不同场景、不同科室做不同的产品优化和服务。所以如果做这类产品,研究之外的任务和工作相对来说会比较多。


您此前一直研究语音,是什么原因致使您开始做跨度很大的医学影像?


从研究角度讲,无论是语音还是影像,两者之间有很多相通点,都是基于机器学习作为发动机,数据作为汽油来建模、判断。


当然了,医学影像也确实有很多专业知识需要学习,更具挑战性,同时也更有意思。因为你需要跟很多不同领域的人一起学习,这个过程非常有意思。


另一方面,那时候我母亲得了癌症,我当时心想医学如果借助计算机技术一定会找到更多新的方法和新的应用场景。作为普通民众,我觉得这对身边人,对社会非常有意义。作为研究人员,这个研究方向会非常有前景。


微软亚洲研究院的医学影像数据来自哪些地方?与哪些机构有合作?


主要还是来自于公开数据集,首先这类公开数据标注经过很多人审核。其次,你要发表结果的话,同一类数据集上大家才有可比性。


在某些特定领域,我们与浙江大学前副校长来茂德团队合作探索病理切片分析,来校长在大肠癌方向有着很多积淀。大肠之外也有研究肺癌等国内常见的几个方向。除此之外,生活习惯和饮食健康也所有探究。


微软亚洲研究院在布局常见的方向之外,还在探索哪些挑战性特别大的方向?


我们现在做病理切片的一大原因,就是因为病理切片分析极具挑战性。


首先病理切片单个数据很大,一张图最大可达40万×40万像素,面对这么大的数据该怎么分析?要怎么才能把这个系统应用得很好?这是很有趣的问题。如此大的图像,单是传输就已是一项很大的挑战,在此基础上还进行分析,计算量会非常巨大。好在微软亚洲研究院也有很多同事是系统方面的专家,研究高速运算,基于此,我们可以通过整合研究院不同团队的专长来做这件事。


这个过程当中微软亚洲研究院各个技术部门之间如何打配合?


各部门之间的合作其实蛮多。2015年我们视觉计算组发明的ResNet大家都很熟悉了,它就是一个特别好的图像特征提取方法,有了它之后,我们就在考虑如何用ResNet提取医学影像特征。微软亚洲研究院已经在做一些通过看一张图然后对它进行标注的技术,当机器可以给一张图自动标注的话,这就表明机器在一定程度上理解这张图,不仅知道里面有哪些物体,同时也知道里面物体及场景之间的关系。这属于更高层次的理解。


回到肺结节上,通常情况我们只是去判断某块小区域是不是肺结节。其实有时候通过分析肺本身以及人体的构造,也可以得出其他有用信息,而这些肺结节之外的信息,往往对诊断起到非常重要的作用。


目前大部分系统并没有有效利用到这些“其他”信息,但影像科医生与机器不同,他们在读片时,肯定会对这些信息有宏观的认知。所以我也经常在讲,人工看一张图片时,他不会只看一小部分,而是会形成一个整体的认知去判断。


所以,无论是一张普通海景照片中船和海的关系,还是医学影像中肺结节和其他组织信息的关联度,很多方面是相通的。我们希望把对常规图像的认知和理解,迁移到医学影像中,这是一项非常重要的工作。


如果还要判断其他组织信息,那么在对众多非目标对象的分割上,是否有产生更多更复杂的新问题?


确实如此,我再举个例子,正常人的心脏在左边,因此做内脏分割时,会有这样的预知。但是也不排除少数人心脏长在右边的可能性,类似这种情况容易让机器产生误判和混淆,因此需要有更高层面的的知识理解。


但总体而言,现在在做的机器学习研究,无论是检测、识别还是分割也罢,很多地方都是相通的。


除了影像和语音语义之外,微软还有哪些医疗人工智能方面的研究?


我们在大数据处理上探索也非常多。


负责管理微软全球研究院的Eric Horvitz,他既是医学博士,也是哲学博士。Eric Horvitz做了很多非常有趣的研究,通过用户在互联网上的搜索词,来判断你是否有一些疾病和症状。


那么这个研究的最终形态是以一个什么样的终端功能或者服务去呈现?


我们有一项服务叫微软Health,就是用一些功能,来提供insight,这些insight一方面给用户看,一方面提供给医生参考。比如通过系统收集到很多人的血糖、血压甚至睡眠和运动量数据后,存储起来进行长期的追踪和分析。基于此,把这些信息全部整合起来后更好地帮助医生、帮助用户自身。我们也与美国匹斯堡大学医学中心UPMC合作,探讨用AI挖掘有效健康信息。


一方面我们在做很多基础研究,另外一方面,微软也希望寻找更多合作伙伴,探讨可以着陆的场景。


“长期”大概是多久?


取决于场景本身。我们与盖茨基金会的合作中,在非洲用机器来判断一个人是否有得疟疾,同时得出病症的严重程度。在国内大家谈机器与医生的对比,但非洲这些地方连医院医生都没有,相对来讲,有一个工具给病人诊断,已经是一个很大的医疗进步。这个例子,我相信在未来短期三五年之内,会有着很大的帮助,现在有些产品已经在一些相对落后的国家试用。


但在比较发展的国家,医生已经有比较成熟、习惯的工作方式,供应商的系统要进入到医院,需要想清楚整个环节才有办法帮助到医生。因为多种客观因素,会致使过渡时间更长。当然了,如果找好场景的话,最快两三年之内就可以安全着陆。


您觉得哪几个场景前景相比而言会比较明朗?


目前市场上很多企业在做诊断,其实我觉得可以往前探一步:做好分割。


一个医生在做放射性疗法之前,要先把不同放射性疗法所影响到的这些不同区域标出来,并进行分割。分割工作的人力和时间成本很高,如果现在有一个工具能够自动进行分割,再让医生去确认,需求会比较大。


当一个系统先对影像做标注,医生去看的时候已经有90%完成地很好,没做好的地方医生再去修改,最后一关由医生来把守,这种辅助工具医生也很乐意接受。


谈谈未来微软医疗人工智能的展望?


我们希望能从人一出生开始便了解你的整个健康情况,通过收集身体信息,实时分析你生活和机体哪些地方需要改进,如饮食、睡眠、运动、病痛等等。


我觉得在未来应该会演进为这种形式,每个人都有一个专门属于他的医疗人工智能健康助理。


产品形态是2C的形式吗?


这个倒不见得是2C,更多是2B2C模式,产品在面向终端用户时也要有医生的参与。像美国就有很多家庭医生,可通过家庭医生把系统推向病人。


哪些新的人工智能技术将会对医疗行业带来巨大变革?


其实“如何把不同的信息在不同层次进行整合”这一认知层面的课题,整个行业仍旧存在很多不足,现阶段单是把知识结构化就是一项很复杂的任务。如果解决了上述问题则对技术体系和行业的推动力将非常大。


我们先以机器翻译为例,大部分机器翻译还是单句单句翻,但一段段翻跟一句句翻就很不一样了,它涉及到“理解”。再以图像识别为例,机器识别出图像中有蓝色的天空和蓝色的海和帆船,但如果突然出现图像中的天空为红色,而它过去的训练集中没有对红色天空进行标注,那机器能懂得红色的天空代表是晚霞吗?


因此我们要让机器建立起一个对故事、对世界、对环境的认知能力。


这里的难点在于,它有很多很多参数的变化,你不可能让机器学习把整个世界的种种元素挨个看一遍才能理解。而是应该创建一种新的方法,把不同地方学到的知识给整合起来,从而解释出图像看起来是合理的。


医学影像的解释同样如此,医生在看MRI影像时,基于经验判断某个人是女性,但有一些地方却不像女性(如变性人等)。这时候要有更高层的知识能力、知识架构,也就是用Mental Mode去解释去理解,这会是一个很大的挑战,同时也是一个很大的机会。


当前很多像医院等传统机构对AI处于观望状态,市场还需教育。企业应该如何让各行各业的人更快了解人工智能?


为什么互联网兴起后能迅速影响到各行各业?因为那时候大家即便不懂互联网,但至少有浏览器产品供我们使用,虽然有别于可触摸的实体物品,但我们可以看到互联网产品的界面,也可在上面进行操作和交互,这才使得人们对互联网的认知建立的如此之快。


人工智能普及进度慢,一大原因就是没有一些典型的终端产品让大家直接感受。要想教育一个市场,最好的方式就是让他们去体验AI的能力。


您在微软亚洲研究院任职18年,谈谈这里留住您最大的一个原因是什么?


在这18年里,我最大感触是微软亚洲研究院为很多优秀的研究员创建了能够长期钻研细分领域课题的极佳环境。在微软亚洲研究院这样的基础研究机构里,好比在MIT、斯坦福,我们在长时间探索各式各样的有趣题目。


近两年量子计算很火,但很多人所有不知,我们研究院从十几年前便开始做量子计算了。除此之外,也有美国的同事在探索用DNA来存储信息,人体中一个DNA大概有4GB内存,你想想,一个细胞大小的体积便能存储4GB的内容,密度远高于我们用的SD卡。


像这种看得很远的方向,只有在研究院才有机会去接触,这对任何一位研究者都极具吸引力。盖茨早在26年前便建立微软研究院,并且在同期启动三大研究组:自然语言处理组、语音组、计算机视觉组。这些研究在当时来看,离落地非常遥远。但微软今天能够站在人工智能最顶端,不是因为我们体量多大,也不是我们人才够多,而在于研究院和热爱研究的这一批批人早已为此准备26年之久。


感谢你关注“微软亚洲研究院”,我们期待你的留言和投稿,共建交流平台。来稿请寄:[email protected]



 

Source: 微软亚洲研究院 | 8 Nov 2017 | 11:34 pm(NZT)


院友会 | 技术人才都适合创业么?四位微软亚洲研究

编者按:在第二届微软亚洲研究院院友年度大会的“ 投资未来” 论坛上,微软亚洲研究院的几位前任院长、副院长——创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰、硬蛋CTO李世鹏坐在一起,与院友们聊了聊当前炙手可热的人工智能创业,探讨什么人适合创业,如何拿到融资等一系列热门问题。

本文授权转载自36氪(微信公众号:wow36kr),作者石亚琼。


硬蛋CTO李世鹏、创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰

Q:什么样的人适合创业?

李开复认为计算机领域的技术人员都适合创业,但不一定适合做CEO。

创新工场观察到,当前AI创业大概有四个波浪:第一种是互联网AI创业;第二种是商业AI创业;第三种可以说是数字化的AI创业,捕捉新的数据,并使其带来价值;第四种是全面自动化的AI创业。AI创业一定要有AI人才或者技术人才。这四种AI创业其实需要的人是不一样的。

创新工场CEO李开复

​互联网AI创业,今日头条为代表,现在已经没有创业机会了,但是这类公司如果要挖人,作为就业机会很好。商业AI创业,主要服务于B端客户,这类公司的CEO往往需要成为大Sales,做这类公司可能更适合做CTO,找到合适的CEO。第三类AI创业,往往是要该表某个行业,做一个新的东西,其实并不是技术人员能干的活。全自动AI创业以无人驾驶、机器人、芯片等为代表,很适合创业,但最好是已经被验证的技术。

Q:钱在哪里?

张宏江认为,优秀的科研、技术人员想创业,钱是最不需要担心的,如果项目好、团队好、切入点好,一定找得到钱。在退休之后,张宏江加入到源码资本,出任合伙人。在源码资本,看项目完全从应用开始看起。源码过去三年的投资都是沿着场景来做的,有所谓的几纵或者几横,在AI的领域也同样。对于有好技术、好团队的,源码出手也非常快。

源码资本合伙人张宏江

​李开复表示,作为投资人,还是会更看好其中的一些创业方向,比如金融、自动驾驶等方向。金融领域还是有机会的,它是一个纯数据的行业,有充分的数据,也有很好的标注,可以立即产生价值,且这个价值就可以迭代。金融还有很多未被挖掘的机会,除了消费金融外,还有风控等场景。无人驾驶行业,做完整系统已经有点拥挤了,但是做垂直的可立刻产生数据迭代的还是有机会的,比如最近创新工场就投了一家院友创办的企业,做无人货车,环境相对可控,且能马上产生经济价值。李开复判断,如果能够找到比较快产生数据,又可以产生价值的领域,很多VC都愿意投。

不过,张宏江也提醒院友,作为一个创业者,拿投资人的钱,最重要的不只是钱,还有VC的附加的价值——提升创业成功概率。

Q:担心现在AI创业么?

赵峰表示,像海尔这样的制造业企业,引入大量的互联网、AI人才,遇到的挑战也很大。作为传统的企业经营,海尔文化是从制造业、传统的销售模式出来的。互联网企业的文化要融入还是有很大的挑战,这实际上是从企业内部来产生变化,变成了传统制造业 人工智能或者 互联网。赵峰分析,人工智能里面平台级的技术,接下来几年大公司都会开放,已经没有什么壁垒了,初创公司更好的机会是在垂直领域当中,很多垂直领域有大量的数据,大平台实际上无法直接提供这样的服务。

海尔集团CTO赵峰

Q:为了应对这种变化,投资机构做了哪些创新?

李开复表示,创新工场过去两年发生了特别大的蜕变:一是三四年前停止孵化业务,专心做VC,二是做有特色的VC,即VC AI。

在2008年和2009年,国内特别被欺负的一批人就是创业者,很多天使就占它60%、70%、80%的股份,创业者非常努力,但最后钱都到了坏天使的口袋里面,因此创新工场希望做一个好天使,帮助当时比较稚嫩的创业者,补足短板,最大化成功率,占比较小的比例。但一段时间后就变成全民天使,加上“双创”,任何一个名校、名公司背景的创业者就可以和土豪要到两三千万融资,竞争激烈。因此,创新工场的募资金额有特别大的转换,创新工场刚创立的时候孵化基金是1500万美元,前年募了接近7亿美元,接下来准备募大概12亿美元。

创新工场不但是投资机构,还成立了研究院,愿景是中国的IBM watson,在AI还没有成熟到可以做很多产品时,服务传统企业,从中提炼产品。

最后是China first。当前,国内的市场变化非常快,今天中国已经成为全世界最大的市场,虽然中国的移动互联网人口只是美国的3倍,但手机移动支付是美国的60倍;共享单车是美国的500倍。这意味着中国在以比美国快50倍到200倍、300倍的速度生产数据,这些数据转化成为价值特别巨大。在一些之前没有做的很好的方向,有弯道超车的机会,今天的中国医疗、医院、教育都还有一些不能让人满意的地方。

创新工场对中国未来的创业非常看好,尤其是几个方向。其中一个词叫OMO(online merge offline),与O2O不同,它是指线下的消费、用户习惯都可以完全捕捉,线上线下的融合会给AI带来特别大的机会。


 

Source: 微软亚洲研究院 | 2 Nov 2017 | 3:03 am(NZT)

院友会 | 技术人才都适合创业么?四位微软亚洲研究院前院长这么说

编者按:在第二届微软亚洲研究院院友年度大会的“ 投资未来” 论坛上,微软亚洲研究院的几位前任院长、副院长——创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰、硬蛋CTO李世鹏坐在一起,与院友们聊了聊当前炙手可热的人工智能创业,探讨什么人适合创业,如何拿到融资等一系列热门问题。

本文授权转载自36氪(微信公众号:wow36kr),作者石亚琼。


硬蛋CTO李世鹏、创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰

Q:什么样的人适合创业?

李开复认为计算机领域的技术人员都适合创业,但不一定适合做CEO。

创新工场观察到,当前AI创业大概有四个波浪:第一种是互联网AI创业;第二种是商业AI创业;第三种可以说是数字化的AI创业,捕捉新的数据,并使其带来价值;第四种是全面自动化的AI创业。AI创业一定要有AI人才或者技术人才。这四种AI创业其实需要的人是不一样的。

创新工场CEO李开复

​互联网AI创业,今日头条为代表,现在已经没有创业机会了,但是这类公司如果要挖人,作为就业机会很好。商业AI创业,主要服务于B端客户,这类公司的CEO往往需要成为大Sales,做这类公司可能更适合做CTO,找到合适的CEO。第三类AI创业,往往是要该表某个行业,做一个新的东西,其实并不是技术人员能干的活。全自动AI创业以无人驾驶、机器人、芯片等为代表,很适合创业,但最好是已经被验证的技术。

Q:钱在哪里?

张宏江认为,优秀的科研、技术人员想创业,钱是最不需要担心的,如果项目好、团队好、切入点好,一定找得到钱。在退休之后,张宏江加入到源码资本,出任合伙人。在源码资本,看项目完全从应用开始看起。源码过去三年的投资都是沿着场景来做的,有所谓的几纵或者几横,在AI的领域也同样。对于有好技术、好团队的,源码出手也非常快。

源码资本合伙人张宏江

​李开复表示,作为投资人,还是会更看好其中的一些创业方向,比如金融、自动驾驶等方向。金融领域还是有机会的,它是一个纯数据的行业,有充分的数据,也有很好的标注,可以立即产生价值,且这个价值就可以迭代。金融还有很多未被挖掘的机会,除了消费金融外,还有风控等场景。无人驾驶行业,做完整系统已经有点拥挤了,但是做垂直的可立刻产生数据迭代的还是有机会的,比如最近创新工场就投了一家院友创办的企业,做无人货车,环境相对可控,且能马上产生经济价值。李开复判断,如果能够找到比较快产生数据,又可以产生价值的领域,很多VC都愿意投。

不过,张宏江也提醒院友,作为一个创业者,拿投资人的钱,最重要的不只是钱,还有VC的附加的价值——提升创业成功概率。

Q:担心现在AI创业么?

赵峰表示,像海尔这样的制造业企业,引入大量的互联网、AI人才,遇到的挑战也很大。作为传统的企业经营,海尔文化是从制造业、传统的销售模式出来的。互联网企业的文化要融入还是有很大的挑战,这实际上是从企业内部来产生变化,变成了传统制造业 人工智能或者 互联网。赵峰分析,人工智能里面平台级的技术,接下来几年大公司都会开放,已经没有什么壁垒了,初创公司更好的机会是在垂直领域当中,很多垂直领域有大量的数据,大平台实际上无法直接提供这样的服务。

海尔集团CTO赵峰

Q:为了应对这种变化,投资机构做了哪些创新?

李开复表示,创新工场过去两年发生了特别大的蜕变:一是三四年前停止孵化业务,专心做VC,二是做有特色的VC,即VC AI。

在2008年和2009年,国内特别被欺负的一批人就是创业者,很多天使就占它60%、70%、80%的股份,创业者非常努力,但最后钱都到了坏天使的口袋里面,因此创新工场希望做一个好天使,帮助当时比较稚嫩的创业者,补足短板,最大化成功率,占比较小的比例。但一段时间后就变成全民天使,加上“双创”,任何一个名校、名公司背景的创业者就可以和土豪要到两三千万融资,竞争激烈。因此,创新工场的募资金额有特别大的转换,创新工场刚创立的时候孵化基金是1500万美元,前年募了接近7亿美元,接下来准备募大概12亿美元。

创新工场不但是投资机构,还成立了研究院,愿景是中国的IBM watson,在AI还没有成熟到可以做很多产品时,服务传统企业,从中提炼产品。

最后是China first。当前,国内的市场变化非常快,今天中国已经成为全世界最大的市场,虽然中国的移动互联网人口只是美国的3倍,但手机移动支付是美国的60倍;共享单车是美国的500倍。这意味着中国在以比美国快50倍到200倍、300倍的速度生产数据,这些数据转化成为价值特别巨大。在一些之前没有做的很好的方向,有弯道超车的机会,今天的中国医疗、医院、教育都还有一些不能让人满意的地方。

创新工场对中国未来的创业非常看好,尤其是几个方向。其中一个词叫OMO(online merge offline),与O2O不同,它是指线下的消费、用户习惯都可以完全捕捉,线上线下的融合会给AI带来特别大的机会。


 

Source: 微软亚洲研究院 | 2 Nov 2017 | 2:54 am(NZT)

院友会 | 技术人才都适合创业么?四位微软亚洲研究

编者按:在第二届微软亚洲研究院院友年度大会的“ 投资未来” 论坛上,微软亚洲研究院的几位前任院长、副院长——创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰、硬蛋CTO李世鹏坐在一起,与院友们聊了聊当前炙手可热的人工智能创业,探讨什么人适合创业,如何拿到融资等一系列热门问题。

本文授权转载自36氪(微信公众号:wow36kr),作者石亚琼。


硬蛋CTO李世鹏、创新工场CEO李开复、源码资本合伙人张宏江、海尔集团CTO赵峰

Q:什么样的人适合创业?

李开复认为计算机领域的技术人员都适合创业,但不一定适合做CEO。

创新工场观察到,当前AI创业大概有四个波浪:第一种是互联网AI创业;第二种是商业AI创业;第三种可以说是数字化的AI创业,捕捉新的数据,并使其带来价值;第四种是全面自动化的AI创业。AI创业一定要有AI人才或者技术人才。这四种AI创业其实需要的人是不一样的。

创新工场CEO李开复

​互联网AI创业,今日头条为代表,现在已经没有创业机会了,但是这类公司如果要挖人,作为就业机会很好。商业AI创业,主要服务于B端客户,这类公司的CEO往往需要成为大Sales,做这类公司可能更适合做CTO,找到合适的CEO。第三类AI创业,往往是要该表某个行业,做一个新的东西,其实并不是技术人员能干的活。全自动AI创业以无人驾驶、机器人、芯片等为代表,很适合创业,但最好是已经被验证的技术。

Q:钱在哪里?

张宏江认为,优秀的科研、技术人员想创业,钱是最不需要担心的,如果项目好、团队好、切入点好,一定找得到钱。在退休之后,张宏江加入到源码资本,出任合伙人。在源码资本,看项目完全从应用开始看起。源码过去三年的投资都是沿着场景来做的,有所谓的几纵或者几横,在AI的领域也同样。对于有好技术、好团队的,源码出手也非常快。

源码资本合伙人张宏江

​李开复表示,作为投资人,还是会更看好其中的一些创业方向,比如金融、自动驾驶等方向。金融领域还是有机会的,它是一个纯数据的行业,有充分的数据,也有很好的标注,可以立即产生价值,且这个价值就可以迭代。金融还有很多未被挖掘的机会,除了消费金融外,还有风控等场景。无人驾驶行业,做完整系统已经有点拥挤了,但是做垂直的可立刻产生数据迭代的还是有机会的,比如最近创新工场就投了一家院友创办的企业,做无人货车,环境相对可控,且能马上产生经济价值。李开复判断,如果能够找到比较快产生数据,又可以产生价值的领域,很多VC都愿意投。

不过,张宏江也提醒院友,作为一个创业者,拿投资人的钱,最重要的不只是钱,还有VC的附加的价值——提升创业成功概率。

Q:担心现在AI创业么?

赵峰表示,像海尔这样的制造业企业,引入大量的互联网、AI人才,遇到的挑战也很大。作为传统的企业经营,海尔文化是从制造业、传统的销售模式出来的。互联网企业的文化要融入还是有很大的挑战,这实际上是从企业内部来产生变化,变成了传统制造业 人工智能或者 互联网。赵峰分析,人工智能里面平台级的技术,接下来几年大公司都会开放,已经没有什么壁垒了,初创公司更好的机会是在垂直领域当中,很多垂直领域有大量的数据,大平台实际上无法直接提供这样的服务。

海尔集团CTO赵峰

Q:为了应对这种变化,投资机构做了哪些创新?

李开复表示,创新工场过去两年发生了特别大的蜕变:一是三四年前停止孵化业务,专心做VC,二是做有特色的VC,即VC AI。

在2008年和2009年,国内特别被欺负的一批人就是创业者,很多天使就占它60%、70%、80%的股份,创业者非常努力,但最后钱都到了坏天使的口袋里面,因此创新工场希望做一个好天使,帮助当时比较稚嫩的创业者,补足短板,最大化成功率,占比较小的比例。但一段时间后就变成全民天使,加上“双创”,任何一个名校、名公司背景的创业者就可以和土豪要到两三千万融资,竞争激烈。因此,创新工场的募资金额有特别大的转换,创新工场刚创立的时候孵化基金是1500万美元,前年募了接近7亿美元,接下来准备募大概12亿美元。

创新工场不但是投资机构,还成立了研究院,愿景是中国的IBM watson,在AI还没有成熟到可以做很多产品时,服务传统企业,从中提炼产品。

最后是China first。当前,国内的市场变化非常快,今天中国已经成为全世界最大的市场,虽然中国的移动互联网人口只是美国的3倍,但手机移动支付是美国的60倍;共享单车是美国的500倍。这意味着中国在以比美国快50倍到200倍、300倍的速度生产数据,这些数据转化成为价值特别巨大。在一些之前没有做的很好的方向,有弯道超车的机会,今天的中国医疗、医院、教育都还有一些不能让人满意的地方。

创新工场对中国未来的创业非常看好,尤其是几个方向。其中一个词叫OMO(online merge offline),与O2O不同,它是指线下的消费、用户习惯都可以完全捕捉,线上线下的融合会给AI带来特别大的机会。


 

Source: 微软亚洲研究院 | 2 Nov 2017 | 2:44 am(NZT)

院友会 | 看脸的时代

​编者按:随着深度学习技术成熟,国内计算机视觉领域的初创公司雨后春笋般涌现。在微软亚洲研究院院友会上,微软全球执行副总裁沈向洋与5位微软亚洲研究院的院友:商汤科技联合创始人兼CEO徐立、旷视科技创始人兼CEO印奇、旷视科技首席科学家孙剑、中科视拓的董事长兼CTO山世光、依图科技业务技术副总裁吴岷坐在一起,共同探讨了计算机视觉领域的发展现状和未来的挑战。


本文授权转载自36氪(微信公众号:wow36kr),作者石亚琼。




人脸识别已经超越人类识别了么?

计算机视觉技术从提出到如今,已经有51年的历史了。深度学习算法出现,对其推动作用巨大。未来五年计算机语音有望会超过人类,但在计算机视觉领域,可能还有一段路要走。其中人脸识别领域,中国现在做得特别好,那么人脸识别是否已经全面超越人类识别?

综合几位嘉宾的观点,答案是陌生人识别技术上,可能在一定程度上超越人,但在熟人识别中,技术还有不少提升的空间。

徐立认为,陌生人识别技术上,可能在一定程度上超越人,但是人类真的认识人的过程当中,其实特别是熟悉的识别,远远不是现在技术能达到的。不过,这并不一定会影响到技术商用,每一个阶段都有那个阶段的“技术成熟”。比如,十年前人脸识别就已经在诸如海关等场景中运用,当时的准确率是53%。而随机猜的概率是50%。各个阶段有各个阶段不同的“技术成熟”,而现阶段在一些场景中人脸识别已经可以应用。

商汤科技联合创始人兼CEO徐立

​印奇认为,AI领域,小到人脸识别,在接下来的商业路径里面,都会跟场景紧密结合。将人脸整套系统、软硬件一起来看,已经有很多创业团队开始落地,在这些场景中,局部是可以与人进行比较的,而在未来两三年,在一些刚需场景下,是有机会做的非常好的。

山世光也表达了类似的观点。陌生人识别领域,特别是这个人相对比较配合的情况下,机器的能力肯定是超越人了,但在熟人场景下,就很难达到这样的水平。据说,此前有人表示,让家里的机器人识别家里5个人也很难做到100%识别。因此,人脸识别可能还有很多需要去做的地方,但在特定应用场景下面识别已经做得很好了。

中科视拓的董事长兼CTO山世光

​其实,在熟人识别的领域,人眼识别也不一定做的好。 吴岷就曾遇到这样的案例,在一个警察客户那里,一个小伙子在系统里搜寻了下女朋友的近照,为了保密,系统不显示身份证和名字,只显示人脸,结果屏幕上出现了12张脸,其中人脸的照片还是10年前或者20年前的身份证照片,最后帮他解围,在系统中把名字显示出来,看到排名第一的就是他女朋友。

依图科技业务技术副总裁吴岷

​而基于现在的技术,也有一些新的需求逐渐显现。比如,警察客户就向依图提过需求,能不能识别尸体照片;也有其他客户向中科视拓提过类似的要求,当时人脸识别还纠正了部分基因检测的错误。在这些新的场景中,人脸识别就远谈不上人眼识别。


人脸识别云、端与应用

当然,人脸识别主要有三个落地的方向:云端平台、终端、垂直场景应用。那么从什么方向、什么切入点切入去创业更有机会呢?

其实,几家知名的公司目前基本都是在围绕垂直场景做服务、做应用,尤其是在安防、金融领域。这很可能也是几家公司的主要收入来源。

旷视科技从2011年开始创业,经过六年的发展,印奇认为目前值得专注的行业有2.5个,分别是金融行业、安防行业、手机应用(0.5)。金融行业整个业务都是线上化的,已经完成了信息化、联网化,这一领域无论是人脸识别,还是智能风控,都是以云为主。安防行业,基本上以线下摄像头连接和智能化为核心,这是非常线下的生意。另外0.5个行业则是与手机相关的,包括APP、AR应用,之前这个行业是叫好不叫座,因为竞争激烈,目前都不怎么赚钱,iPhone X出来之后,教育了市场,也许有机会在每一个垂直行业里面做精准。不管哪一方面,AI公司能够形成壁垒,一定要触及数据,云不是一个简单API对外的服务,一定需要是SaaS,是完全数据闭环的服务。

旷视科技创始人兼CEO印奇

​在垂直场景中,尤其是安防场景中,云加端成为一个较为普遍的模式。徐立认为云加端的模式是未来AI技术企业发展的最好模式。 以安防为例,当前全球安防摄像头约两亿五千万支,预计2020年仅中国所有的室内外摄像头就有可能达到10亿支,如果按现在的模式,每个人都要盯住一个摄像头,所以完全集中化可能性不高,需要在端上面一定的布局和真的前置化的一些运算。

依图目前的模式也是既有云又有端,做垂直场景应用落地。在金融方向, 依图的SaaS服务,对接了Azure等云服务,接入了200多家互联网金融远程合成业务。在安防领域,也做了警务通等应用,帮助客户解决真正的问题。

人脸识别的感知问题

人工智能做到最后往往都是感知和认知。很多感知和认知都是和人脸连在一起的。人脸比较特别的一点是,通过人脸就可以看出你的情绪,是不是生气,是不是沮丧,是不是开心。

山世光认为,人脸识别的前端是感知,后端是认知。但是从目前来看,计算机视觉方向,能做的还多是感知。表情识别很难比人做得好,现在也暂时没有做得比人好的,主要原因是因为标注专业人员不太够,造成标注数据不够。通过其他的方法,也可以感知到人内心的情绪。比如,利用高速相机捕捉到一些人眼不能够感知到的微妙变化,然后进行解析。

孙剑也在思考类似的问题:为什么感知到现在做不好,到底是因为没有数据,还是其他原因?在他看来,下一步机器人要和人交互,一定要解决这个问题,这是值得投入精力去研究的问题。

旷视科技首席科学家孙剑

​不过,作为CEO,印奇和徐立,就没有那么担忧这个问题了。印奇认为,即使是这类非常难的问题,也有可能用非常工程化的方法解决,不一定要用最难的技术,反而可以用性价比更高的方案来解决。徐立的观点与之类似,认为必须根据实际的需求定义问题,同时要解决问题,超越工业应用的红线。


 

Source: 微软亚洲研究院 | 2 Nov 2017 | 2:36 am(NZT)

华为Mate 10牵手Microsoft Translator,让离线翻译可媲美在线神经网

​编者按:日前,华为新发布的Mate 10手机系列采用Microsoft Translator技术实现了AI驱动型离线翻译功能。华为Mate 10是首款具有NPU(专用神经处理单元)的手机,可用于加速AI的计算任务。它独有的硬件加速能力,结合Microsoft Translator在神经网络离线文本翻译方面的技术成果,为用户提供了业界独一无二的离线语言体验:无需互联网连接即可实现神经网络翻译功能。


华为携手Microsoft Translator,借助AI的力量突破了语言屏障,将离线文本和图片翻译的功能体验提升到了可与在线产品相媲美的水平。


华为携手Microsoft Translator,对于华为Mate 10的用户意味着什么?


不妨设想一下,旅途中的你如何借助Microsoft Translator应用来问路或看懂餐厅菜单呢?你可以依靠手机上的漫游功能进行在线翻译,但需要支付一定的流量费用;或者你可以提前下载脱机数据包,但翻译的结果可能无法与在线神经网络翻译相比拟。



微软为华为Mate 10定制的Microsoft Translator则提供了兼具在线神经网络与离线翻译优势的解决方案:借助可在NPU上运行的AI驱动型神经网络技术,华为Mate 10可实现速度更快、质量更高的离线文本和图片翻译。值得一提的是,华为Mate 10上的离线语言包的大小仅为目前Microsoft Translator数据包的一半,节省出的空间可以存放更为重要的旅行照片和视频。


利用神经网络的AI驱动型离线翻译

无论对于移动应用还是作为微软认知服务组件的Translator API,微软都使用行业标准BLEU评分来衡量其翻译质量。BLEU评价翻译质量的方式是对机器翻译与人工翻译之间的差距进行比较。通过这种方法进行的内部测试表明,微软为华为Mate 10定制的Translator的翻译质量比此前质量最高的离线数据包还要高出23%,且在线、离线神经翻译之间的差异通常小于1个BLEU点。


全功能应用:满足各项移动翻译需求

微软提供的华为Mate 10定制版Translator应用具备Microsoft Translator的所有功能,其中包括60多种文本翻译语言,以及允许多达100人通过各自设备进行在线实时对话(包括使用Presentation Translator PowerPoint插件的演讲实时翻译字幕功能)等。


Mate 10独有的全新神经翻译语言包可用于以下语言:阿拉伯语、汉语、英语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和泰语。除此之外,还提供了其它一些使用基于神经网络和统计机器翻译混合模型的语言包。


感谢你关注“微软亚洲研究院”,我们期待你的留言和投稿,共建交流平台。来稿请寄:[email protected]


 

Source: 微软亚洲研究院 | 24 Oct 2017 | 2:17 am(NZT)











© 澳纽网 Ausnz.net