微软亚洲研究院中文语言项目:梦想开始的地方

微软对联与微软字谜是微软亚洲研究院针对中国语言文化传承需求推出的本土语言应用技术应用。对联和字谜等文字游戏,是中国语言文字形、意、达境界的集中体现,有相当中文功底的人,想做到熟练表达也属不易,但是微软亚洲研究院研发的语言应用已经能够基本满足这种需求。这些本土语言技术是未来人机自然语言对话应用的基础,本地化研发更是意义非凡。

研究员们创新的想法在微软亚洲研究院这样的极客创新思维机构中孕育、萌芽。微软的创新机制通过这些创新思维孵化器将新科技研发上线的过程,便是微软亚洲研究院存在的重要意义。

过年回家贴春联 智能佳联前景好

凤凰台上凤凰游(上联),蝴蝶泉边蝴蝶梦(下联),麟趾呈祥(横批)。面对这样一幅对联,有没有感觉很诗意、很有感。对,你没有看错,上联确实是出自李白名句“凤凰台上凤凰游,凤去台空江自流”,但下联却来自微软对联系统。

贴对联是中华民族数千年来过春节不可缺少的传统习俗,在我们的祖辈时期,一个会作对联的人可以称得上有文采的能人,亲人们也会乐于贴上自己作的对联,对联的创作水平也是人们津津乐道的话题。所以一副好的对联,对于增加春节的欢乐气氛十分有必要。

每逢春节,每家的长辈们都会将一年的感恩以及对来年的美好期望,甚至感悟写进对联中,上下联的对仗及含义便成为需要反复考究的内容。每每面对这样的难题,笔者才深深懊悔自己没有较好的文学功底。

时下出现的微软对联这种意趣类App正是瞄准这一需求被开发完成,微软对联系统第二版在2008年春节之前10天上线,虽然微软未对这款系统进行任何商业宣传,但从上线当日“微软对联”即获得独立访问5万人次、每日页面浏览量50万的好成绩,可谓小应用有大市场。

微软亚洲研究院首席研究员周明博士这样评述微软对联这个应用:“微软对联这个项目,与前任院长、现在的微软全球执行副总裁沈向洋博士大有渊源。2004年年底,他说微软要立足中国,中国文化我们应该好好把握。坦率来讲,那时候人手不够,我就带着两个学生完成了这个对联项目。当时我们可能是整个研究院第一个敢在网上把自己的创新‘晒’出来的人,受到了各方好评,说微软很懂中国文化。”

这样的讲述看似平静,但其中包含的技术元素却值得一道。软件不仅涉及到自然语言处理、网络挖掘,还需要网络服务、界面设计等方面的共同协作。

在设计之初,研究员需设计一个模型,将对联的生成过程看作是一个翻译过程。给定一个上联,根据字的对应和词的对应,生成很多候选字和候选词,得到一个从左到右相互关联的词图,然后根据一个动态规划算法,求一个最好的下联。一个好的下联需要考究与上联的对应程度,生成对联的语言模型,之后软件还需要支持人机交互。

在完成基本的模型建设后,研究团队会进一步加强相关大数据的挖掘工作。加之通过语义距离计算得出与已有上、下联最佳匹配的横批。这样,完整的一副对联就被设计出来了。

下面的这几幅对联便是微软对联神器之作。

看完这些后,对联起码的对仗、押韵、字词对叠元素已经具备,如果用户有进一步的想法,稍加修整,即可成文。微软对联技术的研发人员还有计划制作更多针对中国传统文化的智能系统。

注:CHIP认为文章开头的下联还是改成“蝴蝶泉边蝴蝶留”为好,这样就有很好的韵脚。

而微软亚洲研究院的开发人员周明博士则认为,微软对联给出的“蝴蝶泉边蝴蝶梦”能够更好地保证对联上下联尾字的“平仄”,且“蝴蝶梦”有庄子梦蝶之典故含义。

人工智能新应用 机器也能猜字谜

小时候逛庙会,最愿意去的地方便是家乡城隍庙高高的吊塔上,因为那里总是堆满各种老人用布做的小动物,有老虎、兔子等。小孩子们由大人抱起来去摘竹篓里面的小布包,布包里面放了数量不等的小字谜,猜中5个字谜可以得到老虎,猜中3个字谜是蛇,猜中2个字谜是兔子,没有猜中的话只能看着别的小朋友玩布偶。回想起儿时的玩趣,我多想说,“微软字谜”为什么不早点开发。

别把字谜当做小孩子的益智游戏,即使成年人面对新鲜的字谜,不经过相当的头脑运动,怕也得不出答案。因为字谜中包含的不仅是猜谜人对汉字字形、字义的熟悉程度,而且要求猜谜人对文化典故、神话传说有所了解,这其中的文化内涵可谓博大。

作为中国文化独有部分的字谜,是以一个或几个汉字为谜底的谜语。这种谜语的编写或是利用了汉字的造字规律,或是利用了汉字形、音、义等某一方面的特点,既有趣味,又有知识内涵。根据谜面的不同,字谜可分为:字形谜、字义谜、典故谜等多个类别。由于中国字义谜和典故谜的构成更为复杂,所以微软亚洲研究院推出的计算机自动猜字谜系统主要针对的是字形谜,即谜面是根据谜底(一个字)的字形而设计。

例如:谜面:玉玺雄心在,谜底:你。在这个过程中,系统并不直接给出一个谜底。而是当用户输入谜面后,系统自动分析谜面,给出多个谜底供用户选择。这是有趣的,至少让用户有了参与猜谜的快感,程序通过分析,通过推演得到满足条件的汉字答案,但最终决策权在于用户。试想,与系统直接给出答案相比,这样最终的功劳是用户的,这在无形中增加了用户的自豪感。所以微软字谜软件的设计之妙就在于不喧兵夺主。

另外,该系统还可以为用户自动生成谜面。当用户输入谜底(单个字)后,系统可自动生成若干谜面供用户选择。譬如可以给出一个成语或者一个人的名字,系统就会对每一个字生成一个谜面。这就让玩家间有了互动,所谓乐趣分享出去才能加倍,这个过程进一步提升了微软字谜软件的用户群渗透程度。

据了解,这款字谜系统由微软亚洲研究院自然语言计算组开发,耗时4个月。同微软对联系统一样,微软字谜研究人员首先需要进行大量的数据挖掘工作,并从收集到的大量字谜中挑选出字形谜,而后建模,用统计机器学习的方法对模型进行训练,得到一个能将各类自然语言描述转化为特定偏旁部首的优化模型。最后,将得出的各类偏旁部首映射到有可能的字,即谜底。在这款字谜系统的页面中,我们不仅在输入字形谜的谜面后可以看到最佳答案,而且还可以看到推理的过程。

字谜、对联这类知识意趣App的研发上线,虽然不像功能型应用的受众广泛,但却也作为新想法的实践,逐步渗透入用户的生活习惯中,企业也可以此为契机更好地建立自主应用产品的生态圈。微软在线部门利用这个技术,创造性地得到了一个广告系统的创意。给出一个含有广告关键词的谜面,用户如果猜出来,则可以得到一定的奖励积分。广告点击率获得成倍的提升。

穹顶之下看小鱼 空气质量实时测

看起来新颖的应用,背后有着强大的技术支持平台。例如小鱼天气,它是今年2月份诞生于微软车库的,微软车库就是一个微软内部员工的业余项目孵化实验室,任何微软员工,不管来自哪里、哪种岗位、什么层级,都可以加入这个创新大本营,微软中国云计算与企业事业部的许建志和廖勤樱就是在这里创建了小鱼天气的。 它是一款基于Windows Phone和Android系统开发的中文应用,提供关于中国城市的个性化空气质量和气象报告。

在众多天气预报应用中,小鱼天气看起来并没有什么特别,同样是帮助用户获得天气、空气污染等实时信息。但是这些信息是针对整个城市或者区域的,而你是否想知道所处的街区或小区的空气质量呢?

M6i;yky学习能力,驱动着小鱼天气内的空气质量地图(可精细到 1 km2)和未来 24h空气质量预测功能。同时借助微软亚洲研究院的城市计算研究,利用已有空气质量监测站点实时和历史观测数据、气象条件数据(刮风、下雨、风速、气压、湿度等)、区域建筑分布图等信息来建立一个地方的数据分布以及这个地方空气质量观测值的网络模型,最后得到用户精准定位处的空气情况,以此来使小鱼天气可以在多个城市实时更新。

同时,小鱼天气界面的设计采用古典水墨风,动画效果动态呈现古意原风,这一点上可以看出微软云计算与企业事业部开发团队对中国市场消费者的重视。应用支持WP8.1最新透明动态磁贴、锁屏功能与Cortana语音助理,用户不必打开应用就能方便获取所需的天气信息。此外,小鱼天气研发团队根据2万名测试用户的意见推出根据每日天气,推送精选唐诗宋词的小功能,更显人文气质。

云计算、大数据等技术的应用,让高精度环境模型重建的技术难关得以被攻克,如今在3个月内进行了17次更新的小鱼天气已经正式上线。作为小鱼天气项目的两位联合创始人之一,许建志说:“这个项目最主要的挑战在于,它与传统工程开发过程完全不同,我们需要非常敏捷,每天跟踪反馈,并且快速响应。微软车库在这中间起到了关键的作用,它为我们提供了很多有用的帮助。例如,微软车库给我们提供了一个基于OneNote 办公软件的协作清单,列出了我们需要通过的所有内部流程。”

在Windows Phone和Android版本之后小鱼天气还将发布iOS 以及 Windows 版本,让更多平台上的用户能够体验到这款应用。

大数据+本土文化分析 人机智能互动或可实现

从微软亚洲研究院自然语言计算组研发的微软对联、微软字谜应用上线后的情况看,效果良好,窄应用、窄受众的试验成绩不错。这得益于独具匠心的选题、切实可行的技术路线和高效的研发体系。在技术上,利用大规模的数据挖掘技术获得训练数据,然后基于机器学习和深度学习对联模型和猜字谜的模型。在此基础上,研究和产品开发无缝对接,研究成果快速上线。不管这些智能系统的背后技术如何,追求卓越的贴近底气的用户体验成为此类应用运行的首要考虑因素。

时下,大批量的人机对话应用层出不穷,但叫好不叫座,还没有用户体验完美的产品出现。究其原因,或者是选题过于高大上,不是用户的重要需求,或者是背后的大数据支持、机器学习技术以及云计算能力的短板所致,或者用户的体验不够好。微软对自然语言长期地深入研究,摸索出一系列巧妙的应用,有效地寻找到了解决智能应用瓶颈的入口,完成了人机智能互动的无差异对接。其美好前景,令人期待。

推荐访问:微软 亚洲 中文 研究院 语言