王一攻坚智能对话语义识别模块 打造懂用户的「AI灵魂伴侣」
「你和朋友来到现场,这里即将举行一场拍卖会,你要参加吗?」
「参加参加。」
「好的。现在你进入了拍卖会现场。咦!这个拍卖品好像有点奇怪,我们要参与竞拍吗?」
……
夜晚闲暇时分,「95后」小李打开晓悟互动小说App,点开一部冒险小说,手机屏幕时不时弹出对话框,她以语音回覆,剧情也随着她的回答发展变化,让她沉浸其中。这是一款由深圳市人马互动科技有限公司开发的智能语音对话互动小说,已成为时下年轻人喜爱的新阅读潮流。
作为一家专注于智能对话操作系统研发的国家高新技术企业,人马互动科技旗下品牌齐悟已经形成了包括晓悟在内的一系列产品矩阵,产品主要聚焦智能车载、智能家居和智能终端等领域。2017年从美国归国,落地深圳创业,王一的创业历程伴随着中国人工智能领域的突飞猛进发展。不断更新的应用场景,让人马互动一直站在市场的前沿。2023年12月,齐悟AI上榜中国最具商业潜力榜TOP20。王一告诉香港文汇报记者,下一步的计划是出海寻找更大的市场。他表示,现时人工智能技术国际上发展较快,希望以企业的底层核心技术和最前沿的技术融合,并且可以有「资本化上市的机会」。◆香港文汇报记者 李望贤 深圳报道
2015年,留学美国的王一研发全球首款声控格斗游戏,开始投身人工智能赛道。在被称为「人工智能元年」的2016年,一批AI公司陆续崛起,互联网巨头也纷纷开始布局人工智能。
王一在游戏技术论坛搜帖子时,留意到一个叫胡上峰的人发帖称,寻找语音互动游戏的技术研发人员合伙创业。王一感兴趣地与对方联系,两人聊得十分投机,对智能语音技术前景有同样的积极判断。「他所从事的语义识别技术和我擅长的语音识别技术融合在一起,就把智能语音交互产业链条打通了。」王一回忆道。当时,中国「大众创业万众创新」的浪潮兴起,两人决定回国创业。2017年,王一回到深圳,开始带着语义识别技术项目的商业计划书面见投资人,很快获得第一轮天使投资,开始在智能语音交互赛道上跑了起来。胡上峰也回国出任公司CTO。
赋能物联网设备 可智能人机对话
王一介绍,语音交互主要分为三个模块:第一是语音识别,把声音转化成对应文字,相当于人的耳朵;第二是语义理解,相当于人的大脑,负责思考和信息处理;第三是语音合成,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。其中核心就在于语义理解,尤其是自然语言处理的语义理解。这是行业普遍认为的计算机科学领域与人工智能领域中的一个重要方向,也是最难的领域,被视为「人工智能皇冠上的明珠」。
「现在有很多机器人,你觉得它『傻』,就是因为它听不懂人说话,理解不了你的意思。」王一解释,自然语言理解的智能程度体现了机器人能达到的智能水平,要让机器能够结合上下文,听得懂用户需求,并能给出正确以及人性化的反馈。「比如用户要搜索一部具体名字的影视剧,电视机可以对用户的语音进行识别,并完成自动搜索和播放,但如果用户说搜索的是『好莱坞知名导演拍的科幻大片』这种模糊语句,只停留在语音识别阶段的机器是没法根据用户的行为特征或上下文关联,真正理解用户要看什么电影。」
这是王一和团队瞄准的方向,希望能够实现让机器人大脑听懂人说话的意思。王一表示,人马互动旗下的人工智能品牌命名为「齐悟」,名字源于庄子的《齐物论》「我们给所有的物联网设备赋能,让它们变成可以人机对话的互联智能设备。并且我们做的是对自然语言的理解,听懂了,才能给出正确反馈,『悟』这个字正是代表了我们的核心技术——理解。」
技术迭代更新 做定制化产品
创业之初,与科大讯飞等专注于做开放语音平台不同的是,王一选择走AI语音交互定制化之路。公司成立不久,除了继续研发和运营智能互动网络游戏外,还承接一些企业、政府的定制化智能项目,包括智能客服、智能展厅等。
基于技术团队的积累和行业的发展,人马互动在一年时间内,便达成与100多家各行业企业的合作,其中不乏行业领先企业,实现了盈亏平衡。 2018年上榜中国准独角兽TOP50和最具权威的SMP中文人机对话技术测评全球亚军;2019年与百度等企业荣获「2019颠覆性创新榜TOP10」榜,当年入选人工智能产业独角兽TOP50。
在这个过程中,王一对未来的发展模式有了更多思考,在项目制的商业模式下,好像任何领域都可以结合智能语音技术,什么业务都可以做,人员队伍很庞大,效率却不高。他逐渐意识到,只有在一个方面做深入了,才能形成技术壁垒。 王一与CTO胡上峰进行了交流,两人达成的共识是,目前的人工智能主要集中在专用智能方面,具有领域局限性。
王一决定进行战略调整与转型,持续进行技术更新迭代,将业务重点由大而全的针对性定制化项目转为专而精的通用技能型产品——智能助手,实现在同样的人力投入和开发周期、更小的第三方成本投入前提下,带来更大的、可持续的实际收益。
语音交互解决方案 覆盖200余种生活场景
基于多年自主研发语义理解核心算法,目前,齐悟无需海量数据训练即可完成新业务场景开发,处理复杂的业务逻辑,实现与人类深度沟通,为客户提供品质及性价比最高的语音交互技术解决方案,为消费电子类硬件赋能,实现产品智能化升级。该系统目前已覆盖200余种,包括出行、娱乐、资讯、儿童教育等高频生活场景在内的服务技能,能够实现基于上下文理解的流利人机对话,帮助用户通过语音交互的形式解决实际问题。
核心技术处业内领先地位 在中美申多项专利
目前,王一团队的齐悟AI已拥有第三代认知智能技术,为机器赋予拟人化的记忆、理解、推理、思考及学习等能力,可以处理复杂的业务逻辑,包括上下文语义理解和多轮对话,实现与人类深度沟通,并在中美两国申请多项发明专利,拥有较高的技术壁垒和法律壁垒。其中多轮人机对话核心技术在行业处于领先地位,「可以几十轮甚至上百轮的对话做到连续的理解,能理解长句子和口语化的表达,用户能够更加自然地对话。」企业的发展重点,也是基于第三代认知智能技术做应用到企业自身研发的平台如互动小说App晓悟故事、互动小说App,让平台上的流媒体内容可以互动起来。
在王一看来,他所深耕的语音交互领域,「万变不离其宗」,核心在于不断听懂理解用户需求予反馈,「随着理解的不断深入,最终我们希望创造出真正懂用户的『灵魂伴侣』。」