香港创科世界级! FANO Labs语音识别无惧粤英夹杂 声纹技术提升银行监管水平
香港着力发展创科已有一段时间,近年开始有成果,陆续出现独角兽,证明本港创科有一定实力。
有光集团有限公司(有光科技,以下简称FANO Labs)创始人及首席执行官温豪夫博士(Miles),在大学研究语音科技,发觉能够解决多方面的问题,于是毅然创业,将之商业化。公司至今吸纳逾1亿元资金,超过40间大型企业是其客户,并且陆续开拓海外市场,Miles与团队继续优化产品,走在最前,证明香港科技达世界级水平。
近日疫情大爆发,不少银行关闭部分分行,以减低传播病毒的风险,顾客只能透过线上渠道或电话,接触银行职员,处理各种事务。相信读者都很害怕打电话给银行,因为前后需要按很多掣,等候良久也未必找到真人接听。
专注于语音识别、自然语言理解等技术的人工智能本地初创公司FANO Labs,将于今年下半年推出崭新服务,顾客打电话给银行,系统进行发问,因应顾客答案,找寻合适资讯,或者转驳至客服,毋须再按来按去。
Miles说:「现时顾客打电话给银行需要按掣,因为需要分流,如果系统听得懂顾客的说话,便能够自动进行分流。」
FANO Labs方案能够理解和分析英语、普通话、粤语和混合语言,配合香港的语言环境。
「语言处理技术当然以美国、内地及日本较为先进,但他们只专注于当地的常用单一语言,未能配合港人三文两语、中英夹杂、不同口音的情况。」
语音科技并不是新鲜事,苹果公司(Apple)的Siri或Google小姐,也可以听懂人们说话,不过人们需要事先设定语言,每次只能说同一种语言,未能识别中英夹杂,也不能中途转换至另一种语言。 FANO Labs的系统能够识别一段录音内共有多少人说话,并将他们的谈话内容转化为文字,从而进行分析,包括时间、地点,以及是否包含了情绪,例如投诉及抱怨。 FANO Labs的客户包括不少电讯公司,因应顾客来电进行分析,例如顾客查询何时推出新手机型号、上台有没有优惠等,或者进行投诉,系统可以了解员工有否跟进,以免顾客流失;同时可以将经常出现的问题,制作FAQ (Frequently Asked Questions)上载至网站,让顾客自行查看,毋须每每致电客服。
现时部分银行推出声纹验证,取代输入电话理财密码,但较多是上一代的技术,系统要求顾客录下一句说话,日后登入时再说相同的说话验证,但容易被人盗录及使用。
提升监管水平
恒生银行与FANO Labs合作,透过语音生物识别技术来认证客户身分,当客户拨通银行热线时,语音认证系统会分析客户声音的特征,包括口音、词形变化、节奏等,以核实话者身分。
「系统向顾客发问,例如身分证号码最后两个数字,今天的日期及时间等,后者的答案永远不会一样,有效防止盗用身分。」
现实中,有些配音演员会模仿其他人的声音时,人的耳朵难以分辨出细微的差别,但是说话者的本质特性是无法模仿的,声纹就是生物识别特征的一种。近年监管当局对金融机构的监管水平不断提高,银行、证券公司及财富管理公司的职员,向顾客推销投资产品的过程之中,必须清楚解释风险,避免误导等。为此,银行职员会将销售过程录音,然后存档作为内部纪录,并聘请专人抽样检查,了解员工的做法是否符合监管要求,但银行顾客数目众多,根本无法全部翻听一次。
2021年FANO Labs开始协助银行提升监管水平,透过系统为录音内容进行分析,了解员工在销售过程中有没有违规,例如是否讲漏重要资讯、说话是否含有误导,如有相关情况,可以即时叫停销售,或者重新再做一次。
Miles于香港大学获得电脑工程一等荣誉学士学位及香港大学金融学硕士学位,并于2015年获得香港大学电机电子工程博士学位,在大学期间一直进行关于语音科技的研究。
「在大学做科研,取得专利后存档,工作基本上完成,之后让有兴趣的企业或组织拿来商业化,但当中不少专利仅长期放着,无人问津。」
2015年,年仅26岁的Miles,不想自己的研究成果白白放着浪费,于是他决定出来闯天下,与数名拍档成立FANO Labs,将语音科技落地。 Miles与数名合作伙伴合资数十万元,一起成立FANO Labs,将成果商业化,并且取得大学科技初创企业资助计划约100万元资助。
「以前打着香港大学的旗号,商业机构都愿意合作,甚至抢着做白老鼠;当我们出来闯,没有任何人认识FANO Labs,对做白老鼠感到相当犹豫,非常关心我们的服务质素以及公司的可持续性。」
吸纳逾亿资金 成立最初三年,公司毫无顾客,纯粹烧钱,至2018年才获得首个顾客,陆续证明产品的质素,再慢慢吸纳客户。 FANO Labs现时共有逾40间大型企业客户,平均每间企业的员工数目达10,000名以上,例如中国移动、恒生银行及多个政府部门。 2018年至今,FANO Labs每年收入平均增加三至五倍,但是利润都用来再投资,以改善产品质素。 FANO Labs至今已进行了五轮融资,投资者包括Horizons Ventures、阿里巴巴、香港大学、香港科技园(HKSTP)、Saltagen Ventures以及南丰集团主席梁锦松等,投资金额超过1亿元。
除香港外,还有很多地方拥有类似的复杂语言环境,因此FANO Labs的业务开始国际化,现时系统可以处理本港常用的两文三语以外,还可以分析印尼、马来西亚、泰国、越南、法国及阿拉伯文,而且仍在不断增加。
「训练系统处理一种新的语言并不困难,难度在于测试,然后解决不同口音、懒音及四周的噪音等。」
FANO Labs主要因应大湾区及一带一路作海外发展,因为不少港资及中资机构均向这两个地方发展,但扩展途上往往遇到语言障碍,公司的解决方案正好可以帮上忙。 FANO Labs透过SaaS提供服务,基本上每周均会优化产品,约每半年出现一次较大型的技术突破,例如以前系统无法分析数个人一起说话的情况,现时可以清楚读取每个人所说的话。
此外,系统耗费电脑的运算能力(CPU),最近在不影响准确度之下,提升十倍速度,但减低所需运算能力要求达八成。公司现时合共聘用近70名员工;另有100至200名兼职,协助测试系统,仍然于全球增聘人手,对于要求较高的精英团队,平均100名应征者只取录一名。
「我们做出初步成绩,自然吸引到其他人的目光,所以我们必须每日都在进步,以免被他人赶上,最终向世界证明香港也能孕育出世界级的高科技企业。」Miles说。
客制化声音
我们日常都会收听到各种广播,原来大多均由真人录制,例如港铁站、机场的广播,这些机构有充足的预算,聘用真人预录站内所有广播,每当再遇有需要,便再找这人录音。事实上,不少公司出于成本和声线一致性的考虑,会选择FANO Labs的语音合成服务,来避免录音出现「阴阳声」。
Miles举例说:「语音合成技术可以协助电话客服中心,量身订做一把声音,只需找一位同事录音约三小时,当然要事先取得该同事的授权,系统可以从录音中学习说话的方式,比如模仿该同事的用字、口音等,进而产生自然的声音,技术上可以做到与录音同事的声线一致,亦可根据需要变成另一种音色。」
语音合成技术制作的声音,人类的耳朵难分真假,为免技术被人滥用,FANO Labs在每个合成的声音加上水印,并且开放源码供任何人查阅,其防御系统也能够追溯到每把合成声音的创造者。