韩国初创公司Cochlear.ai首轮融资200万美元用于检测语音识别遗漏的声音

2020-10-15 22:55:56

Cochlear.ai宣布,它已经在Smilegate Investment牵头的首轮融资中筹集了200万美元,新韩资本(Shinhan Capital)和NAU IB Capital参与其中。这使其到目前为止的总融资达到270万美元,其中包括这家韩国互联网巨头的投资部门Kakao Ventures的一轮种子融资。Cochlear.ai将在未来18个月利用其A系列招聘,并增加用于训练其深度学习算法的声音数据集。

该公司成立于2017年,由六名音乐和音频研究科学家组成的团队创立,其中包括韩,他在首尔国立大学完成了音乐信息检索博士学位。在攻读博士学位时,韩发现“每个人都在专注于语音识别系统。这方面的公司很多,但从技术上讲,分析其他类型的声音与语音识别有很大的不同。“。

语音识别技术通常一次识别一个或两个声音,并假设人们正在进行对话,而不是彼此交谈。它还在后处理中使用语言学知识来提高准确性。但对于音乐或环境噪音,不同类型的声音通常会重叠。

“我们必须注意所有不同的频率范围,不仅有声音,而且真的有成千上万的声音,”韩说。“因此,我们认为这将是下一代声音识别技术,这也是我们创业的动力所在。”

Cochlear.ai的SaaS名为Cochl.Sense,以云API和EDGE SDK的形式提供,目前可以检测到大约40种不同的声音,分为三类:紧急检测(包括玻璃破碎、尖叫和警报声)、人类互动(包括使用手指、拍手或口哨与硬件交互)和人类状态(用于识别咳嗽、打喷嚏或打鼾等声音,用于患者监护或自动音频字幕等使用情况)。

韩说,公司还计划为Cochl.Sense增加新的功能,用于家庭(包括智能扬声器)、车辆和音乐分析。Cochl.Sense的灵活性意味着它可能适合许多使用案例,包括通过检测智能扬声器发出的噪音将其变成家用电器的“控制塔”,或者通过向包括智能手表在内的可穿戴设备发送汽车喇叭等噪音警报来帮助听力受损的人。

韩指出,在过去三年左右的时间里,人们已经从专注于语音识别技术转向了其他声音。

例如,亚马逊(Amazon)、谷歌(Google)和苹果(Apple)等更多大型科技公司正在为其产品添加上下文感知声音识别功能。例如,Amazon Alexa Guard和Nest Secure都能检测到玻璃破碎的声音,而iOS 14的声音识别功能使其能够添加新的无障碍功能。

韩表示,各大科技公司的推出对Cochlear.ai来说是一个福音,因为这意味着声音识别技术的市场正在增长。这家初创公司计划与许多不同的行业合作,但目前专注于智能消费设备和汽车,因为这是人们对其软件最感兴趣的领域。例如,Cochlear.ai目前正在与戴姆勒股份公司(Daimler AG)合作一个项目,除了与主要的电子、电信和消费品公司合作外,还将在汽车中加入其声音识别功能(例如,如果儿童被锁在车内会发出警报)。

韩说,可以识别枪声、玻璃破碎和其他声音进行紧急检测的软件已经存在了几十年,但传统技术经常导致错误警报,或者需要使用特定的麦克风和其他硬件。

其他致力于改进声音识别技术的公司包括英国剑桥的Audio Analytica,它专注于基于上下文的声音智能,以及总部位于荷兰的Sound Intelligence,它为紧急警报和医疗系统开发软件。

Cochlear.ai计划通过构建可以与包括低端智能手机或USB麦克风在内的各种麦克风一起使用的软件来实现差异化,而不需要进行微调,而是依靠深度学习来完善算法并减少误报。

在为特定声音建立数据集的早期阶段,Cochlear.ai的团队使用较旧的智能手机型号和USB麦克风自己录制了许多音频样本,以确保他们的软件即使没有高质量的麦克风也能工作。

其他样本是从网上来源收集的。一旦声音的初始学习模型达到一定的准确度,它就可以自己在线搜索更多的同类音频片段,从而成倍提高数据训练的速度。Cochlear.ai的A系列将使其能够更快地建立音频样本的数据集,从而使其能够在其软件中添加更多的声音。

“我们所有的联合创始人都是这个领域的研究人员,所以信号处理和机器学习技术-我们正在尝试许多不同的算法,因为每种声音都有不同的特征,”韩说。“我们必须尝试很多不同的东西,才能制造出能够识别所有不同声音的单一模型。”