创投资讯商业生活科技

「声网Agora」获7000万美元C轮融资,Coatue Management领投

音视频互动已成为用户最为主流的使用习惯,未来更多线下的真实互动场景将被搬到线上。

摘自36Kr

“声网Agora”正式宣布完成7000万美元C轮融资,由全球科技股对冲基金Coatue Management领投,SIG海纳亚洲、Morningside晨兴资本和顺为资本跟投。

从YY到声网

声网Agora成立于2014年,由前YY语音CTO赵斌在硅谷创立,定位全球实时通信云服务商,其核心技术为RTC。

实时通信(Real-time Communication, 简称RTC),即允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流,也就是现在很多应用内都会有的聊天、语音、视频功能。通过调用声网的API,开发者可以快速创建这些功能,实现例如视频社交、互动直播、游戏开黑、AR远程协作、视频报警、视频客服、机器人视频陪伴等场景。

自研算法优化底层技术

音视频传输,通常需要经过“采集—预处理—编码—传输—端处理—解码”等一系列流程,不同服务商会在每一个环节进行优化,从而提高传输速率、质量。

例如,声网的预处理已经不仅包括美颜、瘦脸等基础功能,还加入了“人机交互”——在直播中,用户用手势比一个心型,那么系统就会自动识别出来,发几个颗心给对方。

再比如,对音视频传输质量影响很大的编、解码环节。编、解码可以理解为压缩、解压缩,原则上,在网络传输出现问题时压缩包会丢失,丢的越多,出现的卡顿就越多。在这方面,声网首席科学家、国际编解码专家钟声曾表示:

“视频编码,声网的新算法在高丢包率、低延迟情况下,能体现更多优势。相同质量下只需要一半的码率,比如延迟只有4帧情况下,丢包率是60%,基本上码率只有原来的一半,同时编码的质量和复杂性没有本质变化。

如果拿到很模糊的图像,需要在低码率、低分辨率情况下还原,基于传统多像位滤波、三次发差值等方法还原出来的图像,总体上比较模糊。用了深度学习算法之后,细节明显提升,即使在较差网络条件、带宽受限的情况下,依旧可以还原清晰画质。但深度学习有一个大问题,就是需要在大模型、大数据、大平台上实现,可用户基本都在使用移动端,对于算法的实现是一个挑战。声网在这方面也做了很多优化,比如在iPhone6上把一个放大9倍算力支持到每秒200帧,已经达到实时。

在音频方面,声网自研的抗丢包音频编码 Agora Solo™  已发布进化版Solo X™,具有抗丢包特性,即使是在 50% 的丢包下,用户都可以听清对方所讲的内容。同时,自研的分组信号互补技术,兼容Opus和WebRTC。”

音视频普及带动场景延伸

据悉,除了硅谷,声网已于上海、北京、广州、伦敦、班加罗尔、东京等地有分布式协作团队。目前已在全球自建200多个数据节点的SD-RTN™ 软件定义实时网,服务了全球超20万开发者,覆盖全球超过20亿终端用户,每日支持通话分钟数超过3亿,客户包括社交、直播、游戏、教育等、民生、政务、医疗、金融、物联网等行业,同时与小米、陌陌、中国移动在线、The Meet Group、Hike Messenger、Badoo、Musical.ly、V-cube、好未来、招商银行等建立了战略合作关系。

列举一个应用场景,目前重庆市已推出急救视频 120 自救互救服务,在拨打 120 或下载相关 App 后,医生可通过视频对话,指导现场人员进行自救或互救,若用户此前并未下载 App,拨打120后,手机会收到一条包含 URL 的短信,用户可通过 Web 端与急救医生视频对话。该场景的实时视频通话就是通过声网SDK实现的。

再比如,郑州铁路警方用AI警务眼镜筛查网上在逃人员的新闻中,采用的是亮亮视野推出的搭载VPU的AR眼镜,其中内嵌了声网的语音通话技术。

谈及未来,声网CEO赵斌表示,目前看来,RTC技术服务平台市场规模超80亿美金,亚洲和欧美市场使用量最大,中东、俄罗斯、非洲等市场增长较快。随着语音聊天室、视频社交、互动课堂等成熟使用场景的普及,音视频互动已成为用户最为主流的使用习惯,未来更多线下的真实互动场景将被搬到线上,构建新的线上世界。

标签

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Close
Close