返回
概况
分类

声网的超分算法同时支持在云端和移动终端上实时运行,从技术、服务到共创 声网Agora携手合作伙伴共建RTC生态

日期: 2020-01-20 18:11 浏览次数 : 196

摘要2018年11月21日,“声网Agora”正式宣布完成7000万美元C轮融资,由全球科技股对冲基金Coatue Management领投,SIG海纳亚洲、Morningside晨兴资本和顺为资本跟投。从YY到声网声网Agora成立于2014年,由前YY语音CTO赵斌在硅谷创立,定位全球实时通信云服务商,其核心技术为RTC。实时通信(Real-time Communication, 简称RTC),即允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流,也就是现在很多应用内都会有的聊天、语音、视频功能。通过调用声网的API,开发者可以快速创建这些功能,实现例如视频社交、互动直播、游戏开黑、AR远程协作、视频报警、视频客服、机器人视频陪伴等场景。自研算法优化底层技术音视频传输,通常需要经过“采集—预处理—编码—传输—端处理—解码”等一系列流程,不同服务商会在每一个环节进行优化,从而提高传输速率、质量。例如,声网的预处理已经不仅包括美颜、瘦脸等基础功能,还加入了“人机交互”——在直播中,用户用手势比一个心型,那么系统就会自动识别出来,发几个颗心给对方。再比如,对音视频传输质量影响很大的编、解码环节。编、解码可以理解为压缩、解压缩,原则上,在网络传输出现问题时压缩包会丢失,丢的越多,出现的卡顿就越多。在这方面,声网首席科学家、国际编解码专家钟声曾表示:“视频编码,声网的新算法在高丢包率、低延迟情况下,能体现更多优势。相同质量下只需要一半的码率,比如延迟只有4帧情况下,丢包率是60%,基本上码率只有原来的一半,同时编码的质量和复杂性没有本质变化。如果拿到很模糊的图像,需要在低码率、低分辨率情况下还原,基于传统多像位滤波、三次发差值等方法还原出来的图像,总体上比较模糊。用了深度学习算法之后,细节明显提升,即使在较差网络条件、带宽受限的情况下,依旧可以还原清晰画质。但深度学习有一个大问题,就是需要在大模型、大数据、大平台上实现,可用户基本都在使用移动端,对于算法的实现是一个挑战。声网在这方面也做了很多优化,比如在iPhone6上把一个放大9倍算力支持到每秒200帧,已经达到实时。在音频方面,声网自研的抗丢包音频编码 Agora Solo™ 已发布进化版Solo X™,具有抗丢包特性,即使是在 50% 的丢包下,用户都可以听清对方所讲的内容。同时,自研的分组信号互补技术,兼容Opus和WebRTC。”音视频普及带动场景延伸据悉,除了硅谷,声网已于上海、北京、广州、伦敦、班加罗尔、东京等地有分布式协作团队。目前已在全球自建200多个数据节点的SD-RTN™ 软件定义实时网,服务了全球超20万开发者,覆盖全球超过20亿终端用户,每日支持通话分钟数超过3亿,客户包括社交、直播、游戏、教育等、民生、政务、医疗、金融、物联网等行业,同时与小米、陌陌、中国移动在线、The Meet Group、Hike Messenger、Badoo、Musical.ly、V-cube、好未来、招商银行等建立了战略合作关系。列举一个应用场景,目前重庆市已推出急救视频 120 自救互救服务,在拨打 120 或下载相关App后,医生可通过视频对话,指导现场人员进行自救或互救,若用户此前并未下载 App,拨打120后,手机会收到一条包含 URL 的短信,用户可通过 Web 端与急救医生视频对话。该场景的实时视频通话就是通过声网SDK实现的。再比如,郑州铁路警方用AI警务眼镜筛查网上在逃人员的新闻中,采用的是亮亮视野推出的搭载VPU的AR眼镜,其中内嵌了声网的语音通话技术。谈及未来,声网CEO赵斌表示,目前看来,RTC技术服务平台市场规模超80亿美金,亚洲和欧美市场使用量最大,中东、俄罗斯、非洲等市场增长较快。随着语音聊天室、视频社交、互动课堂等成熟使用场景的普及,音视频互动已成为用户最为主流的使用习惯,未来更多线下的真实互动场景将被搬到线上,构建新的线上世界。声网Agora官网

为了给用户带来更流畅、更高质、更实时的互动体验,声网对实时互动体验进行了全面升级,声网创始人兼CEO赵斌在本次发布会上将实时互动的全面升级归结为以下5个方面:

责任编辑:

声网不仅是实时音视频云行业的开创者,也是引领者,这体现在声网过硬的技术实力和对真正“实时”的不断追求。随着互联网发展的日臻成熟,在线娱乐社交、在线学习已经成为数字原住民的生活日常,与此同时,用户对实时互动的要求也越来越高。为了给用户带来更流畅、更高质、更实时的互动体验,声网对实时互动体验进行了全面升级,声网创始人兼CEO赵斌在本次发布会上将实时互动的全面升级归结为以下5个方面:

基于独家的SD-RTN全球传输网络的优势,结合智能动态路由和Last mile算法,实现通话少于400ms延时,直播少于800ms延时。将全球范围内实时互动大频道的技术边界推到了100W,可支持单频道百万人以上并发。做到了iOS、Android、Web、Windows、macOS、小程序、Linux等全平台覆盖和对6000多款终端机型的支持。无论单一接口的功能还是场景解决方案,都可以根据实际需求,通过低代码模块组建的方式自由组合,帮助开发者少写甚至不写代码快速开发应用,提升效率。视频通话SDK最高可支持1080P动态分辨率和超分算法。

当 AI 与 RTC 深度融合、5G 商用落地,实时互动将走向何方?

作为全球实时音视频云服务的开创者,2014年成立至今,声网已经将RTC技术赋能到社交直播、教育、游戏、金融、医疗、企业协作等10余个行业,100余种应用场景。80%以上的社交泛娱乐企业和70%以上的在线教育企业均采用声网提供的实时音视频解决方案。其中,社交泛娱乐企业包括陌陌、斗鱼、虎牙、抖音等;在线教育企业包括VIPKID、好未来、火花思维、一起作业、掌门1对1等,声网的RTC用户无处不在。

10月24日,实时音视频云服务开创者声网Agora 召开“未来·与声俱来”品牌发布会。作为品牌的首次正式对外发声,本次发布会展示了声网用RTC技术赋能全行业的战略布局、宣布开源声网自研音频编解码器Solo、以及Agora RTC SDK3.0、水晶球2.0版本的上线。

钟声在现场提出了一个问题 —— “今天的实时技术状态犹如 20 年前互联网 1.0 时期刚兴起那般充满了期待,那么未来的 RTC 2.0、3.0 又将如何?”并基于此分享了一则数据 —— “思科在 2017 年做过预测,互联网流量从 2017 年到 2021 年将实现 4 倍增长,其中视频流量将会持续增长到 87%。就细分领域来看,实时视频会增长 15 倍,占视频流量的 13%,也就是整个互联网流量中超过 11%;在线游戏增长 11 倍,占整体的 5%,VR/AR 将增长 20倍,由于现有基数较低,2021 将占全球流量的 1%,但随着 5G 的到来,将会实现爆发式增长。”

10月24日下午,实时音视频云服务开创者声网Agora在北京召开“未来·与声俱来”品牌发布会。作为品牌的首次正式对外发声,本次发布会展示了声网用RTC技术赋能全行业的战略布局、宣布开源声网自研音频编解码器Solo、以及Agora RTC SDK3.0、水晶球2.0版本的上线。

声网联合创始人兼CTO陶思明用数字总结与回顾了声网取得的成绩。他表示,目前声网的日均通话分钟数已经达到6亿、每年为创新创业项目&企业提供超过5.79亿分钟免费服务时长、全球范围内超过30万终端安装使用Agora SDK的应用。

  • AI 和深度学习在 RTC 技术深度结合:由 AlphaGo 开始,我们已经看到了在图像视频识别、自然语言处理、语音识别等诸多领域,人工智能都已取得了重大的技术突破,同时也被应用到很多场景,在实时互动方面,AI 能够为其在质量、体验、功能上做出更新、更好的效果。
  • 各国 5G 商用时间表落地,将催生更多 RTC 场景:5G 有着更大的带宽,支持更多的 IoT 设备同时连接。未来的实时互动不仅仅只是发生在人与人之间,更有人与设备的连接、设备与设备的连接,这些互动都要依赖于更好的网络。而 5G 网络的出现和快速普及,会给予实时互动 RTC 领域更大的机会,带来更普遍的实时场景渗透。
  • 微软、NVIDIA、Valve、Oculus、AMD 组成联盟,推出 VirtualLink 接口标准:VirtualLink 的落地给行业带来了新的机会。虚拟现实是行业都在关注的未来实时互动的一种全新的媒体和体验形式,为行业带来了新的高度。在过去一年多的时间里,我们已经看到了 VR/AR 在实时互动行业的场景爆发。

重磅发布全球合作伙伴计划共创RTC实时互联网生态

同时,赵斌还宣布声网将开源自研的抗丢包音频编解码器Agora Solo。Solo是声网专为不稳定网络设计的语音编解码器,能够在弱网条件下保证流畅的高质量通话。除此之外,Agora RTC SDK3.0也将于11月上线,实现直播和通信大融合,并全面提升弱网环境下的音视频体验。

声网 Agora 创始人 & CEO 赵斌

支持百万人超大频道,轻松应对高并发场景。声网将全球范围内实时互动大频道的技术边界推到了100W,可支持单频道百万人以上并发,轻松应对直播答题、电商互动直播、大班课等高并发场景。声网曾和沪江合作,将实时互动的教育大课搬上实时互联网,让中国5W偏远地区的小学生同时“坐”在一个虚拟大教室,跟英美外教学英语、跟一线名师做物理实验。

实时音视频服务的关键是质量保障和透明,为此声网研发了实时音视频质量透明数据产品——声网水晶球,帮助开发者定位、诊断通话问题,进行音视频实时质量监控。在本次发布会上,声网创始人兼CEO赵斌宣布了水晶球2.0版本将在2019年Q4上线,新版本的水晶球将提供全面的RTC服务质量监控和数据分析产品套件,在实时问题调查的基础上,可以进行整体服务质量的实时监控和分析。

而赵斌则是更系统性地为我们梳理了在实时互动方面的行业趋势,主要分为三点:

声网合作伙伴商汤科技产品总监栾青、阿里云业务安全技术总监郑雅敏、Netless CEO伍双、金山云渠道生态合作部副经理孙凯、山东大学信息学院副书记兼“守望”行动组织者李鸿娟、依图语音业务负责人隋杨、Cocos技术VP吴俊斌、LeanCloud商务负责人常龙等嘉宾作为合作伙伴代表受邀出席发布会并一同参加“Agora 云市场——全球合作伙伴计划”启动仪式。

发布会上,声网首席科学家钟声透露,声网已研发出视频超分辨率技术,其可以将实时传输中的视频在原有分辨率的基础上实现两个方向的2倍同步放大,并获得显着的细节增强。他还补充,声网的超分算法同时支持在云端和移动终端上实时运行,并在移动终端达到非常出色的效果,使得声网Agora成为首家在移动端实现视频超分辨率的云服务平台。

而一直以来“延时”是横亘在通信面前的一大难题,笔者曾言过“现存的互联网作为冷战时代的产物最早其实是为了用于保障美国通信网络,其在网络传输方面的种种局限也直接导致了现在的互联网在大文件传输、实时传输方面的窒碍难行。而语/视频通信、直播连麦对实时性要求非常高,要求延迟低至几百毫秒,因此,现存的互联网并不能满足这种新型的实时应用场景。”

声网Agora SDK,带给用户超高清实时互动体验。声网的视频通话SDK最高可支持1080P动态分辨率和超分算法,可以满足不同终端对视频清晰度的高品质显示需求。

顺风车事件后,笔者便常见到滴滴开启行程分享的广告

开创实时音视频服务用RTC技术赋能全行业

今时今日,当我们使用着微信的音视频通话功能,在吃鸡、狼人杀剧本杀里语音对话、直播答题组队,以及在各类在线教育的 App 网站与老师一对一或一对多地课堂互动,并习以为常之时,已经很难记起曾经那个普遍使用着 2G 把上网叫作「网上冲浪」的年代里我们都是怎么生活学习与工作的,那时候,上网的成本甚高,通话的质量却低得今天回想起来都不敢置信。

在赋能各行业的过程中,声网直击行业痛点,与合作伙伴一起,针对不同行业提供更具体化的解决方案。以在线教育行业为例,声网的实时音视频解决方案升级了在线课堂1V1、小班课、互动大班课、双师课堂四大基础场景教学,让师生在线实时互动更高质更稳定;并开发了游戏化教学、在线音乐教学、AI互动课堂、超级小班课四大创新场景,满足教育个性化需求。

图片 1

谈及变化与突破,声网联合创始人兼CTO陶思明用数字总结与回顾了声网取得的成绩。他表示,目前声网的日均通话分钟数已经达到6亿、每年为创新创业项目&企业提供超过5.79亿分钟免费服务时长、全球范围内超过30万终端安装使用Agora SDK的应用。