返回
AI之于音视频应用的三问三答

2024-07-05 15:16:55 来源:快思聪Crestron

  AI人工智能是当今社会热门话题。正面报道盛赞它为一位出色的虚拟助手,而负面声音则担忧孩子们可能过于依赖它来完成学业。更令人不安的是,一些悲观的预言警告说,未来机器人不仅可能取代人类的工作岗位,还可能带来致命的威胁。

  尽管这项技术本身既有巨大可能也有潜在危险,但最好记住,人工智能只是一款可以被用于极好目的的工具。

  尤其在现代混合办公环境中所采用的视听系统里,这一点显得极为贴切。

  “在快思聪,我们的人工智能解决方案集成1 Beyond智能摄像头和快思聪Automate VX语音激活追踪技术等一系列扬声器解决方案。这些产品利用‘视觉人工智能’技术,为用户提供卓越的视频会议体验,并能与Microsoft Teams® Rooms和Zoom Rooms®软件等平台无缝协作,充分发挥各自的人工智能技术优势。”

 

  这究竟意味着什么?让我们通过回答三个最常见的问题来逐一解析:

  什么是“视觉人工智能”,它与智能视频有何不同?

  我们需要哪些硬件设备?

  使用系统时,我需要关注哪些问题?

 

  | 什么是“视觉人工智能”,它与智能视频有何不同?

  您可能已经注意到“智能视频”与“视觉人工智能”被交替使用。更准确地界定这两个概念的方法是:视觉人工智能是实现智能视频体验所必需的关键技术。其结果是,该系统能够给予面部和动作检测自动追踪并定位房间中的演讲者——这在包含远程参与者的会议中极为重要。您希望那些虚拟与会者能看到会议室中人员的手势和表情。当远程工作者能够捕捉到所有这些非语言信号时,他们的参与度会得到增强。

  快思聪在智能视频领域的产品管理总监Rony Sebok,为在线出版物《AI for All》撰写的一篇文章可以很好地解释这项技术的强大能力:

  视觉人工智能可用于创造多样性体验,包括“团体构图”(调整画面以显示所有参与者)、“自动构图”(当一个人讲话时调整画面)、以及“演讲者追踪”(随演讲者的动作而在空间中移动)。它还可以进一步在房间中自动切换活跃的发言者(“发言者追踪”),将房间的多个视角合并为单一视频流等。

  就像其它人工智能实例一般,视觉人工智能正在逐渐发展完善。“人工智能已经运用至统一通信中一段时间了,但现在我们正在开发更加高效的‘智能场景控制盒’解决方案,”快思聪市场高级总监Sam Kennedy表示。人工智能也被应用于音频解决方案中,它能够屏蔽多余的噪音,甚至可以通过声音来识别人。

  不久之后,人工智能将辅助这些系统实现“环境智能感知”——换言之,对空间进行更深入的信息收集。“这些程序正在学习判断房间内是否配备白板,并调整系统摄像头以确保所有远程参与者都能清晰地看见白板,”Kennedy指出。“未来,人工智能还将能够识别白板——甚至整个会议室——是否需要为下一场会议进行清洁整理。”

  系统将能够收集更多的环境信息,Kennedy表示:“是否需要在进行演示时降低窗帘?当系统感应到房间内满员时,是否需要调节温度?”最终,人工智能将能对远程与现场的场地体验两者都产生影响。

 

  | 我们需要哪些硬件设备?

  硬件设备的配置选项有很多。基础级解决方案常见于配备多个摄像头的视频会议条,这些摄像头能够实现在发言者之间自动切换。对于专为高端会议空间设计的大型系统,可以采用搭载智能视频技术的摄像头进行驱动,或与基于麦克风信号来追踪发言人的解决方案相结合,以便自动跟随演讲者或对话。

  快思聪可以提供所有选项配置,包括我们的1 Beyond智能PTZ摄像头,它具备光学变焦功能,能够清晰捕捉房间内每位参与者的影像——即使是那些距离镜头60英尺远的人。光学变焦在摄像头的光学镜头内部发生,而数字变焦则是通过放大和裁剪图像来实现特写效果。后者会降低图像的像素精度,随着放大倍数的增加,清晰度也随之会降低,削弱了摄像头捕捉关键非语言信号的能力。

  另一个选择是快思聪的Automate VX语音激活的发言人追踪解决方案。该系统与较大空间的适配性最高,因为您可以同时配置12个摄像头来处理重要会议空间的需求。

  我们的目标是通过视觉人工智能技术实现流畅追踪与合理构图,提供清晰的特写画面和多角度视图,使远程参与者得以体验卓越的广播级视频品质。Automate VX解决方案能够自动构图并将发言人置于画面中心,即便他们移出最初的位置。这样,参与者便可自由活动,无需担心自己是否会离开摄像头的拍摄范围。

  Automate VX解决方案还具有“重构图”功能,可自动将人物置于镜头画面中心。人工智能在此发挥关键作用,它能够识别动作幅度的大小。Kennedy解释道:“例如,如果有人轻微地调整坐姿,人工智能不会认为需要重新调整镜头画面构图。”这减少了不必要的摄像头移动,有助于避免频繁或持续性晃动而让观看者感到眩晕。

 

  | 使用系统时,我需要关注哪些问题?

  简单来说:隐私和安全是需要持续关注的动态目标

  在隐私保护方面,视觉人工智能(Visual AI)通常不会引发警觉,直到它开始识别特定个人。这种识别功能涉及的不仅仅是视觉上的追踪,还包括其他方面。比如,如果人工智能程序识别了您的面容,这是否侵犯了您的隐私?程序分析并报告会议中的“情绪”,其伦理问题又该如何界定?人工智能是否能“领会”讽刺意味——它能否分辨出玩笑与真正具有负面影响的评论之间的区别?

  Kennedy表示,所有系统的默认选项应该是允许用户“选择退出”。“我认为,只有征询人们是否同意被识别和追踪才符合伦理道德,特别是对于生成性人工智能或虚拟助手程序,”他指出。“如果用户同意,他们可以通过点击按钮立即选择加入。”同时,他又提到地方法律也在应对这一问题:“在美国的一些州以及全球的许多地方,都明确禁止使用人工智能程序在环境中识别个人。”

  考虑到安全性问题,在某些特定环境中将数据上传至云端是不被允许的。“在信息被政府或企业视为机密的情况下,您是不会希望人工智能将任何数据发送至外部的,” Kennedy说。“这正是集成了人工智能的摄像设备——也就是‘边缘化人工智能技术’——发挥作用的的场景了。”

  然而,在会议进行时收集数据有很大的优点。“假设有一位参会者是我们常说的沉默类型,”Kennedy解释。“想象一下,如果系统能够提示会议主讲人注意到某个人一直保持沉默——他们可能比较害羞,需要一点鼓励来推动他们分享想法。”

  “我们探讨‘会议中的平等’——确保每个人都能看见和被看见——这通常被视为是视觉层面的问题,但是能够双向聆听,或协助创造和分享能力也同样重要。”

 

  特色产品

 

  Automate VX

  Automate VX采用多个光学变焦摄像头和语音激活切换技术,保证远程参与者能清晰地看清房间中的每个人,并且现场参与者永远不必考虑应该看向哪里以跟随对话。

  

 

  全新的1 Beyond摄像头 — 清晰捕捉房间内的每一个人

  快思聪推出了一系列新款“1 Beyond™”摄像头,专为清晰捕捉房间内每位参与者而设计——甚至包括那些距离镜头最远60英寸的人。

 

  快思聪Flex视频会议与智能视频技术

  视频会议室是当今现代混合办公环境的核心。为了实现真正的协作,无论是现场或远程会议人员,都必须能平等且充分参与。这正是快思聪Flex视频会议与智能视频技术被设计出的初衷——为无论身在何处的每个人提供更包容、更具吸引力和更公平的体验。

分享
分享
QQ好友
QQ好友
微信
微信
微信好友
朋友圈
取消