Доклад
на Видео+Конференции 2017

Эволюция систем
автонаведения камеры в конференц-залах

Обзор основных способов автонаведения камер.
Выступление на конференции "Видео+Конференция 2017"
Организатор: TrueConf.


В своем докладе я постарался представить все возможные на сегодняшний день варианты автонаведения камер. Считаю, что знание всех существующих технологий будет полезно людям, которые устанавливают видеоконференцсвязь (ВКС), и не только им. В последнее время есть много задач (и заказов), связанных с поддержкой камер технологического телевидения и их рабой в разных режимах.
Оглавление
Запись выступления
С чего все начиналось
Поскольку моя задача - показать эволюцию систем автонаведения, начну с «доисторических» вариантов, которые до сих пор иногда используются.

Модель Sony EVI-D70 долгие годы была лучшей и самой часто продаваемой камерой в России. Мне кажется, миллионы этих «Сонек» разошлись по всем регионам. Иногда приезжаю в какой-нибудь город, и вижу в зале эту реликвию, которая еще и работает!

Действительно, еще 5-10 лет назад выбор оборудования для автонаведения был небольшой, а сейчас вариантов PTZ камер от разных производителей очень и очень много.

HD камеры
Камеры в составе кодеков
Кроме этих известных производителей есть огромное число китайских Noname вариантов. И это помимо камер, которые используются в самих системах видеоконференцсвязи.

Есть, из чего выбирать!

Эти камеры имеют разные характеристики по качеству отображения, все являются управляемыми, поэтому из них можно строить различные системы для автонаведения в переговорных комнатах и конференц-залах.
Переход к цифре и IP
Я условно разделил эволюцию систем автонаведения камер на 3 больших периода:
Раньше даже в камерах для видеоконференцсвязи передача видео была аналоговая. Например, камеры в терминалах Polycom передавали видеосигнал в аналоговом виде в компонентном варианте.
Следом появились камеры, которые передавали сигнал HDMI или SDI.
Сейчас обозначился явный тренд, когда видеокамера выдает и цифровой сигнал, и IP сигнал параллельно.
С недавнего времени некоторые производители начали помимо простой выдачи в IP выдавать еще в специализированных протоколах, например, NDI. По большому счету это аналог SMPTE 2022, который активно используется.

Хотя это проприетарная технология, но, тем не менее, она достаточно интересна с точки зрения вообще перехода всей инфраструктуры на IP. По сути это передатчик по IP сети несжатого видеосигнала в большом количестве каналов. То есть за те же самые деньги одна и та же камера может подавать сигнал в разных вариантах.
«Ручные» сценарии
Применение: мероприятия с четким регламентом
Все возможные варианты можно разделить на 3 большие группы:
1. Самый простой сценарий: есть камера (чаще всего 1-2) и пульт управления.

Задав пресеты мест в переговорной комнате или в зале, и нажимая кнопку «Пресет», можно навести камеру на нужное место.

2. Более сложный вариант, когда есть несколько камер.

Они заводятся на видеомикшер, и на нем уже выбирается нужная камера и пресет.
3. Раньше в случае установки оборудования одного и того же производителя с 2 концов, можно было дать удаленному абоненту возможность управления камерой. Это тоже ручной вариант, когда человек сам наводит камеру, самостоятельно определяя, куда ему лучше смотреть в удаленном помещении.
Сейчас большинство интеграторов отказывается от этих вариантов в пользу разных схем автоматизации.
Сценарий по ручному триггеру
Недавно на Geektimes я видел статью, в которой коллеги предлагают наведение камер по ручным триггерам.

В предложенной схеме у каждого участника встречи есть кнопка, которая находится рядом с ним, например, вмонтирована в стол.

Человек нажимает на кнопку и на него наводится камера (или несколько камер). Таким образом, можно обслужить до 20 человек.

  • Теоретически это решение имеет право на существование, но практически оно не работает. Почему? Просто люди будут забывать нажимать на кнопку.
«Коробочные» решения
Что такое коробочные решения? Это то, про что производитель говорит: «Я сделал продукт, который обладает некими характеристиками – берите и используйте!» Рассмотрим, какие готовые решения «из коробки» сейчас есть на рынке.
Интеграция с конференц-системой
  • Количество камер: до 3;
  • Применение: залы до 20 участников
Это наиболее старый вариант. Многие производители ВКС предлагают готовые системы для автонаведения, которые включают в себя:

  • Центральный блок конференцсвязи, к которому подключаются микрофоны (шины).
  • Камеры (как правило, в небольшом ассортименте - 1-2 варианта).
  • Блок для автонаведения, к которому подключаются камеры, и центральный блок конференцсвязи просто выдает ему номер активного микрофона.

Например, в зале расположено 10 пультов. Рядом с ними устанавливается несколько камер, к каждому пульту привязывается нужная камера с заданным пресетом. При включении седьмого микрофона центральный блок видит – включен микрофон №7, это значит, что нужно перевести камеру №2 в пресет №10.

Для 10 микрофонов нужно прописать 11 рабочих пресетов: по одному на каждую камеру, и еще один для общего плана зала, который будет включаться, когда все микрофоны выключены.
Схема решения
Решение незамысловато, но, тем не менее, бесплатно для конечного пользователя и просто интегратора. Здесь не нужно ничего программировать, достаточно просто собрать эту схему от одного производителя, спозиционировать камеры на нужные местоположения в зале, и работать.
Основной недостаток этой системы заключается в том, что более сложная логика разговора ставит систему в тупик. Если одновременно говорит несколько человек, то всегда отображаться будет тот, кто последним включил микрофон. Но, например, часто председатель включает микрофон и не отключает его во время всего заседания потому, что ему нужно говорить в любой момент. Это проблема потому, что система не анализирует голос, и не знает, когда председатель говорит, когда нет - микрофон все время включен.
Другая проблема – в данном решении видео камеры не видят людей, а наводятся только на точки зала. Если у спикера чуть-чуть изменилось местоположение, например, он передвинул свое кресло или развалился на нем, в кадре что-то пойдет не так. Это достаточно сложно оперативно поправить в процессе мероприятия.
Поэтому производители начали делать более интеллектуальные системы для автоматического наведения.
Двухкамерные гибридные системы
  • Расстояние: до 8 метров
  • Применение: переговорные комнаты
Гибридные системы основаны на 2 технологиях:

  • Автонаведение
Микрофонный массив (набор микрофонов, объединенных в один DSP-чип) анализирует сигнал с каждого микрофона и за счет разницы в уровне входного сигнала определяет местоположение говорящего. То есть сначала этот блок определяет, с какой стороны приходит сигнал, и туда наводится камера.

  • Определение лица
Далее включается вторая технология Face Detection, которая определяет лицо внутри кадра. Таким образом, можно наводить камеры на человека и брать, например, лицо крупным планом, или сразу двух человек, если микрофоны говорят, что сигнал идет с 2 сторон одновременно.


  • Эта система хорошо работает, но основная проблема заключается в том, что она рассчитана на небольшие расстояния (максимум 10 м) и количество участников (не более 8-10 человек).
Система Cisco SpeakerTrack работает именно так:

  • Массив из 6 микрофонов используется только для наведения;
  • Камеры работают независимо;
  • Основной блок является видеокоммутатором, то есть обладает возможностью быстро коммутировать сигналы и иногда накладывать их друг на друга, если нужен крупный план лица выступающего на фоне общего вида зала.

Решения с одной камерой
  • Функционал: автонаведение, трекинг, аналитика
  • Применение: переговорные
Эта же схема реализована в системе Polycom EagleEye Producer. Основной блок, помимо управления камерой, занимается еще аналитическими подсчетами.

Производитель говорит о том, что это важный функционал системы. Честно скажу, я не встречался с заказчиками, которых интересовала бы аналитика: сколько людей сидит в зале, как они приходят и уходят.

Автотрекинг от Panasonic
Другие производители, например, Панасоник, действуют по той же схеме. В блок встроена маленькая камера, которая управляет основной, и обладает возможностью трекинга спикера. Это позволяет в автоматическом режиме отслеживать перемещение человека и записывать его изображение в нужном размере, например, лицо крупным планом или фигуру целиком.
  • Подобные системы востребованы на рынке потому, что многим заказчикам требуется уменьшить количество обслуживающего персонала. В случае переговорных комнат часто бывает, что нужно вообще избавиться от оператора, чтобы посторонний человек не услышал лишнего на совещании руководителей. Да и в каждую аудиторию вуза не посадишь оператора, который бы отслеживал передвижения лектора.
Панорамное видео
Еще одно интересное решение – это использование сферических (или панорамных) камер.
Panacast 2
  • Функционал: съемка 180°;
  • Применение: переговорные, залы
Стартап 2015 года - PanaCast 2 - маленькая сферическая камера с углом обзора 180° и возможностью цифрового зума

За счет определения угла местонахождения спикера можно делать цифровой зум, выделять ту или иную область и транслировать ее удаленному абоненту. Если люди разговаривают одновременно со всех сторон, то камера выдает все 180°.

Камера подключается по USB и поддерживается популярными приложениями для совместной работы, например, Skype или Google Hangouts, без установки драйверов или другого ПО.
Polycom RealPresence Centro
  • Функционал: съемка 360° ;
  • Применение: переговорные, залы
Как работает система?
  • Камера 360° снимает одновременно во все стороны.
  • Блок микрофонов, расположенный в нижней части устройства, определяет направление аудио сигнала, то есть месторасположение говорящих.
  • После этого система автоматически переключается либо на картинку 360°, развернутую в полотно, либо на отдельный сегмент и транслирует это изображение удаленному абоненту.
Не знаю, насколько эта концепция приживется, но она, как минимум, очень интересна. На сайте Polycom есть видео, в котором показано, как с помощью RealPresence Centro, установленного в центре сцены, транслируется выступление детского хора. Видео и звукоряд при этом настолько реалистичны, что удаленные зрители ощущают себя практически в центре концерта.
Будет ли развиваться панорамное видео, пока не понятно потому, что это «свежачок» Но сама идея использования сферических камер, мне кажется, заслуживает пристального внимания. У меня уже есть камера 360° (куплена на Amazon за 160$), и она вполне ничего. Ее можно использовать со Skype, почему бы нет?
Кастомные решения
Наведение через микрофонные массивы
Иногда оказывается, стандартный функционал «коробок» недостаточен и/или интегратор хочет разработать интеллектуально более сложную систему, которую можно защищать и продавать, как собственную разработку.

В этом смысле интересно посмотреть на использование микрофонных массивов, как отдельных устройств. Сейчас есть несколько производителей, выпускающих микрофонные массивы, и во всех моделях доступен расширенный API.

Рассмотрим самый простой вариант решения.
Настольные микрофонные массивы
  • Функционал: определение «зоны», API через IP;
  • Применение: переговорные, залы
Как это работает:
  • Есть маленький прибор (здесь Shure MXA310), который стоит на столе.
  • У него есть 4 отдельных луча, с помощью которых он определяет направление говорящего.
  • Получая по API номер этого луча, можно автоматически наводить нужную камеру на зону, где в данный момент говорит человек.
Человек не нажимает на кнопку, люди просто сидят и общаются, а система работает автоматически. Таких микрофонов в зале может быть несколько, их количество ничем не ограничено, и можно делать большие пространства.


Потолочные микрофонные массивы
  • Функционал: 8 конфигурируемых лучей, API
  • Применение: переговорные, залы
Более сложный вариант – использование потолочного микрофонного массива (здесь Shure MXA910). Он выглядит, как обычная армстронговская плитка. В нем уже 8 независимых лучей, которые можно использовать для того, чтобы определять, откуда идет звук.

Как и в предыдущем случае люди, просто сидят за столом и разговаривают, а висящее над ними оборудование точно определяет, кто из них говорит. Количество микрофонов также ничем не ограничено, что позволяет работать с очень большими пространствами.
Мы тестировали микрофонные массивы Shure, если интересно, можете познакомиться с результатами тестов.
Микрофонные массивы Phoenix Audio Condor MT600





Еще один пример использования микрофонного массива для автоматического наведения, когда от самого пользователя ничего не требуется - микрофонный массив Phoenix Audio Condor MT600.

Схема работы та же: получение по API номер активного луча, и, исходя из этого, наведение камеры на ту или иную зону.

Микрофонные массивы в устройствах для UC
Последний тренд производителей оборудования ВКС – комплексные решения. Основная идея – создать единый прибор, который устанавливается под телевизором и все работает.

В таких устройствах предусмотрены микрофонный массив с камерой (одной или несколькими), система для передачи данных с мобильных устройств и встроенные скриптеры. Микрофонный массив используется для точного позиционирования людей, и одновременно является источником аудио. Камера снимает и в цифровом зуме выделяет нужного человека.
Трекинг лица: OpenCV
Еще более сложное решение – наведение камер с трекингом лица. Технология распознавания лиц, которая используется, например, в Cisco и Polycom, сейчас открыта.

Есть совершенно уже старенькая, но работающая библиотека OpenCV, которая занимается детектированием лиц внутри кадра. Если ей подать на вход видеопоток, она выдаст координаты лица. Это позволяет сделать автоматическую систему наведения камер с трекингом лица.
Пример проекта:
«Конференц-связь +
Автонаведение +
Трекинг лица»
  • Функционал: отслеживание спикера при его перемещении внутри кадра;
  • Применение: залы любых размеров
В 2014 г ГК «Атанор» реализован проект конференц системы с автонаведением, но к камерам подвязан еще и трекинг лица.

Зачем было усложнять? Дело в том, что в обычной схеме при нажатии на кнопку «Включение микрофона» камера наводится на некоторую зону. Если в этой зоне выцепить лицо, после этого его можно вести. То есть человек может развалиться, повернуться, отъехать назад/вперед, и все равно он будет в центре кадра.
  • На мой взгляд, это отличное решение, поскольку такая простая доработка позволяет сильно увеличить ценность проекта для клиента. Этот новый функционал можно использовать, как некий интеллектуальный багаж: защищать в проекте и продавать, как отдельный продукт.
Идентификация лица: Dlib
Но это еще не все. Дело в том, что сейчас есть библиотека Dlib, которая вместе с отдельными фреймворками (OpenFace, OpenBR) позволяет еще и идентифицировать лица. Если библиотека OpenCV детектировала лицо внутри кадра, то эти библиотеки позволяют определять, что за человек сидит в кадре.
Например, у Cisco есть система, которая автоматически прописывает титры людей, находящихся в переговорной комнате: «Павел Куделин»

На мой взгляд, это интересно: люди сидят в конференц-зале, система автоматически определяет их по своей базе, и проставляет титры – кто есть кто. Как говорят специалисты, примерно до 100-200 лиц определятся очень быстро, буквально за доли секунды. После этого можно задать, кто ВИП-председатель всего мероприятия, и уже исходя из этого строить бизнес-логику наведения камер. Это совсем другой подход.
Проект:
«Конференц-связь+
Cam + управление
»
На текущий момент, если говорить о больших залах, самым распространенным решением является другой вариант, который включает в себя:

  • Центральный блок конференц системы и микрофоны;
  • Матричный коммутатор (отдельная система коммутации видео с камер);
  • Независимый блок управления (например, контроллеры Crestron, AMX, CUE, Iridium), который занимается приемом сигналов с центрального блока и выдачей сигналов управления камерами.
Главное преимущество такого решения – его масштабируемость. Оно позволяет использовать сколько угодно камер и обслужить неограниченное количество людей.

Это может быть зал коллегии ООН на 1000 участников - все равно конференц система будет выдавать номер нужного человека.
Другой плюс данного решения - возможность переводить систему из ручного в автоматический режим и обратно. Обычно бывает так – либо ручками, либо красота. А что делать, если в ходе мероприятия случилось непредвиденное и возникла необходимость взять контроль за управлением системой? В данном случае оператор всегда может вмешаться, когда нужно, а в остальное время – спать.
Пример проекта:
« Конференц-связь +
Автонаведение по голосу (20 микрофонов в зале)
»

  • Реализация: 2005 год
Грабли интегратора,
или примеры неудачных проектов

Количество камер должно быть адекватно помещению
Очень интересный проект, но, на мой взгляд, камеры выставлены слишком часто и слишком видно - богато! Пожалуйста, не делайте так. Можете себе представить, как работает этот зал: человек начинает говорить, и все камеры, как в «Терминаторе» или в «Матрице», начинают вращаться и наводиться на него. Это выглядит страшновато и совсем не отвечает концепции удобного общения.

Всегда нужно точно управлять движением человека и понимать, куда он будет смотреть во время видеоконференцсвязи.

Ошибка этого проекта (которую многие допускают) – не понятно, куда будут смотреть участники - на большой экран или на боковую панель? В этом случае удаленный абонент может увидеть либо лицо человека, либо его профиль, а иногда и затылок.
Отслеживайте высоту установки камер
Главная ошибка этого зала - камеры висят слишком высоко. Все-таки залы нужны для принятия решений, а решения принимают серьезные люди, которые бывают лысоваты. Если камера смотрит прямо сверху на человека, это очень некрасиво.
Вопросы-ответы
- Существуют ли готовые гибридные решения с подстройкой камер по лицу после наведения на нужную зону, то есть смешение лица и зоны?
- Готовые решения есть, об одном из них рассказывал Сергей Юцайтис в своем докладе. Но эти решения предназначены только для переговорных комнат и ограничены расстоянием до 10 метров до человека.

Готовых решений «с кнопочкой», то есть с пресетом, нет. Это отдельная вотчина для интегратора. Пожалуйста, делайте и продавайте, как готовое решение.
- Наши коллеги-продавцы спрашивали, используется ли технология автоматического наведения на телевидении? Или там всегда сидит оператор и, потея, вручную наводит?
- Отличный вопрос, спасибо! Я недавно выступал на конференции «Интеграция электронных СМИ в соцсети» (Академия НАТ), где присутствовали владельцы региональных каналов. Как раз с ними был такой разговор. Дело в том, что сейчас это тренд на телевидении – снимать без операторов, так как денег становится все меньше.

Есть несколько очень интересных инсталляций рекламных каналов (магазины на диване и прочие), которые сделаны только на PTZ камерах.
Error get alias
У Вас есть вопросы?
Напишите нам или укажите свой телефон для заказа обратного звонка
В ближайшее время мы ответим Вам по почте или перезвоним