Теория цифровой обработки видеоизображения

Теория цифровой обработки видеоизображения

Сегодня словами «видеообработка» и «цифровое видео» уже никого не удивишь. За последнее десятилетие устройства обработки видеосигналов прошли огромный путь развития, появилось множество специальных терминов и способов обработки видеоизображения.

1. Классификация устройств обработки видеосигналов

Мы попытаемся рассказать о некоторых устройствах и методах обработки видеосигналов. Все устройства обработки видеосигналов (УОВ) можно разделить на несколько категорий:

  1. Специализированные устройства, выполняющие ограниченный набор функций и работающие, как правило, в реальном времени. К этой категории относятся всевозможные видеомикшеры, видеокоммутаторы, генераторы спецэффектов, синхронизаторы, транскодеры и т. д.
  2. Устройства обработки видеосигналов на базе компьютеров PC, Macintosh, Silicon Graphics, Amiga, Alfa DEC и т. д. Обычно эти устройства выполняются в виде плат или внешних блоков активно взаимодействующих с компьютером при помощи программного обеспечения. Такие устройства редко работают в реальном времени, но имеют практически неограниченные возможности.
  3. Управляющие и вспомогательные устройства, которые управляют видеоаппаратурой (видеомагнитофонами, видеокамерами, видеомикшерами, коммутаторами и т. д.). Они могут быть как автономными, так и входить в состав компьютерного видеокомплекса. К этой категории относятся видеомонтажные контроллеры, платы линейного видеомонтажа, управляющие системы и т. д.

Следует отметить, что большинство вышеперечисленных устройств используют цифровую обработку сигналов, которая либо имеет ряд преимуществ, либо является единственно возможной. Цифровая техника достаточно специфична, поведение интеллектуальных машин иногда противоречит повседневному опыту человека и трудно воспринимается. Специальное образование, вскрывающее подноготную цифровых процессов, снимает такие трудности.

Однако приходится считаться с тем, что подавляющее большинство работников вещательных организаций и компаний, а тем более представителей частных и домашних видеостудий не знакомы с математической логикой, теорией и физикой цифровых процессов обработки многомерных массивов данных и другими премудростями соответствующих научных дисциплин и, вероятнее всего, никогда не познакомятся. Все что им надо — это адаптированное изложение основ и особенностей поведения цифровых систем. Специальной литературы этого рода у нас нет, но необходимость в ней — огромная. Мы попытаемся в этом материале дать эти основы, которые необходимы для правильного выбора специальных устройств обработки видеосигналов, что в конечном результате отражается на эффективности работы, получении оптимальных результатов и экономии средств. 

2. Что такое видеомонтаж.

Любой отснятый видеоматериал перед тем как подать в эфир, записать в чистовую видеоролик или видеофильм надо смонтировать, т. е. убрать «лишние» видеосюжеты, состыковать отдельные кусочки видеоматериала, выполнить между ними переходы, добавить спецэффекты и титры. Это и призваны сделать те устройства, о которых мы будем рассказывать. Существует три вида видеомонтажа: линейный, нелинейный и гибридный.

  1. Линейный 
    подразумевает перезапись видеоматериала с двух (или нескольких) видеоисточников на видеоприемник (видеозаписывающее устройство) с попутным вырезанием ненужных и «склейкой» нужных видеосцен и добавлением эффектов, о которых говорилось выше. Недостаток — потеря качества (исключение составляет, пожалуй лишь профессиональные форматы представления видеоcигнала, напр. Betacam SP), высокая трудоемкость и большое количество видеоаппаратуры.
  2. Нелинейный 
    осуществляется на базе специализированных компьютерных систем. При этом черновые видеоматериалы сначала заносятся " в компьютер«, а затем производятся монтажные процедуры. Достоинства — практически отсутствие потерь качества при многократных «перемещениях» видеосюжетов, значительная экономия видеоаппаратуры. Недостатки — работа не в реальном времени, большое время обработки видеоматериала, высокая трудоемкость (попробуйте оттитровать полчаса видеоматериала, что необходимо, например, при создании учебных фильмов), ограниченный объем заносимого в компьютер видеоматериала.
  3. Гибридный
    вид сочетает в себе достоинства первых двух (нелинейная видеомонтажная система выступает в роли видеоисточника). Недостаток — как правило, более высокая цена.

Теперь расскажем о том, как устроен видеосигнал, в каком виде видеоизображение передается между различными устройствами обработки видеосигналов. Эти знания необходимы для правильного выбора и состыковки устройств, работающих в различных видеоформатах. 

3. Как устроен телевизионный сигнал.

Известно, что человеческий глаз воспринимает как единое целое красную (Red), зеленую (Green) и синюю (Blue) части видимого спектра. Таким образом, цветовое восприятие человека трехкомпонентное. Конечно, мы воспринимаем больше цветовых оттенков — считается, что 16 миллионов — но для нас, в силу особенностей цветового восприятия, все они сводятся к комбинациям этих трех главных цветов (в теории цвета их называют опорными). Исходя из этого, все телевизионные камеры и другие технические датчики цветных изображений формируют три сигнала — R, G, B, а в телевизионных и компьютерных мониторах экран одновременно сканируют три электронных луча, вызывая световые вспышки красного, зеленого и синего цветов. Глаз же при этом воспринимает только результирующее изображение во всем богатстве цветов реального мира.

В то же время для телепереноса цветного изображения через эфир технически эффективнее кодировать цвет иным образом. Дело в том, что глаз менее чувствителен к пространственным изменениям оттенков цвета, чем к изменениям яркости. Поэтому цветовая информация может передаваться с меньшей пространственной четкостью (разрешением). В результате исходные RGB-видеосигналы в телевидении перед передачей преобразуют (кодируют) в сигнал яркости Y и два цветоразностных сигнала U и V:

Y = 0.299R + 0.587G + 0.114B, U = R — Y, V = B — Y,

при этом U и V передаются с разрешением, в два раза меньшим, чем Y. Такое уменьшение объема передаваемой информации позволяет строить более дешевые системы. Выбор вышеуказанных коэффициентов преобразования определяется жестким требованием двусторонней совместимости черно-белых и цветных приемников — яркостной сигнал Y совпадает с формируемым в ч/б системах, ч/б приемники воспринимают только его. Что касается цветовых сигналов U и V, то они добавляются к яркостному сигналу путем модуляции специального гармонического сигнала (цветовой поднесущей) на частоте, лежащей в пределах спектра сигнала Y. В результате полосы яркостного сигнала и полного видеосигнала совпадают.

Модуляция поднесущей может осуществляться по амплитуде, фазе или частоте согласно U- и V- значениям. При приеме для точного определения величин модуляции необходима привязка к опорной несущей. Для этого в начале каждой строки передаются пакеты немодулированной несущей — так называемые синхроимпульсы. Таким образом телевизионный видеосигнал, с определенными оговорками, представляет собой композицию трех сигналов Y, U, V и синхроимпульсов. Такой сигнал называют композитным.

При приеме в цветном телевизоре осуществляется обратный процесс восстановления (декодирования):

R = Y + U, B = Y + V, G = Y — 0.509U — 0.194V

Телевизионное изображение воспроизводится путем последовательного сканирования электронными лучами по покрытому электролюминисцирующим веществом экрану. Сканирование происходит слева направо вдоль горизонтальных линий (телевизионных строк) и сверху вниз по строкам. Лучи пробегают строку за строкой сверху вниз до самого низа экрана, а затем возвращаются назад, и опять — слева-направо сверху-вниз. За счет инерционности глаза в процессе подобного сканирования вызываемые цветовые вспышки света сливаются в линии, а затем в полное изображение. В результате полный телевизионный кадр представляет собой совокупность последовательно высвечиваемых линий, передающих пространственное распределение изображения. Установлено, что для восприятия человеческим глазом этой совокупности как целого она должна обновляться не реже 50 раз каждую секунду. В телевидении был реализован чересстрочный режим развертки, при котором за каждый проход луч пробегает только половину линий — сначала четные, затем — нечетные. Таким образом, каждый телевизионный кадр оказывается разделенным на два полукадра — их называют полями. В результате, когда мы говорим о вертикальной частоте в 50 Гц, кадровая оказывается в два раза меньше — 25 Гц.

В настоящее время в эксплуатации находятся три совместимых системы цветного телевидения — NTSC, PAL, SECAM. Основные различия между ними заключаются в конкретных методах кодирования телевизионного сигнала (см. таблицу).

Тип системы NTSC PAL SECAM
Вертикальная частота развертки, Гц 60 50 50
Горизонтальная частота развертки, кГц 15.374 15.625 15.625
Число строк в кадре 525 625 625
Число видимых (активных) строк в кадре 480 576 576
Тип модуляции цветовой поднесущей Амплитудная Амплитудная Частотная
Полоса видеосигнала, МГц 4.2 5 для B/G, 5.5 для I, 6 для D/K
Частота цветовой поднесущей, МГц 3.60 4.43 4.41 по U, 4.25 по V
Разнос несущих видео/звук, МГц 4.5 5.5 для B/G, 6 для I, 6.5 для D/K
Полная ширина сигнала, МГц 6 7 для B/G, 8 для I/D/K

Кратко остановимся на особенностях этих систем, рассматривая их в хронологическом порядке.

  • NTSC (National Television System Color) 
    первая система цветного телевидения, нашедшая практическое применение. Она была разработана в США и уже в 1953 г. принята для вещания, а в настоящее время вещание по этой системе ведется также в Канаде, большинстве стран Центральной и Южной Америки, Японии, Южной Корее и Тайване. Именно при ее создании были выработаны основные принципы передачи цвета в телевидении. В NTSC каждая телевизионная строка содержит составляющую яркости Y и два сигнала цветности EI = 0.737U — 0.268V, EQ=0.478U+0.413V. Здесь переход от осей цветового кодирования U, V к осям I, Q обусловлен необходимостью сужения ширины полос цветовых поднесущих всего до ¦ 0.5 Мгц (в NTSC используется самая узкая полоса видеосигнала). Поскольку глаз человека мелкие детали зеленого и пурпурного цветов (ось Q) воспринимает как неокрашеные (ось I — перпендикулярная к Q), то для сигналов EQ и EI это удается без дополнительных потерь в разрешении. Цветоразностные сигналы передаются путем амплитудной модуляции поднесущих на одной и той же частоте, но с фазовым сдвигом на 90¦ . Последнее обстоятельство является принципиально важным для разделения сигналов при приеме. Однако, из-за неизбежных нелинейных искажений в канале передачи поднесущие оказываются промодулированными сигналом яркости как по амплитуде, так и по фазе. В результате в зависимости от яркости участков изображений изменяются их цветовой тон. Например, человеческие лица на изображении окрашиваются в красноватый цвет в тенях и в зеленоватый — на освещенных участках. Это и является основным недостатком системы NTSC.C целью его устранения немецкой фирмой Telefunken в 1963 г. была разработана система
  • PAL (Phase Alternation Line)
    здесь использована аналогичная амплитудная модуляция цветоразностных сигналов EU=0.877U и EV=0.493V с фазовым сдвигом на 90¦ , но через строку дополнительно производится изменение знака амплитуды составляющей EU. В результате при восстановлении в декодере цветовые составляющие надежно разделяются сложением/вычитанием сигналов цветности последовательных телевизионных строк, и паразитная яркостная модуляция приводит лишь к некоторому изменению цветовой насыщенности. Усреднение сигналов двух строк обеспечивает также повышение отношения сигнал/шум, но приводит к снижению вертикальной четкости в два раза. Впрочем частично последнее компенсируется увеличением числа телевизионных строк разложения. Система PAL принята в большинстве стран Западной Европы, Африки и Азии, включая Китай, Австралию и Новую Зеландию.
  • SECAM (SEquentiel Couleur A Memoire) 
    первоначально была предложена во Франции еще в 1954 г., но регулярное вещание после длительных доработок было начато только в 1967 одновременно во Франции и СССР. В настоящее время она принята также в Восточной Европе, Монако, Люксембурге, Иране, Ираке и некоторых других странах. Основная особенность системы — поочередная, через строку, передача цветоразностных сигналов (DR= 1.9U, DB=1.5V) с дальнейшим восстановлением в декодере путем повторения строк. При этом в отличие от PAL и NTSC используется частотная модуляция поднесущих. В результате цветовой тон и насыщенность не зависят от освещенности, но на резких переходах яркости возникают цветовые окантовки. Обычно после ярких участков изображения окантовка имеет синий цвет, а после темных — желтый. Кроме того, как и в системе PAL, цветовая четкость по вертикали снижена вдвое.

Таковы общие принципы кодирования цвета в различных видеосистемах телевидения. Но этим многообразие стандартов не ограничивается. Дело в том, что для формирования полного телевизионного сигнала к видео необходимо добавить звук, а полученный так называемый низкочастотный телевизионный сигнал передать через эфир путем модуляции гармоники одного из доступных радиоканалов (48,5...66 МГц — первый частотный диапазон, 76...100 МГц — второй частотный диапазон, 174...230 МГц — третий частотный диапазон, 470...790 МГц — четвертый частотный диапазон). И здесь даже в рамках одной системы существуют различия, связанные с конкретной шириной спектра видеосигнала и его разносом со звуковой частью, полярностью амплитудной модуляции радиоканала изображения и типом модуляции радиоканала звука. В таблице представлены основные параметры телевизионных стандартов стран мира.

Стандарт Число строк Ширина канала, МГц Полоса в/сигнала, МГц Разнос видео/ звук, МГц Полярность модуляции видео Тип модуляции несущей звука
A 405 5 3 3.5 + AM
B 625 7 5 5.5 - ЧМ
С 625 7 5 5.5 + АМ
D 625 8 6 6.5 - ЧМ
E 819 14 10 11.15 + АМ
F 819 7 5 5.5 + AM
G 625 8 5 5.5 - ЧМ
H 625 8 5 5.5 - ЧМ
I 625 8 5 6 - ЧМ
K 625 8 6 6.5 - ЧМ
L 625 8 6 5.5 + AM
M 525 6 4.2 4.5 - ЧМ
N 625 6 4.2 4.5 - ЧМ

Нелишне напомнить, что в России принят стандарт SECAM D/K (первая буква относится к диапазону метровых волн, вторая — дециметровых), во Франции — SECAM E/L, Монако — SECAM C/L, Иране — SECAM B, Германии — PAL B/G, Англии — PAL A/I, Бельгии — PAL B/H, Бразилии — PAL M/M, Китае — PAL D/K, в США, Японии и Тайване — NTSC M/M.

В заключении отметим, что французский и российский SECAM существенно отличаются в модуляции несущего радиосигнала — как по видео, так и по звуку. А на уровне низкочастотных сигналов отличий нет. Основное отличие между SECAM B/G и D/K — в частоте разноса звука от видео. В то же время с точки зрения модуляции радиосигналов отличий между PAL D/K и SECAM D/K нет. Это позволяет использовать телевизионный тюнер, настроенный на PAL D/K, для выделения нашего SECAM из высокочастотного сигнала. Очевидно, что полученный при этом низкочастотный сигнал все же необходимо подавать именно на SECAM-декодер.

4. Какие бывают форматы представления видеосигнала.

Как уже отмечалось, низкочастотный телевизионный видеосигнал является композитным, т.е. представляет собой результат сложения яркостного сигнала Y, двух цветовых поднесущих, модулированных сигналами цветности U и V, а также синхроимпульсов, причем частоты цветоразностных сигналов лежат в пределах полосы спектра яркостного сигнала. Но из-за строчной структуры телевизионного разложения в спектральной области все они имеют гребенчатую структуру, расcтояния между соответствующими пиками которых равны строчной частоте. При этом частоты поднесущих выбраны так, чтобы спектральные пики сигналов цветности оказались между пиками яркостного сигнала. В результате путем использования специальных гребенчатых фильтров возможно эффективное разделение этих сигналов. Однако, подобные фильтры весьма сложны и дороги, а потому в основном используются в профессиональной аппаратуре высокого разрешения.

В бытовых устройствах ограничиваются более простыми полосовыми фильтрами, заметно снижающими четкость изображений. Так в видеомагнитофонах и камерах классов VHS (Video Home System) и Video-8 используются только композитные видеосигналы, при этом разрешение ограничено 240 телевизионными линиями. Кроме того, даже полное использование всех различий сигналов все равно не позволяет идеально разделить их. Поэтому более эффективным оказывается использование не единого композитного сигнала, а двух композитных сигналов Y/C: Y, как и ранее, несет яркостный сигнал и синхроимпульсы, а C (Chrominance) — модулированные цветовые сигналы. Такой сигнал называют S-Video, он используется при записи/воспроизведении в аппаратуре классов S-VHS и Hi-8. Считается, что при этом обеспечивается разрешение в 400 линий.

Следующим шагом к повышению качества является переход к компонентному сигналу YUV. Он используется в профессиональной аппаратуре класса Betacam и связан с поддержкой разрешения до 500 линий. И, наконец, последним в этой череде является RGB-представление: при этом отсутствуют какие-либо кодирование и модуляция, наиболее простая и точная передача сигнала. Однако, в силу вышеуказанных особенностей зрительного восприятия человека достигаемое здесь повышение качества уже становится визуально несущественным. Поэтому, подобное представление реально используется только в высокоточной научной измерительной аппаратуре.

За последние несколько лет появилось большое число различных цифровых форматов представления видеосигнала. Аппаратура, работающая в этих форматах выпускается рядом фирм — законодателей мод в видеотехнике, такими как Sony, Panasonic, JVC и т. д. Такая аппаратура стала появляться и на нашем рынке, хотя пока она слишком дорога для «российского» уровня, особенно для бытового. Приведем сводную таблицу существующих форматов, в том числе и цифровых, к которым вернемся в дальнейшем.

Сравнительные характеристики различных форматов записи на магнитную ленту.

Формат записи Тип записи Вид сигнала Ширина ленты,мм Скорость ленты, мм/сек Отношение сигнал/шум, дБ Коэффициент компрессии
VHS аналоговая композитный 12.65 23.39 43 -
B 625 7 5 5.5 - ЧМ
S-VHS аналоговая Y/C 12.65 23.39 45 -
Hi8 аналоговая Y/C 8 20.5 44 -
Betacam аналоговая YUV 12.65 101.5 49 -
Betacam SP аналоговая YUV 12.65 101.5 51 -
Betacam SX цифровая YUV 4:2:2 12.65 59.575 51 10:1
Digital Betacam цифровая YUV 4:2:2 12.65 96.7 55 2:1
DV цифровая YUV 4:2:0 6.35 18.831 54 5:1
DVCam цифровая цифровая 6.35 28.2 54 5:1
DVCPro цифровая YUV 4:1:1 6.35 33.813 54 5:1
DVCPro50 цифровая YUV 4:2:2 6.35 67.626 62 3.3:1
Digital-S цифровая YUV 4:2:2 12.65 57.8 55 3.3:1

Самым «непонятный» в этой таблице столбец это «вид сигнала». Что означают обозначения YUV 4:2:2, YUV 4:1:1 и т. п.? Настало время поговорить о цифровом представлении телевизионного видеосигнала.

5. Цифровое представление телевизионного сигнала.

По своей массе и производственным мощностям аналоговая вещательная аппаратура все еще преобладает, но очень быстро сдает одну позицию за другой. Как и ожидалось, переход к цифровым вещательным комплексам осуществляется, главным образом, за счет поэтапного встраивания цифрового оборудования в аналоговое окружение. Процесс этот идет повсеместно, но в разных странах темпы перехода различны.

В наиболее развитых странах уже сейчас можно говорить о преобладании цифровой аппаратуры, в некоторых она просто отсутствует. Россию в этом плане, пожалуй, следует отнести к слаборазвитым странам. Бурному внедрению цифровых технологий в наше вещание, естественно, препятствует отсутствие необходимых средств у большинства телевизионных и радиовещательных компаний страны. Тем не менее, дело сдвинуто с мертвой точки и идет с впечатляющим ускорением. Что предлагают цифровые технологии на разных стадиях подготовки и распространения вещательных программ, как влияют на художественные возможности, о чем следует помнить, работая с цифровой аппаратурой, и чего надо опасаться, особенно в системах с компрессией сигналов — ответы на все эти вопросы следует знать всем работникам вещательных организаций — инженерно-техническому персоналу и творческим работникам.

Цифровая техника стала постепенно проникать в телевидение в семидесятые годы. Первыми появились цифровые корректоры временных искажений, затем — кадровые синхронизаторы, генераторы специальных эффектов, микшеры, коммутаторы. Но говорить о возможности полномасштабного перехода к цифровому телевидению стали десять лет назад, когда появился первый промышленный цифровой видеомагнитофон, разработанный фирмой Sony. Это — выдающееся событие для телевидения.

Прежде всего надо отметить, что параметры, характеризующие качество воспроизводимого изображения и звука в цифровом аппарате, превосходили те значения, которые были типичными для аналоговых магнитофонов. Но появление цифровой видеозаписи означало не просто значительное улучшение параметров. Эффект накопления искажений, присущий всем аналоговым системам, например, ограничивает предельно допустимое число перезаписей, которые могут быть сделаны на аналоговом магнитофоне. Так, например, перезапись на магнитофонах формата VHS, без потери качества в пределах нормы, не допускается вообще, формат S-VHS допускает 1-2 перезаписи, а Betacam SP три-четыре. А вот цифровые системы практически свободны от эффекта накопления искажений. Если в аналоговом аппарате предельно допустимое число перезаписей исчисляется единицами, то в цифровом видеомагнитофоне визуальное качество изображения не изменяется после десятков перезаписей. А это уже не просто количественное улучшение. Можно сказать, что предельно допустимое количество перезаписей уже практически не ограничивает возможности создателей телевизионных программ.

Десятилетия основным носителем в системах видеозаписи была магнитная лента. Но сейчас запись на диск завоевывает свое место в видеотехнике. Дисковые системы дороже ленточных и имеют меньшую емкость, но они обладают весьма важным преимуществом — практически мгновенным (в сравнении с ленточными системами) доступом к любому фрагменту записи. Это создает новые возможности для компоновки и монтажа.

Таким образом, появление цифровой видеозаписи ознаменовало начало кардинальных изменений в технологии производства телевизионных программ. Но цифровая техника порождает и проблемы. Полоса частот цифровых сигналов значительно шире полосы их аналоговых предшественников. Например, полоса частот, занимаемая телевизионным видеосигналом в цифровой форме, составляет сотни мегагерц. Так, при передаче телевизионного сигнала в цифровой форме требуются каналы связи с пропускной способностью до сотен мегабит в секунду. Использование каналов, не вносящих ошибки в цифровой поток и обладающих столь большой пропускной способностью, может оказаться невозможным или экономически невыгодным. При плотностях записи информации, которые приходится использовать, например, в цифровых видеомагнитофонах, чтобы добиться расхода ленты, сравнимого с расходом в аналоговых аппаратах, ошибки при воспроизведении просто неизбежны. Поэтому сам факт преобразования аналоговых сигналов в цифровую форму и использование двоичных сигналов в качестве носителя информации еще не гарантирует высокого качества.

Принципиальный способ решения проблем передачи и записи с высокой степенью помехозащищенности был обоснован Шенноном. Он заключается в кодировании сигнала. К системам кодирования в цифровой видеотехнике предъявляются весьма многочисленные и часто противоречивые требования. Поэтому на практике кодирование всегда выполняется в несколько приемов. Сейчас принято выделять следующие основные виды: кодирования источника информации с целью преобразования сигнала в цифровую форму и его экономное представление путем сжатия или, как часто говорят, компрессии; кодирования с целью обнаружения и исправления ошибок; канального кодирования с целью согласования параметров цифрового сигнала со свойствами канала связи и обеспечения самосинхронизации.

6. Аналого-цифровое преобразование сигналов.

Для преобразования любого аналогового сигнала (звука, изображения) в цифровую форму необходимо выполнить три основные операции: дискретизацию, квантование и кодирование.

Дискретизация — представление непрерывного аналогового сигнала последовательностью его значений (отсчетов ). Эти отсчеты берутся в моменты времени, отделенные друг от друга интервалом, который называется интервалом дискретизации. Величину, обратную интервалу между отсчетами, называют частотой дискретизации. На рис. 1 показаны исходный аналоговый сигнал и его дискретизированная версия. Картинки, приведенные под временными диаграммами, получены в предположении, что сигналы являются телевизионными видеосигналами одной строки, одинаковыми для всего телевизионного растра.

Рис.1 Аналого-цифровое преобразование. Дискретизация.

Понятно, что чем меньше интервал дискретизации и, соответственно, выше частота дискретизации, тем меньше различия между исходным сигналом и его дискретизированной копией. Ступенчатая структура дискретизированного сигнала может быть сглажена с помощью фильтра нижних частот. Таким образом и осуществляется восстановление аналогового сигнала из дискретизированного. Но восстановление будет точным только в том случае, если частота дискретизации по крайней мере в 2 раза превышает ширину полосы частот исходного аналогового сигнала (это условие определяется известной теоремой Котельникова). Если это условие не выполняется, то дискретизация сопровождается необратимыми искажениями. Дело в том, что в результате дискретизации в частотном спектре сигнала появляютсся дополнительные компоненты, располагающиеся вокруг гармоник частоты дискретизации в диапазоне, равном удвоенной ширине спектра исходного аналогового сигнала. Если максимальная частота в частотном спектре аналогового сигнала превышает половину частоты дискретизации, то дополнительные компоненты попадают в полосу частот исходного аналогового сигнала. В этом случае уже нельзя восстановить исходный сигнал без искажений. Теория дискретизации приведена во многих книгах.

Рис.2 Аналого-цифровое преобразование. Искажение дискретизации.

Пример искажений дискретизации приведен на рис. 2. Аналоговый сигнал (предположим опять, что это видеосигнал ТВ строки) содержит волну, частота которой сначала увеличивается от 0,5 МГц до 2,5 МГц, а затем уменьшается до 0,5 МГц. Этот сигнал дискретизируется с частотой 3 МГц. На рис. 2 последовательно приведены изображения: исходный аналоговый сигнал, дискретизированный сигнал, восстановленный после дискретизации аналоговый сигнал. Восстанавливающий фильтр нижних частот имеет полосу пропускания 1,2 МГц. Как видно, низкочастотные компоненты (меньше 1 МГц) восстанавливаются без искажений. Волна с частотой 1,5 МГц исчезает и превращается в относительно ровное поле. Волна с частотой 2,5 МГц после восстановления превратилась в волну с частотой 0,5 МГц (это разность между частотой дискретизации 3 МГц и частотой исходного сигнала 2,5 МГц). Эти диаграммы-картинки иллюстрируют искажения, связанные с недостаточно высокой частотой пространственной дискретизации изображения. Если объект телевизионной съемки представляет собой очень быстро движущийся или, например, вращающийся предмет, то могут возникать и искажения дискретизации во временной области. Примером искажений, связанных с недостаточно высокой частотой временной дискретизации (а это частота кадров телевизионного разложения), является картина быстро движущегося автомобиля с неподвижными или, например, медленно вращающимися в ту или иную сторону спицами колеса (стробоскопический эффект).Если частота дискретизации установлена, то искажения дискретизации отсутствуют, когда полоса частот исходного сигнала ограничена сверху и не превышает половины частоты дискретизации.

Если потребовать, чтобы в процессе дискретизации не возникало искажений ТВ сигнала с граничной частотой, например, 6 МГц, то частота дискретизации должна быть не меньше 12 Мгц. Однако, чем ближе частота дискретизации к удвоенной граничной частоте сигнала, тем труднее создать фильтр нижних частот, который используется при восстановлении, а также при предварительной фильтрации исходного аналогового сигнала. Это объясняется тем, что при приближении частоты дискретизации к удвоенной граничной частоте дискретизируемого сигнала предъявляются все более жесткие требования к форме частотных характеристик восстанавливающих фильтров — она все точнее должна соответствовать прямоугольной характеристике. Следует подчеркнуть, что фильтр с прямоугольной характеристикой не может быть реализован физически. Такой фильтр, как показывает теория, должен вносить бесконечно большую задержку в пропускаемый сигнал. Поэтому на практике всегда существует некоторый интервал между удвоенной граничной частотой исходного сигнала и частотой дискретизации.

Квантование представляет собой замену величины отсчета сигнала ближайшим значением из набора фиксированных величин — уровней квантования. Другими словами, квантование — это округление величины отсчета. Уровни квантования делят весь диапазон возможного изменения значений сигнала на конечное число интервалов — шагов квантования. Расположение уровней квантования обусловлено шкалой квантования. Используются как равномерные, так и неравномерные шкалы. На рис. 3 показаны исходный аналоговый сигнал и его квантованная версия, полученная с использованием равномерной шкалы квантования, а также соответствующие сигналам изображения.

Рис.3 Аналого-цифровое преобразование. Квантование.

Искажения сигнала, возникающие в процессе квантования, называют шумом квантования. При инструментальной оценке шума вычисляют разность между исходным сигналом и его квантованной копией, а в качестве объективных показателей шума принимают, например, среднеквадратичное значение этой разности. Временная диаграмма и изображение шума квантования также показаны на рис. 3 (изображение шума квантования показано на сером фоне). В отличие от флуктуационных шумов шум квантования коррелирован с сигналом, поэтому шум квантования не может быть устранен последующей фильтрацией. Шум квантования убывает с увеличением числа уровней квантования.

Рис.4 и 5. Квантование.

На рис. 4 показаны изображение, квантованное на 4 уровня, и соответствующий такому числу уровней шум квантования, в котором нетрудно разглядеть сюжет исходного изображения. Изображение, показанное на рис. 5, получено с использованием 128 уровней. При таком уже сравнительно большом числе уровней шум квантования похож на обычный флуктуационный шум. Размах шума упал, поэтому пришлось при получении картинки шума квантования увеличить этот размах в 128 раз, чтобы шум был заметен. Еще несколько лет назад вполне достаточным казалось использовать 256 уровней для квантования телевизионного видеосигнала. Сейчас считается нормой квантовать видеосигнал на 1024 уровня. Число уровней квантования при формировании цифрового звукового сигнала намного больше: от десятков тысяч до миллионов.

Цифровое кодирование.

Квантованный сигнал, в отличие от исходного аналогового, может принимать только конечное число значений. Это позволяет представить его в пределах каждого интервала дискретизации числом, равным порядковому номеру уровня квантования. В свою очередь это число можно выразить комбинацией некоторых знаков или символов. Совокупность знаков (символов) и система правил, при помощи которых данные представляются в виде набора символов, называют кодом. Конечная последовательность кодовых символов называется кодовым словом. Квантованный сигнал можно преобразовать в последовательность кодовых слов. Эта операция и называется кодированием. Каждое кодовое слово передается в пределах одного интервала дискретизации. Для кодирования сигналов звука и изображения широко применяют двоичный код. Если квантованный сигнал может принимать N значений, то число двоичных символов в каждом кодовом слове n >= log2N. Один разряд, или символ слова, представленного в двоичном коде, называют битом. Обычно число уровней квантования равно целой степени числа 2, т.е. N = 2n.

Рис.6 Аналого-цифровое преобразование.

Кодовые слова можно передавать в параллельной или последовательной формах (рис. 6). Для передачи в параллельной форме надо использовать n линий связи (в примере, показанном на рисунке, n = 4). Символы кодового слова одновременно передаются по линиям в пределах интервала дискретизации. Для передачи в последовательной форме интервал дискретизации надо разделить на n подинтервалов — тактов. В этом случае символы слова передаются последовательно по одной линии, причем на передачу одного символа слова отводится один такт. Каждый символ слова передается с помощью одного или нескольких дискретных сигналов — импульсов. Преобразование аналогового сигнала в последовательность кодовых слов поэтому часто называют импульсно-кодовой модуляцией. Форма представления слов определенными сигналами определяется форматом кода. Можно, например, устанавливать в пределах такта высокий уровень сигнала, если в данном такте передается двоичный символ 1, и низкий — если передается двоичный символ 0 (такой способ представления, показанный на рис. 6, называют форматом БВН — Без Возвращения к Нулю). В примере рис. 6 используются 4-разрядные двоичные слова (это позволяет иметь 16 уровней квантования). В параллельном цифровом потоке по каждой линии в пределах интервала дискретизации передается 1 бит 4-разрядного слова. В последовательном потоке интервал дискретизации делится на 4 такта, в которых передаются (начиная со старшего) биты 4-разрядного слова.

Операции, связанные с преобразованием аналогового сигнала в цифровую форму (дискретизация, квантование и кодирование), выполняются одним устройством — аналого-цифровым преобразователем (АЦП). Сейчас АЦП может быть просто интегральной микросхемой. Обратная процедура, т.е. восстановление аналогового сигнала из последовательности кодовых слов, производится в цифро-аналоговом преобразователе (ЦАП). Сейчас существуют технические возможности для реализации всех обработок сигналов звука и изображения, включая запись и излучение в эфир, в цифровой форме. Однако в качестве датчиков сигнала (например, микрофон, передающая ТВ трубка или прибор с зарядовой связью) и устройств воспроизведения звука и изображения (например, громкоговоритель, кинескоп) пока используются аналоговые устройства. Поэтому аналого-цифровые и цифро-аналоговые преобразователи являются неотъемлемой частью цифровых систем.

Цифровые сигналы можно описывать с помощью параметров, типичных для аналоговой техники, например таких, как полоса частот. Но их применимость в цифровой технике является ограниченной. Важным показателем, характеризующим цифровой поток, является скорость передачи данных. Если длина слова равна n, а частота дискретизации FD, то скорость передачи данных, выраженная в числе двоичных символов в единицу времени (бит/с), находится как произведение длины слова на частоту дискретизации: C = nFD .

7. Цифровое представление компонентного видеосигнала.

Компонентный телевизионный видеосигнал может быть представлен в цифровой форме в соответствии с Рекомендацией ITU-R 601. Эта рекомендация устанавливает правила раздельной дискретизации, квантования и кодирования сигнала яркости Y и двух цветоразностных сигналов R-Y (Cr) и B-Y (Cb). Частота дискретизации для яркостного сигнала Y установлена равной 13,5 МГц, для цветоразностных сигналов — 6,75 МГц, т.е. частота дискретизации яркостного сигнала в 2 раза больше частоты дискретизации цветоразностных сигналов. Если взять, как принято, в качестве условной (базовой для иерархии цифровых стандартов) единицы частоту 3,375 МГц, то частоты дискретизации яркостного и двух цветоразностных сигналов будут находиться в соотношении 4:2:2, которое и дает часто используемое название стандарта.

Рис.7 Кодирование компонентного видеосигнала (4:2:2).

При таких значениях частот дискретизации можно практически преобразовать без искажений в цифровую форму сигнал яркости в полосе до 5,75 МГц, а цветоразностные сигналы — в полосе до 2,75 МГц (надо помнить о запасном интервале между граничной частотой сигнала и половиной частоты дискретизации). Стандарт 4:2:2 используется в качестве базового при оценке других вариантов дискретизации, и на значение 5,75 МГц часто ссылаются как на границу полной полосы ТВ сигнала. Рис. 7 показывает дискретизацию компонентного телевизионного сигнала на примере сигнала цветных полос. Длина кодового слова — 10 двоичных разрядов — битов (в первоначальном варианте — 8 битов), что позволяет перенумеровать 1024 уровня квантования. Однако числа 0..3 и 1020..1023 резервируются для цифровых синхронизирующих сигналов. Для квантования яркостного сигнала выделяется 877 уровней (значение черного в видеосигнале соответствует уровню квантования 64, а номинальное значение белого — уровню 940). Для квантования цветоразностных сигналов выделяется 897 уровней, причем нулевому значению аналогового сигнала соответствует уровень квантования 512.Кодированию подлежат гамма-корректированные сигналы. Приведенные диапазоны уровней квантования часто используются при сравнении с другими вариантами квантования. В этом случае на них часто ссылаются как на показатели динамического диапазона или полного разрешения по уровню сигнала, поскольку число уровней квантования определяет шум квантования и, соответственно, динамический диапазон. В этом же смысле иногда говорят о 10-битном разрешении.

Рис.8 Кодирование компонентного видеосигнала (4:2:2). Структура дискретизации.

Частоты дискретизации представляют гармоники строчной частоты, что обеспечивает неподвижную ортогональную структуру отсчетов ТВ изображения (рис. 8). Величинам 13,5 и 6,75 МГц кратна, как частота строчной развертки стандарта телевизионного разложения 625/50, так и частота развертки стандарта 525/60. Собственно, выбор в качестве базовой именно частоты 3,375 МГц во многом связан с соображениями кратности с частотами строчной развертки двух мировых стандартов разложения. Это важно потому, что позволило ввести единый мировой стандарт цифрового кодирования компонентного видеосигнала, при котором в активной части строки содержится 720 отсчетов яркостного сигнала и по 360 — каждого цветоразностного. Различие в системах 625/50 и 525/60 заключается в разном числе строк и несколько отличающейся длительности интервала гашения. Полная скорость передачи цифрового компонентного видеосигнала составляет 10?13,5 + 10?6,75 + 10?6,75 = 270 Мбит/с.

Рис.9 Кодирование компонентного видеосигнала (4:4:4).

Существуют и другие форматы представления компонентного сигнала в цифровом виде. Кодирование по стандарту 4:4:4 предполагает использование частоты 13,5 МГц для всех трех компонентов: R, G, B или Y, Cr, Cb (рис. 9). Это означает, что все компоненты передаются в полной полосе. Для каждого компонента в активной части кадра оцифровывается 576 строк по 720 элементов. Скорость цифрового потока при 10-битовом слове составляет 405 Мбит/с.

Рис.10 Кодирование компонентного видеосигнала (4:4:4:4).

Формат 4:4:4:4 описывает кодирование четырех сигналов (рис.10), три из которых являются компонентами видеосигнала (R, G, B или Y, Cr, Cb), а четвертый (альфа-канал) несет информацию об обработке сигнала, например, о прозрачности изображения переднего плана при наложении нескольких изображений. Дополнительным четвертым сигналом может также быть сигнал яркости Y в дополнении к сигналам основных цветов R, G, B. Частота дискретизации всех сигналов — 13,5 МГц, т.е. все сигналы передаются в полной полосе. Скорость передачи данных при 10 битах на слово равна 540 Мбит/с.

Рис.11 Кодирование компонентного видеосигнала (4:1:1).

Формат 4:1:1 предлагает двукратное уменьшение частоты дискретизации цветоразностных сигналов (в сравнении со стандартом 4:2:2). Яркостной сигнал Y дискретизируется с частотой 13,5 Мгц, а цветоразностные (Cr и Cb) — 3,375 Мгц. Это означает и двукратное уменьшение горизонтального разрешения в цвете. В активной части кадра 576 строк, каждая из которых содержит 720 элементов сигнала яркости и по 180 — цветоразностных сигналов (рис. 11).Формат 4:2:0 предлагает изображение, в котором яркостная компонента Y содержит в активной части кадра 576 строк по 720 отсчетов, а цветоразностные компоненты Cr и Cb — 288 строк по 360 отсчетов (рис. 12).

Рис.12 Кодирование компонентного видеосигнала (4:2:0).

Варианты кодирования 4:1:1 и 4:2:0 характеризуются одинаковой скоростью передачи данных — 202,5 Мбит/с для длины кодового слова в 10 бит и 162 Мбит/с — для 8 бит на слово. Если передавать только активную часть изображения (без обратного хода), то величина цифрового потока при 8 битах на слово составит 124 Мбит/с. Цифровые сигналы этих двух форматов могут быть получены из сигналов стандарта 4:2:2 путем предварительной обработки и децимации (прореживания отсчетов) с целью сокращения скорости потока. Формат 4:1:1 оказывается более удобным для систем со стандартом разложения 525/60, а формат 4:2:0 — для систем 625/50. Это связано с тем, что потеря вертикальной четкости более заметна в системе с меньшим числом строк (525/60), а потеря горизонтальной четкости более заметна в системе 625/50.

Рис.13 Кодирование компонентного видеосигнала (3:1:1).

Находит применение формат 3:1:1, в котором уменьшено (в сравнении с 4:2:2) горизонтальное разрешение и для яркостной компоненты (с 720 до 540), и для цветоразностных (с 360 до 180). Активная часть кадра содержит 576 строк с 540 отсчетами яркостной компоненты и 180 отсчетами для цветоразностных (рис. 13). Скорость передачи данных формата 3:1:1 составляет 135 Мбит/с при 8 битах на один отсчет. Для значительного сокращения скорости потока (например, в CD-ROM приложениях) разрешение яркостной компоненты снижается примерно в 2 раза по вертикали и по горизонтали, а цветоразностных — в 4 раза по вертикали и в 2 раза по горизонтали (в сравнении со стандартом 4:2:2).

Рис.14 Кодирование компонентного видеосигнала CIF (Common Interchange Format).

Такой вид представления описывается форматом CIF (Common Interchange Format). Один кадр этого формата содержит в активной части 288 строк по 352 отсчета для яркостной компоненты и 144 строки по 176 отсчетов для цветоразностных компонент (рис. 14). При передаче только активной части изображения скорость потока составляет около 30 Мбит/с при 8 битах на отсчет.

8. Цифровое представление композитного сигнала.

Композитный сигнал по системам PAL и NTSC дискретизируется с частотой 4fsc, равной четвертой гармонике цветовой поднесущей. Рис. 15 иллюстрирует дискретизацию и квантование композитного телевизионного видеосигнала (в качестве сигнала показан сигнал цветных полос). В системе NTSC строка содержит 910 отсчетов, из которых 768 образуют активную часть цифровой строки. В системе PAL на интервал аналоговой строки приходится нецелое число отсчетов с частотой 4fsc. Это обусловлено тем, что в системе PAL помимо четвертьстрочного сдвига используется дополнительный сдвиг частоты поднесущей на частоту кадров (25 Гц).

Рис.15 Кодирование композитного видеосигнала (4fsc).

Для сохранения непрерывного цифрового потока отсчетов, следующих с постоянной частотой 4fsc, в системе PAL длительность цифровой строки принята не равной длительности аналоговой строки. Все строки поля (за исключением двух) содержат по 1135 отсчетов, а две — по 1137.Длина кодового слова — 10 бит (в первоначальном варианте — 8). Необходимость цифрового кодирования фронта и среза синхроимпульсов композитного аналогового сигнала приводит к тому, что для диапазона от номинальной величины черного до номинального белого выделяется примерно на 30% меньше уровней квантования, чем для сигнала в компонентной форме. Скорость передачи данных для цифрового сигнала в системе NTSC составляет 143 Мбит/с, а в системе PAL — 177 Мбит/с. Несколько слов надо сказать о цифровом представлении звукового сигнала, так как многие цифровые устройства обработки видеосигналов имеют и звуковую часть, необходимую для синхронной обработки звука и изображения. Особенно это относится к нелинейным видеомонтажным платам и системам.

9. Цифровое представление звукового сигнала.

Для передачи звукового сопровождения в телевидении применяются цифровые сигналы стандарта AES/EBU. В соответствии с этим стандартом при аналого-цифровом преобразовании звука используется импульсно-кодовая модуляция с линейной шкалой квантования, причем на один отсчет для собственно звуковых данных отводится до 24 бит (рис. 16). Форма представления кодовых слов — последовательная. К каждому слову звуковых данных добавляются биты корректности отсчета V, состояния канала C, данных пользователя U. Эта группа из 27 бит, дополненная битом четного паритета P и синхрословом из 4 бит, образует субкадр из 32 бит.

Рис.16 Цифровое представление звукового сигнала AES/EBU.

Стандарт поддерживает два звуковых сигнала (например, 2 моно или 1 стерео канал), из отсчетов которых формируется кадр. 192 последовательных кадра объединяются в блок данных. Объединение в блок значимо лишь постольку, поскольку в пределах блока с помощью битов C передается информация, например, о характере сигнала (моно или стерео), о внесенных предискажениях. В пределах блока группируется и информация пользователя. Стандарт AES/EBU допускает ряд частот дискретизации, из которых наиболее удобной для телевидения является частота 48 кГц, при которой длительность блока составляет 4 мс. При этом устанавливается простое соотношение между частотой дискретизации звука и частотой видеокадров, что упрощает синхронизацию и передачу цифровых сигналов видео и звука по одной линии связи. Скорость передачи звуковых данных при частоте 48 кГц составляет 3,072 Мбит/с.

10. О синхронизации.

Мы «перевели» аналоговый видеосигнал в цифровой вид. А что дальше? Как, например, смикшировать два видеоизображения? Скажем честно, в аналоговом виде, имея два асинхронных видеоисточника это сделать невозможно. Переведенный в цифровой вид видеосигнал должен пройти через кадровый синхронизатор, который «привязывает» по времени один видеосигнал к другому. По сути дела кадровый синхронизатор представляет собой буфер специальной видеопамяти, обычно на один кадр. Специальная арбитражная логика позволяет через независимые шины данных одновременно и асинхронно записывать и считывать из него видеоинформацию. Скорость считывания может задаваться синхросигналами, выделенными из другого видеосигнала. Следовательно, выходной поток информации видеобуфера будет синхронным с видеоинформацией второго видеоисточника. Пример построения кадрового синхронизатора приведен на рис. 17.

Рис. 17 Блок-схема кадрового синхронизатора.

К сожалению, видеосигнал, выдаваемый аналоговыми видеоисточниками, особенно формата VHS и Video-8 не является стабильным. Длительность строки может изменяться на несколько микросекунд, тогда как для качественной и стабильной видеокартинки требуется высокая стабильность временной базы. Специальные сигнал генераторы могут выдавать временной интервал с точностью до 2 nS. Теперь представим, что в качестве второго видеоисточника в описанном выше кадровом синхронизаторе мы будем использовать этот стабильный генератор временной базы. При этом видеоинформация будет выводиться «привязанной» к стабильной временной базе независимо от «флуктуаций» входного видеосигнала. Такие устройства называются корректорами временных искажений (time base corrector).

Иногда в целях упрощения временной корректировке подвергается только строчная информация, т. е. восстановление сигнала происходит по сигналу предыдущей строки. При оцифровке нестабильного видеосигнала и «привязке» его к стабильной временной базе существует масса «подводных камней», например, если оцифровывать видеосигнал стабильной частотой дискретизации, то в разных строках будет разное число пикселей и встает вопрос что делать с «лишней» и где взять «недостающую» информацию. Разные фирмы решают этот вопрос по-разному, используя различные «фирменные» алгоритмы обработки сигналов. В простейшем случае «лишняя» информация просто отбрасывается с последующей фильтрацией нелинейных искажений. Этот фильтр может быть довольно сложным. Например, модно использовать адаптивный рекурсивный цифровой фильтр для устранения шумов из «зашумленной» видеокартинки.

Еще одна функция time-base корректора — это транскодирование и цветокоррекция видеоинформации. Используюя на входе аналоговый или цифровой мультистандартный декодер, а на выходе аналогичный кодер, можно преобразовывать сигналы из одной системы кодирования цвета в другую (например, PAL в SECAM или NTSC и наоборот). Также при наличии в time-base корректоре кадрового синхронизатора возможны некоторые спецэффекты, например, стоп-кадр («заморозка» картинки), стробоскоп, мозаика, смазывание и т. д.

11. Устройства синхронизации видеоисточников.

Начав говорить о синхронизации, мы уже рассказали о двух устройствах, которые выполняются в виде отдельных блоков — кадровом синхронизаторе и time-base корректоре. Еще одним специализированным функционально законченным устройством является синхронный видеокоммутатор. По сути дела это вышеописанный кадровый синхронизатор со специальной кросс-коммутационной матрицей и буферными видеоусилителями. Видеокоммутатор позволяет коммутировать m входов на n выходов, обычно так и обозначается коммутатор 4?2, 8?4, 16?2 и т. п. Синхронная коммутация видеосигналов очень важна при монтаже и особенно в условиях «живого» эфира при коммутации, например, транслирующих видеокамер. Некомпетентные люди пытаются использовать для этих целей несинхронные дешевые коммутаторы или монтажные видеомикшеры с ведущим несинхронным каналом, искренне при этом удивляясь почему у них в момент коммутации происходит срыв изображения.

Надо заметить, что практически все устройства обработки видеосигналов имеют стандартизованные интерфейсы управления и возможность синхронизироваться от внешнего сигнала, что позволяет для повышения стабильности и качества обработки видеоизображения использовать специальный сверхстабильный синхрогенератор. Структура видеостудии с отдельными блоками отличается повышенной мобильностью перекомпоновки и улучшения характеристик при минимальных последующих затратах, но требуют изначально более весомых затрат при организации видеостудии. В небольших (а тем более домашних) видеостудиях почти все функции возлагаются на видеомикшер, обычно сочетающий в себе вышеописанные устройства и который является «сердцем» видеостудии. Итак, какие бывают видеомикшеры?

12. Видеомикшеры.

Микшеры живого эфира.

Как правило, это большие по размеру и по предоставляемым возможностям устройства. Их назначение обеспечение трансляций событий, происходящих в реальном времени. В основном это эфир новостийных выпусков, концертов, спортивных соревнований, и т. д. Число источников часто превышает два десятка. Среди них преобладают видеокамеры, затем идут записывающие устройства и один-два источника графики. Соответственно такому количеству устройств, предусматривается и число входов на микшере. Преимущества: нет необходимости использовать матричный видеокоммутатор на входе, что облегчает работу в эфире. Звук, обычно, микшируется отдельно. Такие микшеры нередко применяются и традиционном монтажном производстве. Если производитель подразумевает работу в прямом эфире, то все основные функции должны быть вынесены на отдельные кнопки. Цена качественных микшеров живого эфира не ниже 150-200 тысяч долларов.

Монтажные видеомикшеры.

Там, где не так много источников, необходимость использования больших микшеров не возникает. В настоящий момент это наиболее распространенный случай в практике наших телекомпаний и видеостудий. Многие студии используются в свободное от эфира время в качестве аппаратных монтажа. Именно поэтому в качестве универсальных устройств в региональных видеостудиях используются недорогие и надежные монтажные видеомикшеры. Такие, как Sony DFS-500, 300, Panasonic WJ-MX 20, MX30 , MX50. В последнее время к ним прибавились модели Magic DaVE фирмы Snell&Wilcox, JVC 3000 и JVC 5000. Magic DaVE подкупает тем, что это очень недорогое устройство является одновременно микшером и генератором видеоэффектов (DVE-digital video effects). Цены на эти устройства от единиц до нескольких десятков тысяч долларов.

Выходные эфирные микшеры.

Выходные эфирные микшеры являются устройствами узкой специализации. Их единственной задачей является окончательное формирование выходного эфирного сигнала телекомпании с возможностью оперативного выбора. Кроме «развитых» компаний, их используют в составе многоканальных эфирных комплексов или в комплексах, ведущих одновременное вещание в нескольких часовых поясах. Цена рассмотренных устройств от 20000 долларов.

13. Традиционный и цифровой монтаж видео.

Для того чтобы лучше понять преимущества цифровых технологий редактирования и монтажа, активно используемых в настоящее время в производстве видеопродукции, необходимо вернуться на несколько лет назад и рассмотреть старую классическую схему, отточенную практикой предыдущих десятилетий. Базовая монтажная система состояла из двух видеомагнитофонов (Player-Recorder) и управляющего ими монтажного контроллера.

При этом собственно процесс монтажа выглядел следующим образом:

Отбираемая пользователем «полезная» видеоинформация (фрагменты A и B) с исходной ленты (источника) на первом магнитофоне (Player) переписывалась на результирующую ленту на втором магнитофоне (Recorder), в то время как неудачная или избыточная информация оставалась на источнике. Получаемая в результате новая запись становилась так называемой Мастер кассетой. При этом для точного позиционирования всех выделяемых видеофрагментов монтажный контроллер использовал специальную числовую информацию (тайм-код), записанную на ленту одновременно (параллельно) с видео (каждый кадр обладает своим уникальным номером).

Монтажная система из трех магнитофонов.

Если же было необходимо не просто последовательно собрать (стык в стык) отдельные видеофрагменты в единое целое, но построить между ними плавные переходы со шторками и/или реализовать другие эффекты, то требовалась более сложная монтажная схема, основанная на одновременном использовании двух лент (A и B) с исходным материалом и соответственно двух Player. При этом монтажный контроллер, опираясь на информацию о тайм-коде, управлял всеми аппаратами, в том числе и микшером.

Добавляя к этому генератор титров и/или аудио микшер, приходили к необходимости использования следующей т.н. A/B-roll монтажной системы. Отметим, что она включала в себя набор независимых устройств (порой различных производителей), которые для достижения необходимого результата должны были работать абсолютно синхронно, прецизионно точно и в реальном времени.


14. Цифровое редактирование.

Несколько лет назад появилась возможность выполнения видеомонтажа и редактирования «внутри» компьютера. Эта технология получила название нелинейного монтажа, поскольку позволила операторам прямое обращение к необходимым кадрам/фрагментам видео, записанным на жесткий диск компьютера, т.е. позволила избегать утомительного процесса постоянной (линейной) перемотки ленты вперед-назад при просмотре/поиске этих фрагментов. Подчеркнем, что оцифрованные фрагменты видео перед записью на диск подвергаются компрессии (как правило, MJPEG) в 3-10 раз, что неизбежно приводит к определенной потере качества (тем меньшей, чем меньше степень компрессии). Первоначально графический интерфейс подобных систем напоминал панель управления классического контроллера-микшера, а их функциональные возможности повторяли «привычные» оператору функции. Развитие технологии цифрового редактирования наряду с наращиванием производительности персональных компьютеров, в том числе методов компрессии, привело к реальной возможности создания профессиональной по качеству видеопродукции на базе стандартного компьютера.

Каковы основные преимущества цифрового нелинейного монтажа? Прежде всего, это сохранение исходного уровня качества записанных на диск фрагментов при их копировании (вне зависимости от числа копий). Во-вторых, это компактность. Нелинейная видеостудия фактически представляет собой компьютер, специально сконфигурированный для этих целей, и, оснащенный специальной системой нелинейного видеомонтажа и соответствующим программным обеспечением. При этом отпадает необходимость в монтажном и микшерном видеопульте, линейки из двух и более видеомагнитофонов , титровальном генераторе и т. д. Для записи готового смонтированного видеоматериала фактически необходим лишь один видеомагнитофон соответствующего формата . В третьих, это большая гибкость и высокое качество . Возможности по обработке и монтажу видеоматериала определяются лишь возможностями используемого компьютера и программного обеспечения и могут оперативно изменяться и наращиваться. Кроме того, при оснащении соответствующим оборудованием и программным обеспечением, можно превратить эту систему и в профессиональную цифровую аудиостудию для озвучивания изготавливаемых видеороликов и монтажа фонограмм.

Кроме того, это:

  • Отсутствие выпадений из-за дефектов ленты,
  • «Мгновенный» доступ к любому фрагменту,
  • Более широкие возможности контроля процесса монтажа,
  • Более высокое качество конечной продукции,
  • Возможность использования новых творческих решений и создания новых визуальных эффектов, обусловленных именно цифровыми возможностями манипулирования с видео (например, трехмерная анимация, виртуальная студия),
  • Автоматическая синхронизация видео со звуком.

15. Одно и двухпотоковая архитектура систем нелинейного видеомонтажа.

Вышеописанные преимущества нелинейных монтажных систем привели к их повсеместному распространению. Однако в первое время они в основном использовались для задач постпроизводства. Дело в том, что стандартная цифровая система, аналогично «базовому» аналоговому монтажному комплексу, построена по однопотоковой архитектуре. Это означает, что при просчете реально задействуется только одна копия исходного видео (AVI-файл). В то же время, если требуется несколько больше, чем просто разрезать/склеить имеющиеся фрагменты, то необходимо сформировать и задействовать вторую копию цифрового видео (по крайней мере, ее части). Т.е. для создания любого микшерского перехода/эффекта между двумя клипами (A и B) в оперативной памяти компьютера необходимо одновременно содержать кадры как заканчивающегося клипа A, так и начинающегося клипа B, последовательно загружая их с жесткого диска, декомпрессируя и производя просчет новых кадров результирующего клипа, затем осуществляя обратную компрессию и запись на диск. Этот процесс, нередко называемый рендерингом (rendering), иллюстрируется следующей схемой:

Однопотоковая цифровая монтажная система

Подобные вычисления требуют совершения миллиардов специализированных операций над пикселями изображений. Очевидно, что скорость их выполнения существенно зависит от быстродействия процессора. Стандартные PC являются универсальными машинами, т.е. оказываются сравнительно медленными с точки зрения решения данной задачи. Например, Pentium 150Mhz может выполнять только около 50 миллионов операций в секунду, распределяя их между различными задачами. В результате при просчете даже сравнительно простых эффектов и переходов требуется в десятки раз больше времени (а порой и в сотни раз — зависит от сложности эффекта), чем собственно время их проигрывания. Нередки ситуации, когда оператор, задав на первый взгляд правильные параметры перехода, вынужден подолгу ожидать окончания процесса его просчета, чтобы потом отвергнуть полученный результат и повторить весь цикл заново с новыми параметрами. Очевидно, что предметом мечтаний является выполнение цифрового монтажа без значительных затрат времени на просчет. В идеале — в реальном времени, когда результат можно сразу видеть на экране контрольного монитора и/или записать на мастер-ленту. Это позволило бы использовать нелинейные монтажные системы не только в пост -, но и в оперативном (on-line) производстве.

Двухпотоковое цифровое редактирование

Современные платы нелинейного монтажа (например, miroVideo DC30plus для PC или VlabMotion для Amiga) для операций компрессии и декомпрессии видео эффективно задействуют установленные на них микросхемы, что, безусловно, ускоряет рендеринг, но не приводит к его выполнению в реальном времени. Для достижения последнего необходимо использование специализированного вычислительного устройства, «заточенного» на просчет определенного класса эффектов и переходов (таких как, Pinnacle Systems Genie — для трехмерных эффектов). Забегая вперед, отметим, что поскольку набор аппаратно выполняемых эффектов фиксирован для каждого устройства и зависит от его специализации и модели, то всегда будут возникать нестандартные задачи, полностью или частично загружающие процессор компьютера. Это тем более верно, что одним из преимуществ цифрового редактирования видео является возможность почти неограниченного творческого самовыражения, реализации оригинальных идей и создания сколь угодно сложных и неповторимых эффектов.

Однако даже наличие подобного специализированного устройства само по себе не решает проблему рендеринга — на его вход необходимо одновременно подавать два потока декомпрессированного видео. К счастью, общий уровень развития компьютерной техники, достигнутый за последние годы, позволяет и эту сложную задачу эффективно решать на базе стандартного РС — при определенной оптимизации его дисковой подсистемы.

Таким образом, системы нелинейного монтажа реального времени используют двухпотоковую плату компрессии/декомпрессии видео и дополнительную плату собственно цифровых эффектов. Впрочем, набор микросхем для выполнения в реальном времени заданных эффектов микширования может быть установлен и прямо на плате компрессии (например, как у Pinnacle Systems ReelTime — более 130 двумерных эффектов выполняется в реальном времени). И даже при этом может быть использована дополнительная плата, расширяющая набор аппаратно выполняемых эффектов (например, Pinnacle Systems ReelTime NITRO = ReelTime + Genie).

Оперируя с двумя потоками, подобные цифровые системы могут выполнять в реальном времени и другие необходимые функции, присущие классическим монтажно-микшерским аналоговым комплексам, например, титрование (titling) или различные виды рир-проекций («keying», «ключевание», проекции с использованием эффектов прозрачности).

Двухпотоковый процесс монтажа выглядит следующим образом:

Резюмируя, повторим основные преимущества такого подхода:

  • Эффекты и переходы, титрование и рир-проекции выполняются в реальном времени.
  • Оператор может оперативно менять параметры переходов, достигая искомого результата без затрат времени на просчет многочисленных вариантов.
  • Отсутствие повторных циклов операций компрессии/декомпрессии, что обеспечивает более высокое качество результирующего видео. В двухпотоковых системах первый раз видео компрессируется при оцифровке и записи на жесткий диск, второй раз декомпрессируется перед подачей на блок эффектов и выводом результата. Напомним, что в однопотоковых системах этот цикл выполняется, по крайней мере, дважды: первый раз при записи на диск исходного видео и последующем восстановлении перед просчетом эффекта, второй раз при записи на диск результата просчета и его восстановлении для окончательного вывода.
  • Файлы с результирующими клипами нет необходимости записывать на диск, что позволяет экономить пространство последнего.
  • Высокое качество налагаемых на исходное видео титров (отсутствуют искажения границ букв и другие артефакты, обусловленные неизбежными ошибками MJPEG компрессии). В двухпотоковых системах титры (так же как и другая компьютерная графика) сразу идет на вывод — минуя промежуточный этап компрессии и записи на диск.