Audio-vía-IP - ICC Broadcast

Anuncio
I
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Una guía profesional para entender su funcionamiento
Publicado por: ICC Broadcast | Hardata España.
http://www.iccbroadcast.com
Autores: Hans-Heinrich Hansen, Christian Diehl, Uwe Andersen, Jan Simon,
Werner Ludwig, Jörg Rimkus, Detlef Wiese.
Traducción: Enrique Arce
Edición: Patricia Lespinard
1ª Edición.
Flashman, Centauri y Mayah son marcas registradas
por Mayah Comunications GmbH. ICC Broadcast e ICC Broadcast | Streaming Services son
marcas registradas por itzurun Comunicaciones S.L.
Layer 2 licenciado por Audio MPEG Coding Technologies.
Layer 3/mp3PRO licenciados por Thomson/Franhoufer Institute.
AAC / HE licenciados por Via Coding Technologies.”
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Abstracto
La transmisión sobre redes IP está incrementándose de manera muy importante en la
industria de la radio a medida que se incrementa la viabilidad y paralelamente decrecen sus
costes. El suministro de líneas dedicadas y de RDSI está decreciendo mundialmente por eso,
tarde o temprano, deberemos hacer frente a la carencia de este servicio por parte de las
compañías telefónicas. A estas alturas algunas de las trasmisiones RDSI ya están siendo
transportadas a través de backbones IP.
El siguiente compendio trata precisamente de estos tópicos, desde lo más básico hasta las
aplicaciones de hoy en día. No se puede considerar un manual completo, sin embargo
destaca muchos aspectos interesantes del audio-vía-IP tanto para principiantes como para
usuarios con experiencia.
Empezaremos con el capítulo de Audio Comprimido IP, el cual nos ofrecerá una ligera
introducción al Audio-vía-IP y nos enseñará algunas referencias.
1
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Audio Comprimido IP
UDP, RTP, SIP... Protocolos IP ¿Para qué son todos ellos?
El protocolo elegido determina las características de la transmisión de audio en una red. Para
determinar unos estándares de la calidad de la señal se necesita seleccionar un protocolo
apropiado.
RDT/UDP son los formatos de compresión típicos para las redes corporativas y las VPNs con
líneas dedicadas. El protocolo SIP se usa en Internet, y además, es particularmente popular para
aplicaciones VoIP.
SIP (Protocolo de Inicio de Sesión)
El protocolo de Inicio de Sesión (SIP) es un protocolo basado en texto para la negociación de
conexiones ubicadas en el Protocolo Internet (IP). El SIP se usa simplemente para tomar la señal
entre dos partes individuales de negociación. El transporte de los datos de audio corre de forma
separada a la negociación (similar al RDSI). Los datos de audio se enrutan y transportan a través
de una protocolo diferente. Si TCP o UDP están disponibles para la negociación, RTP se usa
mayoritariamente para el transporte de datos de audio.
Conexiones SIP como sustitución del RDSI
Las nuevas conexiones SIP en el Internet pueden ser consideradas como un equivalente al RDSI
si la transmisión es libre de pérdidas y de baja latencia. Esto puede ser compensado con un
ancho de banda garantizado. Por ejemplo usando RSVP y FEC.
VPNs con ancho de banda garantizado como sustitución de conexiones E1 y X.21
La redes privadas virtuales también llamadas VPNs pueden sustituir hoy en día a las conexiones
E1 o X.21 si se garantiza una banda ancha estable.
Usando IP en líneas E1 y redes ATM existentes
El protocolo IP también puede aplicarse en conexiones E1 o ATM. Esto permite el uso simultáneo
de audio/vídeo y señales de datos. La reserva del ancho de banda apropiado se puede configurar
desde los routers.
3
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Formatos de codificación de Audio ¿En qué aplicaciones usar cada uno de ellos?
La multitud de formatos de codificación de audio disponibles puede llegar a ser confusa. Una
correcta selección debe basarse en criterios tales como la compatibilidad, la calidad y la
latencia. Mientras que MPEG4 HE AACv2 proporciona una calidad excelente con unos índices
binarios muy bajos (por ejemplo 48kbps estéreo), las transmisiones transparentes AES/EBU se
usan en redes con una mayor ancho de banda para lograr una pérdida mínima y con una calidad
de hasta 3 Mbit/s.
Migración de RDSI a IP y viceversa
El proceso de migración de las infraestructuras RDSI existentes a infraestructuras IP lleva un
tiempo y requiere una solución técnica que permita la transcodificación de los formatos y el
transporte entre ambos tipos de redes. Esta solución se presta a través de Gateways RDSI-IP.
FEC (Avance de Corrección de Errores)
El FEC (Avance de Corrección de Errores) permite detectar y/o corregir errores añadiendo datos
al stream, con el fin de evitar que los datos de la retransmisión o de la corrupción y los costes
asociados de una mayor banda ancha incrementen el retraso ya que permite al receptor con la
información recibida recomponer la trama de datos que se recibe.
IP Overhead (Carga útil IP)
Para las transmisiones IP, el stream de datos consiste en una trama útil (datos de audio, tramas
MPEG, etc.) y una cabecera IP. En el caso del protocolo UDP la cabecera tiene 46 Bytes /
paquete y consiste en 8 Bytes de la cabecera UDP, 20 Bytes e la cabecera IP y 18 Bytes del
protocolo Ethernet IEEE802.3. El protocolo RTP tiene 58 Bytes de cabecera por paquete, 12
Bytes de RTP, 8 Bytes de UDP, 20 Bytes de IP y 18 Bytes de IEEE802.3. La trama útil IP relativa
es calculada como un porcentaje de la trama útil original.
Stream de transporte MPEG vía ASI, Stream de Transporte MPEG via IP
El stream de transporte MPEG, denominada MPEG TS es usado principalmente en entornos
DVB e ipTV. Es un formato que contiene uno o más streams de audio y/o audio y vídeo los
cuales generalmente necesitan alcanzar Set-Top-Boxes (STB) como destino final.
¿Hay estándares disponibles?
Para alcanzar implementaciones comunes, la EBU ha establecido el grupo de trabajo N/ACIP.
En Septiembre de 2007 fue presentado su primer cuaderno de recomendaciones..
4
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
RTP (Realtime Transport Protocol)
Es un protocolo de sesión para redes basadas en IP las cuales usan UDP (User Datagram
Protocol) como protocolo de transporte. En contraste con una implementación UDP pura, RTP
garantiza la correcta secuencia de de paquetes en el lado de recepción.
RTCP (RTP Control Protocol)
Trabaja por encima del protocolo RTP. No interfiere con el stream de datos real y provee
algunos datos de intercambio entre los participantes en la sesión de streaming. Recibiendo el
informe acerca de los paquetes enviados, los paquetes perdidos, retardo de bucle, jitter, etc. El
stream se adapta automáticamente a las condiciones particulares de la red en cada momento.
SDP (Sesion Description Protocol)
Las descripciones de las sesiones de streaming multimedia con SDP, incluyen parámetros
importantes de inicialización e información. Son usadas para invitar a participantes, para
anunciar el el inicio de una sesión o para inicializar la conexión de alguna otra manera.
Es usado para anunciar la información provista por SDP a una dirección multicast y dar a los
potenciales clientes una vista por encima de los contenidos disponibles en la (sub) red. Mayah
también soporta los SAP no estándar.
RTSP (Real Time Streaming Protocol)
En un protocolo de aplicación para usar en sistemas de streaming de medios. Le permite a
los clientes conocer acerca de los contenidos disponible para el streaming y los habilita para
elegir el stream apropiado, así como controlar un servidor de streaming de medios con los
comandos típicos, tales como “Play” o “Pause”.
5
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
1.- Audio e introducción al IP
1.1.- Fundamentos Básicos de IP.
1.2.- Líneas de paquetes conmutados frente a conexiones digitales punto a punto.
2.- Codificación de Audio por IP: Latencia vs Bitrate
2.1.- G.711.
2.2.- G.722.
2.3.- MPEG Layer 2.
2.4.- MPEG Layer 3.
2.5.- MPEG 4 HE AAC.
2.6.- apt-X y Enhanced apt-X.
2.7.- Audio lineal y AES/EBU transparente.
2.8.- Multicanal.
3.- IP como plataforma de las modernas redes de Comunicaciones y Broadcast.
3.1.- Requerimientos básicos para el transporte multimedia.
4.- Comunicaciones Conmutadas en la Internet Pública
4.1.- Comparación RDSISIP.
4.2,- ¿Como trabaja SIP?.
4.3.- Seguridad operacional.
4.4.- SIP para enlaces multimedia de alta calidad.
4.5.- SIP -> Futuro.
5.- Consideraciones Prácticas para SIP y audio-vía-IP
5.1.- Requerimientos para comunicaciones basadas en SIP a través de la Internet Pública.
5.2.- Requerimientos para otras conexiones basadas en IP a través de la Internet Pública|
Unicast frente a Multicast.
7
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
6.- Esquemas de aplicaciones IP Típicas e IP/RDSI
6.1.- Transmisión desde una Unidad de Reportero Móvil a múltiples estudios con
IP Multicast vía UMTS/3G.
6.2.- Transmisión desde una Unidad de Reportero Móvil a múltiples estudios con
IP Multicast vía WiFi o WiMax.
6.3.- Transmisión punto a punto por IP (Terrestre/Satélite) con backup por RDSI con
activación automática.
6.4.- Transmisión punto a 8 puntos por IP (Terrestre/Satélite) con backup por RDSI de
activación automática.
6.5.- Transmisión 7+1 punto a punto en modo AES/EBU Transparente vía IP con
Una bitrate de 12 Mbps.
6.6.- Distribución Multicast a través de IP.
6.7.- Aplicación Gateway Multipunto SIP/RDSI con conversión de formatos de audio.
6.8.- Aplicación Gateway RDSI/SIP con conversión de formatos de audio.
8
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
1.- Audio e introducción al IP
1.1.- Fundamentos Básicos de IP
De una forma similar al modelo capa OSI (Open Source Interconection), existe un modelo de
referencia para la familia del protocolo de Internet TCP/IP. El cual describe una estructura y la
interacción entre los diferentes protocolos de red en 4 capas: Capa de red, Capa Internet, Capa
de transporte y capa de aplicación y protocolos relacionados incluidos para determinadas tareas
como Telnet, FTP (Figura 1).
FIG. 1
Modelo de referencia ISO/OSI
Capa 7
Capa de Aplicación
Define los protocolos de aplicación
(Ej. FTP, TELNET, SMTP)
Capa 6
Capa de Presentación
Describe la presentación de los datos
(Ej.ASCII, UNICODE)
Capa 5
Capa de Sesión
Conecta y desconecta enlaces, login y logout
Capa 4
Capa de Transporte
Transporte de datos entre las partes de la comunicación
(Ej. TCP, UDP)
Capa 3
Capa de Red
Interconecta estaciones de red o segmentos (Ej. IP)
Capa 2
Capa de Enlace de Datos
Protocolo de transferencia para datos y transferencia segura
(Ej. HDLC, SLIP, PPP)
Capa 1
Capa Física
Especifica el transporte de bits en el medio de enlace
(Ej. Modulación, asignación de pines en el conector)
ISO/OSI modelo de referencia a TCP/IP modelo de referencia
Capa de Aplicación
Capa de Aplicación
FTP, HTTP
Capa de Presentación
Capa de Sesión
Capa de Transporte
Capa de Transporte
RTP/UDP para
transporte multimedia
Capa de Red
Capa de Red
Protocolo Internet
Capa de Enlace de Datos
Capa Física
Capa de red
IEEE 802.3 en Ethernet o
IEEE 802.11 en Wifi
9
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Para que se produzca el intercambio de información entre aplicaciones son necesarias un
mínimo de 3 direcciones. Los socios individuales dentro de un segmento de la red (Ethernet
IEEE802.3) son identificados mediante una dirección MAC (Media Access Control) de 6 Bytes.
Esta dirección ha de ser única dentro de un segmento. Las direcciones MAC son asignadas
generalmente por los fabricantes e identifican a estos en los 3 primeros Bytes.
Con el fin de reconocer a los participantes en Internet, son utilizadas direcciones de Internet de 4
Bytes de longitud (IPv4) o de 16 Bytes de longitud (Ipv6). La relación entre la dirección MAC
física y la dirección lógica IP se alcanza a través del protocolo de resolución de direcciones
(ARP). Las direcciones IP del emisor y el receptor son parte de la cabecera del protocolo IP.
La tercera dirección es el puerto supuesto o socket number. Esto identifica cierto uso del
participante. El número de puerto (16 Bit) está localizado dentro de la capa de transporte.
Ciertos números de puerto son asignados a ciertas aplicaciones, Ej FTP siempre usa el puerto
20/TCP para los datos y el puerto 21/TCP para el control de la información. Telnet usa el puerto
23 y SMTP siempre usa el puerto 25. Puedes encontrar una lista de completa de los puertos y
sus asignaciones en www.iana.org/assignments/port-numbers . IANA (Internet Assigned
Numbers Authority) es la responsable de la asignación de números de puerto registrados.
1.2.- Líneas de paquetes conmutados frente a conexiones digitales punto a punto.
En el broadcast, las conexiones digitales punto a punto son usadas generalmente para el
transporte de larga distancia de datos multimedia. Normalmente esas líneas proveen de una
alta disponibilidad, un retardo constante, un insignificante jitter (*) sin secuencia de errores o
pérdidas de paquetes.
(*) Jitter: (Cambio o variación en cuanto a la cantidad de latencia entre paquetes de datos que se
reciben).
El uso de los servicios y redes de Internet para transferencia de archivos, pero también
incrementándose para transmisiones en directo en exteriores, distribución y contribución está
en permanente crecimiento. En 2001 la ORF (Radio Televisión Pública Austriaca) comenzó con
la implementación de su L-NET. En aquel tiempo el foco eran principalmente las redes
corporativas privadas, en cambio hoy la red pública Internet ha alcanzado una mayor
importancia.
10
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Aunque no planeado originalmente para Internet, el progresivo declive de las líneas RDSI en
broadcast a nivel mundial, significa que más y más audio se está ahora transportando usando
líneas de transmisión de paquetes. Los inventores de Internet definieron el protocolo Internet
en 1981 e incluyeron algunas características para permitir que fuera usado en propósitos de
tiempo real. En un momento en el que la conectividad estándar no lo soportaba. La cabecera IP
contiene una etiqueta (flag), denominada tipo de servicio (type-of-service), la cual es usada para
marcar la prioridad de los datos que contiene. En la Internet pública estas etiquetas son
ignoradas por los routers o reiniciadas. La razón es obvia: Tan pronto como la etiqueta tipo de
servicio es aplicada realmente como por ejemplo para la comunidad de jugadors de Internet, se
podría utilizar inmediatamente esto para los juegos en detrimento de otro tipo de servicios.
Para una transmisión fiable de los datos multimedia a través de una red basada en paquetes, es
necesario satisfacer unos requerimientos particulares: Retardo, Jitter y la disponibilidad de la
red deben estar dentro de unos parámetros conocidos y convenientes para una aplicación
broadcast 24/7. El ancho de banda necesario para la señal de transmisión debe estar disponible
en todo momento. También debe ser conocida cualquier secuencia de errores que ocurra en el
orden de los datagramas recibidos.
Para un servicio estable se han de aplicar las herramientas necesarias. El jitter máximo define el
tamaño del buffer de compensación en el lado del receptor. Las posibles pérdidas de paquetes
deben ser regeneradas usando FEC (Forward Error Correction). Las secuencias de errores han
de ser evitadas usando el apropiado protocolo en la capa de transporte (ej. RTP, Realtime
Transport Protocol).
La influencia de ciertos protocolos y FEC tiene un impacto medible en la latencia del transporte.
Una diferencia importante con las líneas digitales dedicadas convencionales es la sobrecarga
causada por los mismos protocolos.
Cada datagrama Ethernet ocupa 18 Bytes para la cabecera IEEE802.3 y 8 Bytes para su prefijo.
La cabecera IP ocupa 20 Bytes, la cabecera UDP ocupa 8 Bytes adicionales y la cabera opcional
RTP ocupa otros 12 Bytes. En total, se transmiten 66 Bytes de cabecera cuando se transmite un
datagrama RTP. Si en un datagrama RTP se quiere transportar una trama MPEG 2 Layer 3 con
16 kHz de frecuencia de muestreo y un bitrate de 24 kbps que necesita transportar 48 Bytes, se
necesitara un ancho de banda total de 57 kbps.
Si usamos MPEG 4 AAC en lugar de MPEG 2 Layer 3, no sería posible realizar un calculo exacto
del ancho de banda requerido porque la longitud de las tramas de AAC Audio cambian de trama a
trama lo que provoca que no sea posible calcular la relación entre los datos de audio y la
cabecera (sobrecarga). Con el fin de minimizar el impacto de la sobrecarga del protocolo, más
de un frame de audio pueden ser combinadas en un datagrama. Esto incrementa la latencia
porque deben ser recolectados primero un determinado número de tramas.
11
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Estructuras del Protocolo
Encapsulado de datos
Ethernet
IP
TCP/UPD RTP
Capa de Aplicación
Datos
Capa de transporte
Capa de internet
Capa de red
APLICACION
Cabecera
Cabecera
Datos
Cabecera
Cabecera
Datos
Cabecera
Cabecera
Datos
FIG. 2
Aplicando esto a la señal MPEG 2 Layer 3 mencionada anteriormente, significa que una
carga útil (payload) óptima de 30 frames completos de audio. Cada frame de audio
contiene 576 muestras y a una frecuencia de muestreo de 16 kHz, exactamente 36 ms de
audio. Así que se crea una latencia de 1044 ms (Figura 3).
Otra opción para reducir la sobrecarga del protocolo es tan simple como eliminar las
cabeceras IP, UDP y RTP, que es una técnicas usada por sistemas tales como
Ethersound de Digigram y Cobranet de Cirrus Logic. Los datos de audio son
trasportados como carga útil (payload) con los paquetes ethernet IEEE802.3. En este
caso, las direcciones IP se pierden y solo pueden ser identificados participantes dentro
del mismo segmento de red a través de la dirección MAC. Una transmisión fuera del
segmento, usando un gateway por ejemplo no es posible. Incluso si una dirección MAC
de un participante externo es conocida el router no podrá encontrarla porque la
dirección lógica del segmento de la red externa está perdida.
12
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
FIG. 3
% de sobrecarga IP (Ej. MPEG Layer 3, 48 KHz, Tamaño de paquetes = 180 bytes)
30%
25%
19,7%
20%
Sobre carga IP
23,96%
23,7%
19,17%
15,97%
15,97%
15%
13,69%
11,98%
13,69%
10%
5%
0%
9,58%
7,99%
MPEG L3 UDP
6,85%
Frecuencia de muestreo = 48 KHz
5,99%
Bit rate = 256 kbps
4,79%
Longitud de frame = 256 (bitrate)/48 (Frec. muestreo) * 144 (bytes) = 768 Byte
Sobrecarga IP = (( 768 bytes + 46 bytes) / 768 bytes - 1) x 100% = 6 % aprox.
32
40
48
56
64
80
96
112
128 160
192
224
256 320
Bitrate in Kbit/s
% de sobrecarga
25%
23,96%
Ej Apt-X (16 bit) / Eapt-X, UDP
23,96%
Sobre carga IP
23,96,%
19,17,%
20%
15%
23,96,%
23,00%
Para paquetes de 180 bytes
11,06,%
10,27,%
11,50,%
4,49,%
4,42,%
11,50,%
10,65,%
4,42,%
4,36,%
9,58,%
10%
Para paquetes de 390 bytes
Para paquetes de 1024 bytes
4,49,%
4,36,%
5%
0%
16 BIT
MONO
16 BIT
STEREO
20 BIT
MONO
20 BIT
STEREO
24 BIT
MONO
24 BIT
STEREO
Apt-X/Eapt-x, tamaño de bloque fijo, Resolución = 20 Bit Estéreo.
Carga Útil = (180 (Tamaño de paquete) / 80 (Tamaño de bloque) redondeado al entero superior * 80 = 240 bytes.
Sobre carga IP = ((240 bytes + 46 bytes) / 240byte -1) * 100% = 19,7 %
13
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
2.- Codificación de Audio por IP: Latencia vs Bitrate
Durante los últimos 25 años, se han establecido varios algoritmos de codificación en la industria
del broadcast (ej. J41, J57, MPEG Layer 2, 3) y también algunos algoritmos no estandarizados
tales como el apt-X o el ADPCM4SB. Debido a la multitud de demandas, no es fácil para un
operador elegir el bitrate, el modo de operación y la frecuencia de muestreo apropiadas. Y esa
dificultad se ha incrementado en los últimos años con la aparición de nuevos formatos de
compresión.
Además de los formatos ampliamente conocidos, otros provenientes de la telefonía como el
G.711 y el G.722 son aplicados en Broadcast junto a las más modernas y potentes variaciones
de AAC, tales como MPEG 2 y 4 AAC, HE AAC (aacPlus), HE AACv2, AAC ELD, audio lineal PCM y
transmisiones transparentes AES/EBU. Todos los formatos citados pueden además trabajar en
diferentes modos, mono, estéreo, a diferentes bitrates y frecuencias de muestreo e incluso
algunos pueden trabajar en modo multicanal (5.1/7.1).
El desarrollo de algoritmos de codificación está enfocado a la optimización de parámetros tales
como el bitrate, la calidad -después de múltiples codificaciones/decodificaciones-, la latencia y
la compatibilidad. Todos los algoritmos aquí descritos pueden ser categorizados de esta forma.
HE AACv2 ha sido desarrollado solamente para reducir el bitrate mientras se mantiene una muy
buena calidad de sonido. Por otro lado apt-X simplemente está enfocado a tener un retardo muy
pequeño.
Gracias al crecimiento del ancho de banda disponible hoy, están incrementando
considerablemente métodos de transmisión lineal a 16, 20 y 24 bits así como transmisiones
transparentes AES/EBU de 3,072 Mbit/s. Aquí la calidad y el retardo juegan un papel más
importante que el incremento del coste del ancho de banda.
No existe actualmente una investigación detallada de la cuota de mercado que tienen los
diferentes algoritmos de codificación en el mundo del broadcast. En cambio es ampliamente
asumido que el MPEG Layer 2 y el G.722 dominan, mientras que algoritmos como el audio
lineal, ADPCM, apt-X, Enhanced apt-X, así como el MPEG 4 estándar, HE AAC están
incrementando su cuota en determinadas aplicaciones.
Una discusión detallada sobre la elección del método más apropiado debe incluir
necesariamente consideraciones sobre calidad, flexibilidad, ancho de banda, latencia,
compatibilidad, estandarización, cuota de mercado y expectativas. En realidad, se puede
encontrar una solución óptima para cualquier sistema.
15
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
2.1.- G.711
Uno de los más importantes estándares de la ITU-T (International Telecomunications Union
Telecomunications) es el G.711 el cual digitaliza el audio en mono a una frecuencia de muestreo
de 8 kHz. Este algoritmo cubre el rango de frecuencias comprendido entre los 300 y 3.400 Hz.
En Europa se usan 64 kbps y en norte América 56 kbps para una comunicación clásica de
teléfono con G.711. Si un teléfono convencional necesita ser comunicado vía IP, G.711 es usado
en el sistema de VoIP. La latencia de G.711 no es representativa.
2.2.- G.722
Otro estándar ITU-T es G.722, el cual ofrece una mayor calidad de audio debido a sus 16 kHz de
frecuencia de muestreo. El bitrate de transmisión también es 64 kbps. (Ej. un canal B RDSI). Al
igual que G.711 la latencia de G.722 es muy baja.
Existen 2 posibilidades de sincronizar audiocódecs con G.722
G.722 con Señalización Inband H.221 (G.722/H221)
En el modo G.722/H.221 se ocupa un ancho de banda de 1,6 kbps para la información Inband la
cual es usada para la sincronización.
G.722 con Sincronización Estadística (G.722/SRT)
Con G.722/SRT (SRT Statistical Recovery Timing) los análisis estadísticos de la señal de audio
dan lugar al reconocimiento del comienzo de un Byte.
2.3.- MPEG Layer 2
Datando de 1.990, MPEG Layer 2 es todavía muy popular y ampliamente usado en aplicaciones
Broadcast. Las principales razones de su popularidad son su cascabilidad (codificacionesdecodificaciones simultáneas), su alta calidad de audio a bitrates altos y la disponibilidad en la
gran mayoría de dispositivos de hardware y software de una primera generación. MPEG Layer 2
soporta bitrates desde 8 a 384 kbps, siendo 256 kbps el bitrate ideal para transmisiones en
estéreo.
2.4.- MPEG Layer 3
Más conocido como mp3, este formato es muy usado en Broadcast cuando se necesita
consumir un menor ancho de banda que MPEG 2. MPEG Layer 3 soporta bitrates entre 8 y 320
kbps siendo 128 kbps el bitrate ideal para transmisiones en estéreo.
16
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
2.5.- MPEG 4 HE AAC
HE AAC es un desarrollo de AAC con mucho futuro usando SBR, Spectral Band Replication de
Coding Technologies (www.codingtechnologies.com). AAC es el algoritmo de codificación de
audio MPEG con mayor calidad de audio a 128 kbps estéreo. Debido a que muchas aplicaciones
necesitan cada vez bitrates menores, la compañía sueco-germana Coding Technologies inventó
la tecnología SBR, la cual permite AAC con bitrates de 32 o 48 kbps estéreo.
Aquí más del 90% del bitrate es usado todavía para la codificación convencional AAC, pero una
pequeña parte (< 4 kbps.) es usada para la información SBR. La parte AAC convencional es
muestreada con la mitad de la frecuencia de muestreo, 16, 22,05, 24 kHz con el resultado de una
mayor eficiencia de la codificación.
La unión entre SBR y AAC es una formato de alta calidad. Aunque no sorprende por su
transparencia real, puede ser sintetizado desde frecuencias de muestreo de 7/8 kHz, pudiéndose
alcanzar calidades de audio extremadamente buenas cercanas al CD usando bitrates muy bajos
de codificación. En conexión con HE AAC, permite muy altas calidades cercanas al CD, las cuales
son usadas actualmente por muchas aplicaciones y sistemas. Combinado con la denominada
codificación estéreo paramétrica, el algoritmo es conocido como HE AACv2 que provee una
asombrosa calidad de sonido a 16,20 y 24 kbps.
2.6.- apt-X y Enhanced apt-X
Apt-X es un sistema de codificación de baja latencia que usa ADPCM (Adaptive Differencial Pulse
Code Modulation). Un stream típico de datos ocupa 192 kbps para mono y tiene la ventaja de la
cascabilidad. Teóricamente la latencia mínima es de 3ms a una frecuencia de muestreo de 48
kbps. El algoritmo puede ser usado a otras múltiples frecuencias de muestreo y mejoras
recientes especialmente dirigidas al rango dinámico, han resultado en el Enhanced apt-X, el cual
usa palabras de longitud hasta 24 bit. Apt-X es uno de los formatos de audio más usados para
transmisiones de audio con bajo retardo, y su uso está muy popularizado en los estudios de
grabación.
Sus principales características son:
.- Compresión de datos 4:1:4
.- Codificación/Decodificación Mono/Estéreo.
.- Frecuencias de muestreo flexibles hasta 96 kHz.
.- Canal de datos adjunto de hasta 12 kbps.
17
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
2.7.- Audio lineal y AES/EBU transparente
El aumento de la disponibilidad de anchos de banda altos, el uso del audio lineal y el AES/EBU
transparente se ha convertido en una alternativa real. Audio Lineal es entendido como una señal
PCM con una longitud específica de 16, 20 o 24 bit y una frecuencia de muestreo fija. En el
mundo del broadcast es muy usual usar frecuencias de muestreo de 48 y 96 kHz lo que da como
resultado un ancho de banda de 1,5 y 4,5 Mbps para una señal estéreo.
Una transmisión AES/EBU transparente puede incluir Dolby E o DTS dentro de la señal AES/EBU
sin ninguna conversión de frecuencia de muestreo (sino los datos codificados pueden
corromperse de forma irreversible). El ancho de banda de datos de las señales AES/EBU es de
3,072 Mbps con señales multicanal hay que multiplicar por esta cifra.
2.8.- Multicanal
La codificación multicanal 5.1 y 7.1 es soportada por variedad de formatos. En particular HE
AAC ofrece una codificación muy eficiente con bitrates por debajo de los 128 kbps. Enhanced
apt-X provee hasta 8 canales independientes con bitrates entre 1-2 Mbps mientras que los
formatos de audio lineal se van hasta los 18 Mbps.
FIG. 4.1
Algoritmos de codificación de audio: Calidades y retardos.
G.711
Muy bajo < 4 khz
G.722
Muy bajo < 8 khz
MPEG 1 CAPA 2
>45ms variable, hasta 20 kHz
MPEG 2 CAPA 2
>90ms variable, hasta 20 kHz
MPEG 1 CAPA 3
>80ms variable, hasta 20 kHz
MPEG 1 CAPA 3
>160ms variable, hasta 20 kHz
MPEG 2.5 CAPA 3
>300ms variable, hasta 20 kHz
Mp3 PRO
>300ms variable, hasta 20 kHz
MPEG 2/4 AAC
>110ms variable, hasta 20 kHz
MPEG 2/4 AAC LC
>45ms variable, hasta 20 kHz
MPEG 4 HE AACv2
>110ms variable, hasta 20 kHz
J.41
muy bajo 15 khz
ADPCM4SB/MICDA
muy bajo 15 khz
EAPT.X/APT.X
J.57
Audio Lineal (PCM)
muy bajo variable, > 20 kHz
muy bajo 20 khz
muy bajo variable, > 20 kHz
AES/EBU transparente
5.1/7.1 AAC UND HE AAC V2
Audio Lineal 8 canales
APT.X/EAPT.X 8 canales
>110ms variable, hasta 20 kHz
muy bajo variable, > 20 kHz
muy bajo variable, > 20 kHz
18
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
FIG. 4.2
Algoritmos de codificación de audio: Frecuencias de muestreo en Khz.
8
G.711
16
G.722
MPEG 1 CAPA 2
16
MPEG 2 CAPA 2
22.05
MPEG 1 CAPA 3
MPEG 1 CAPA 3
48
44.1
48
22.05
24
32
44.1
48
24
24
32
44.1
44.1
48
24
32
32
32
44.1
48
32
44.1
32
44.1
44.1
44.1
48
48
48
96
48
48
48
48
96
96
11,025
12
MPEG 2/4 AAC
8
11,025
12
16
MPEG 2/4 AAC LC
8
12
MPEG 4 HE AACv2
8
11,025
11,025
12
16
16
22.05
22.05
22.05
8
11,025
12
16
22.05
24
8
11,025
12
16
22.05
24
Mp3 PRO
32
J.41
ADPCM4SB/MICDA
EAPT.X/APT.X
44.1
16
8
MPEG 2.5 CAPA 3
32
32
24
48
J.57
AUDIO LINEAL
AES/EBU TRANSPARENTE
32
5.1/7.1 AAC UND HE AAC V2
8
8
8
AUDIO LINEAL 8 CANALES
APT.X/EAPT.X 8 CANALES
12
12
12
11,025
11,025
11,025
16
16
16
22.05
22.05
22.05
24
24
24
32
32
32
44.1
44.1
44.1
96
FIG. 4.3
Algoritmos de codificación de Audio: bitrates en kbps.
G.711
48
48
G.722
MPEG 1 CAPA 2
56
56
64
64
32
40
48
56
64..112
128..124
8..24
32
40
48
56
64..112
128..160
MPEG 1 CAPA 3
8..24
32
32
40
40
48
48
56
56
64..112
64..112
128..124 256
128..160
MPEG 2.5 CAPA 3
8..24
32
32
40
40
48
48
56
56
64..112
64..96
8..24
32
40
48
56
64..112
MPEG 2 CAPA 2
MPEG 1 CAPA 3
Mp3 PRO
MPEG 2/4 AAC
MPEG 2/4 AAC LC
MPEG 4 HE AACv2
16..24 32 40
8..24 32 40
48 56
48 56
256
320 384
320
32
128..160 256
64..112 128..160 256
64..112 128..160
264..320
264..320
J.41
384
768
ADPCM4SB/MICDA
EAPT.X/APT.X
32
40
48
56
64..112
128..160
256
320
576
384
J.57
AUDIO LINEAL
1920
64
..1536..
AES/EBU TRANSPARENTE
5.1/7.1 AAC UND HE AAC V2
AUDIO LINEAL 8 CANALES
APT.X/EAPT.X 8 CANALES
80..120
128..248
256
4608
3072
264..320
512
576
18432
4480
19
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
3.- IP como plataforma de las modernas redes de Comunicaciones y Broadcast.
3.1.- Requerimientos básicos para el transporte multimedia
Desde un punto de vista económico, las clásicos servicios de broadcast ofrecen cobertura al
mayor número de destinos a un coste muy bajo. Los servicios de streaming multimedia, son
generalmente más caros debido a que los datos han de ser enviados individualmente a cada uno
de los destinos. En entornos de red cerrados, el multicast es bien conocido por permitir envíos
de datos a un ilimitado número de destinos con una mínima carga de red. Pero el multicast no
es muy usado debido a que no es soportado por todos los routers de red.
Por otro lado, los servicios de streaming dirigidos a audiencias masivas (ej. eventos deportivos,
programas de máxima audiencia) son transmitidos a través de redes que proporcionan los
mismos datos en muchas localizaciones simultáneamente para que desde esas localizaciones
sean enviados a los reproductores más cercanos, a fin de evitar estrangulamientos de red. El
streaming de alta calidad requiere el protocolo RTP/RTCP el cual es la base de las transmisiones
en tiempo real. Para el control del contenido del streaming se aplican los protocolos SIP, SAP,
RTSP y HTTP. Estos protocolos son controlados por diferentes puertos, ofrecen funcionalidad
de control y todos usan el protocolo RTP como protocolo básico de intercambio de información.
[Fig. 5]
RTP/TCP: Arquitectura de protocolo
Aplicación (Receptor)
Aplicación (Emisor)
RTCP
Encoder
Feedback
RTCP
Datos
RTCP
RTCP
Decoder
21
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
4.- Comunicaciones Conmutadas en la Internet Pública
4.1.- Comparación RDSI SIP
Comparando con la RDSI los paquetes de datos en una red IP son siempre provistos con las
direcciones de emisor y receptor por los terminales y se envían sin un establecimiento previo de
la conexión. Para permitir conexiones conmutadas dentro de las redes IP, fue desarrollado el
protocolo SIP (Session Initiation Protocol) por el grupo IETF (Internet Engineering Task Force)
denominada RFC 3261.
Durante el establecimiento de la conexión vía RDSI, la parte iniciadora marca el número de la
parte receptora. Esta petición es presentada a una red que soporta y, si hay suficiente capacidad
o ancho de banda, devuelve una señal de recepción confirmando la reserva del canal o el ancho
de banda. Esta red está compuesta típicamente por varios segmentos de red y solicitudes de
reserva e intercambio que han de ser confirmadas entre cada una de las partes. Esto activa a una
solicitud a moverse desde una red local a una red regional y estas a redes nacionales e
internacionales. Tan pronto como el receptor es contactado y está disponible para aceptar la
llamada, ambos participantes en la comunicación son conectados directamente a través de los
canales reservados.
A fin de manejar esta comunicación eficientemente, la red de comunicaciones es separada
dentro de 2 redes: la red de señalización y la de datos de usuario. Mientras que la red de
señalización envía toda la información necesaria para su propia conexión, la red de datos de
usuario en un canal libre, conmutado con 64 kbps (RDSI).
Debido a la amplia cobertura que se ha logrado actualmente con las redes orientadas a paquetes
(IP) y su alto ancho de banda, muchos servicios están ahora disponibles a través de estas.
Aunque inicialmente fueron concebidas como una plataforma de intercambio puro de datos, tal
como el e-mail, en estos momentos pueden aceptar servicios tales como la televisión o canales
de vídeo, la radio o canales de audio y la telefonía con la voz sobre IP, llamada a ser la sustituta
natural de las actuales redes de telefonía.
En contraste con la RDSI, los paquetes de datos son asignados con las direcciones del emisor y
el receptor y conectados inmediatamente sin mediar ningún proceso de marcado. Para poder
habilitar el marcado en este tipo de redes se ha desarrollado el protocolo SIP (Session Initiation
Protocol). Aunque los detalles de SIP traen reminiscencias del protocolo de canales-D del RDSI,
no lo era para las compañías de telecomunicaciones, pero la IETF que finalizó la documentación
ahora denominada RFC 3261 (Request for Comments). El grupo de trabajo, basó sus
desarrollos en bloques existentes y es por eso que no debe causar ninguna sorpresa que
muchos elementos sean muy similares a HTTP o SMTP.
23
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
4.2,- ¿Como trabaja SIP?
El Protocolo de Inicio de Sesión (SIP) es un protocolo basado en texto, que para la negociación
de sus conexiones se basa en el Protocolo Internet (IP). SIP es usado para dirigir simplemente
la señalización entre partes individuales de negociación. El transporte multimedia corre -como
en la RDSI- de forma separada a la negociación. Los datos multimedia son enviados a menudo a
través de una ruta diferente, transportados mediante un protocolo de transporte diferente. Es
por ellos que si TCP y UDP están disponibles para la negociación, RTP es generalmente el
protocolo más usado para el transporte multimedia.
En el caso más simple (Punto a Punto) los componentes individuales son conectados
directamente entre ellos sin una unidad central. (Figura 6). Dentro de una sesión cada parte es
denominada User-Agent (UA). Un UA puede jugar dos roles:
. User Agent Client (UAC) agente que inicia la sesión.
. User Agent Server (usa) contesta a los requerimientos del UAC.
Un dispositivo SIP puede hacer las dos cosas. Para establecer cada negociación es enviado un
mensaje de invitación [INVITE] desde la parte llamante a la dirección SIP del receptor. La
palabra clave INVITE es uno de los denominados Métodos, por el cual cualquier User Agent debe
dirigir. Otros Métodos son por ejemplo ACK, BYE o REGISTER. Si la parte receptora acepta la
llamada, ella puede contestar directamente con un mensaje OK, el cual es reconocido por la
parte llamante con un mensaje ACK. Estos tres mensajes son suficiente en la mayoría de los
caso para establecer la conexión de datos multimedia. Sin embargo los tres mensajes
mencionados suelen llevar especificaciones, contenidos adicional en el denominado cuerpo
BODY. El cuerpo contiene una descripción de la conexión de datos multimedia que será
establecida. Aquí es donde se especifica que códecs de audio y vídeo serán utilizados, que
parámetros se usarán y que direcciones IP y puertos se usarán en cada una de las partes. Para
describir la conexión de datos multimedia, se usa un protocolo de descripción de sesión
denominado SDP (Session Description Protocol), un protocolo que está ya una parte
establecido de otros mecanismos de la negociación y la transmisión.
Una de las ventajas de SIP es la posibilidad de negociar los ajustes y las propiedades de la
conexión multimedia de una manera automática, por ello estas no tienen porque ser definidas
por el emisor de la llamada. Es incluso posible intercambiar una lista de prioridades en lugar de
especificar un tipo de códec en particular el cual puede ser modificado y remplazado por la parte
remota. Desde un mínimo de tres mensajes son intercambiados durante el establecimiento de
la comunicación la parte receptora siempre tiene la última palabra y puede en último orden
definir cual será el códec que se utilizará.
24
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
FIG. 6
SIP - Esquema de establecimiento de una sesión simple
1: INVITE FRITZ
2: 100/TRYING
Usuario
Agente 1
2: 180/RINGING
3: 200/OK
Usuario
Agente 2
4: ACK
MEDIA CONNECTION RTP
1: BYE
2: 200 /OK
Otra ventaja de SIP se revela a la hora de poder establecer conexiones a través de un servidor SIP,
el cual permite tener actualizadas las direcciones físicas de cada dispositivo de una red aunque
estas puedan variar.
Las direcciones de los clientes SIP son marcadas con un prefijo “sip:” y aparecen sobre todo en
una de las siguientes formas:
“sip:usuario@host”. “sip:usuario@dominio”,
“sip:usuario@dirección IP”. En el caso más simple de una conexión directa entre dos
dispositivos finales estos son el “host”, el ”dominio” y “la dirección IP” del dispositivo final.
Esto significa que la dirección IP del receptor debe ser conocida o el host o el dominio han de
poder ser resueltos mediante mecanismos comunes, tales como DNS (Domain Name Service).
En la práctica, esto resulta raro y la localización del terminal de destino se realiza con la ayuda de
servidores SIP.
Vamos a examinar el siguiente caso como un ejemplo. El terminal 1 desea establecer una
conexión con el terminal móvil 2. Las direcciones IP de las unidades remotas son desconocidas
por cada parte. Podrían posiblemente ser dispositivos móviles conectados a una red UMTS o
ADSL. Sin embargo ambos terminales están logeados en un servidor SIP con un mensaje SIP
especial. Para hacerlo los usuarios se habrán asignado unas identidades con una dirección SIP
previamente asignada de la forma “usuario@proveedor-servicio” protegida por una clave de
acceso.
25
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
El servidor SIP almacena la información de la IP actual de todos los usuarios en cada momento
en el Servidor de Localización. Por ello durante la petición de conexión del Terminal 1 hay una
dirección registrada para el Terminal 2, por ejemplo “dispositivo2@proveedor-servicio”. El
mensaje de invitación INVITE es enviado al servidor SIP, el cual envía una consulta al servidor de
localización para que le envíe la dirección IP del receptor, una vez recibida, envía la llamada al
receptor y retorna la respuesta al Terminal 1 con un leve cambio. El terminal 2 responde los
mensajes SIP del servidor SIP, el cual dirige los mensajes nuevamente al Terminal 1. Los
mensajes “100/Trying” mostrados en la figura 7 son opcionales y simplemente sirven para el
reconocimiento de la petición. Los mensajes “180/ringing” son también opcionales. Estos
simplemente envíanla señal de tono de llamada en el receptor a la parte llamante.
SIP - Flujo de llamada
SERVICIO DE LOCALIZACIÓN
4:[email protected]
3:[email protected]?
1: INVITE
[email protected]
5: INVITE
2: 100/TRYING
SIP Proxy
Usuario
Agente 1
[email protected]
Usuario
Agente 2
6: 100/TRYING
8: 100/RINGING
7: 100/RINGING
10: 200/OK
9: 200/OK
11: ACK [email protected]
FIG. 7
Tal como se muestra en la figura, los dispositivos nunca comunican directamente excepto
cuando se usa la información “ACK”. La comunicación solo corre a través del servidor Proxy.
Desde el punto de vista de un dispositivo la negociación es tomada como si fuera una
negociación directa sin proxy. El ejemplo no muestra la conectividad de los participantes en
diferentes servidores SIP, la cual es muy típica y posible sin generar ningún problema, porque la
peticiones de conexión son pasadas simplemente de un servidor SIP a otro. Entre los 2
dispositivos puede entonces haber solo uno o toda una cadena de Proxys SIP.
26
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
Además no es necesario que todos los servidores proxy sean del mismo proveedor. Gracias a
las soluciones el tipo código abierto como Asterisk o los routers con funcionalidades de
servidor SIP integradas, construir una estructura de red es muy simple. La existencia de un
nuevo protocolo en cambio puede obviamente traernos nuevos problemas potenciales, como en
cualquier protocolo peer-to-peer, los firewalls pueden provocar el corte de comunicaciones a
través de SIP lo que obliga a configurarlos debidamente. Todos los paquetes del exterior
(generalmente de Internet) son definidos como no solicitados y son rechazados por el firewall.
Asumiendo que los dos dispositivos que intervienen en una comunicación SIP están detrás de
un Firewall, ninguno de los 2 puede iniciar una conexión porque todas sus peticiones son
rechazadas.
Con una apropiada configuración del firewall a través del redireccionamiento de puertos, este
problema puede ser evitado. Otro problema es la dirección IP del dispositivo de destino, la cual
es necesario conocer para la conexión de datos de usuario y es parte de la información SDP
(Session Description Protocol). Si se está aplicando NAT (Network Address Translation), como
es común en las redes no públicas la dirección IP no puede ser alcanzada por la otra red. Las
redes no públicas (una red de una oficina) usan típicamente Direcciones IP que son parte de una
área especial de direcciones las cuales solo está permitido usar en redes internas. Ejemplos son
direcciones con la estructura 192.168.X.X o 10.X.X.X. Un paquete de este tipo de direcciones en
la Internet Pública es inmediatamente rechazado.
NAT tiene cuidado con la transición de paquetes IP desde la red privada a la red pública y
sobrescribe las direcciones no públicas del emisor con una dirección pública. Para los paquetes
entrantes hay direcciones publicas del destino que son convertidas a direcciones privadas. Hay
que tener en cuenta que solo las direcciones IP de la cabecera son cambiadas. Los contenidos
de los paquetes (por ejemplo al descripción de los datos de conexión multimedia) sigue sin
tocar. Existen varias posibilidades para traducir direcciones. Estos diferentes métodos pueden
conducir a diferentes direcciones o puertos que pueden ser escritos como identificación del
remitente. Dependiendo del tipo de NAT, los paquetes traducidos (los paquetes que alcanzan la
red pública) puede parecer que viene de diversas direcciones o puertos y esto puede ser
impredecible. Por ello es a veces difícil poner la dirección y el número de puerto apropiados en el
contenido (cuerpo) de un mensaje SIP.
FIG.8
SIP - NAT/Firewalls
El problema de los Firewalls
1
2
4
3
1
2
Una solución para este problema es disponer de un protocolo STUN (Simple Tranversal of UDP
over NATs). STUN deja al cliente descubrir que clase de NAT se utiliza en la red y que número de
puertos ha de ser usado. Para conseguir esto, se lleva a cabo un intercambio de paquetes con el
servidor de STUN (ej. stunserver.org)
27
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
4.3.- Seguridad operacional
Básicamente hay 2 aspectos de seguridad a tener en cuenta en este tipo de conexión:
. La seguridad de la información transmitida.
. La seguridad contra ataques del exterior.
Para una conexión basada en SIP es necesario un intercambio de información a través de 2
canales diferentes. Registro e información de señalización en uno de los canales y datos de
usuario en el otro (ambos via RTP). Ambas conexiones pueden contener datos secretos. Con el
fin de proteger la señalización SIP, el estándar SIP (RFC 3261) define que partes del protocolo
SIP pueden usar palabras clave para mostrar la encriptación necesaria. Tal protección es
aplicada con el procedimiento TLS, muy conocido del HTTPS. En orden de garantizar la
transparencia de la información, solo el cuerpo de cada información normalmente la
información acerca de las codificaciones de audio y vídeo usadas- es protegida. Generalmente
cuando se transmiten datos multimedia, vale proteger el contenido. Un mecanismo de
protección no es parte del estándar SIP, pero se pueden usar otros mecanismos establecidos,
tales como:
. VPN: Los participantes de una VPN pueden intercambiar datos como en una red
LAN. Los participantes individuales no necesitan ser conectados directamente. La
conexión a través de la Internet pública es encriptada.
. ATM o MPLS: Servicios de la capa de transporte, basados en mecanismos de
dirección.
. IPSec: Tunnel basado en el protocolo de Internet.
Uno de los riesgos más críticos de seguridad es un ataque desde el exterior. Tales ataques son
lanzados para perturbar el servicio o bloquearlo totalmente (DoS Denial of Service). Es
concebible que un hacker pretenda re enrutar el flujo de datos RTP a un nuevo destino y con ello
lograr el acceso al contenido. Por otra parte, el atacante puede también reemplazar el stream de
datos RTP por otro con el fin de distribuir una información errónea y no requerida. Tales ataques
no pueden ser evitados por los medios descritos anteriormente, por lo que se necesita
estructuras de red y aplicaciones de seguridad tales como firewalls y gateways de capa de
aplicación (ALG Application Layer Gateways). Estas estructuras han de ser revisadas
periódicamente para que no se vuelvan inservibles.
28
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
4.4.- SIP para enlaces multimedia de alta calidad
Actualmente, SIP es utilizado principalmente dentro de aplicaciones de telefonía VoIP. En las
aplicaciones de VoIP está muy bien posicionado y está previsto que sea el estándar para la Nueva
Generación de Redes (NGN). Podemos contar que el SIP es un requisito de VoIP para las
óptimas operaciones con las apropiadas estructuras de red y recursos. Como se ha descrito
anteriormente, SIP es también una buena base para enlaces multimedia profesionales de
calidad. La muy bien definida separación entre el establecimiento de la comunicación y la
sucesiva transmisión de datos del usuario, permite el uso de cualquier códec de audio y vídeo
tan complejo como permitan los dispositivos implicados. SDP (Session Description Protocol)
el cual es usado para la descripción de los códecs de audio y vídeo es ya parte de los mecanismos
de transmisión y ofrecido por importantes fabricantes de códecs. SIP es simplemente un nuevo
método de señalización.
4.5.- SIP -> Futuro
A fin de usar SIP para comunicaciones entre audiocódecs y videocódecs sin problemas
operacionales, son necesarias algunas definiciones y extensiones.
Con una conexión normal SIP, la descripción de la conexión puede ser enviada solo tres vecesdos veces por parte del emisor y una más por parte del receptor. Este sistema es suficiente para
las clásicas aplicaciones de telefonía desarrolladas para SIP que están limitadas a algoritmos de
codificación con ninguno o pocos parámetros (G.711, G.722, G.723, G.726, G.729a...). Para las
conexiones multimedia de alta calidad, los participantes en la comunicación han de ponerse de
acuerdo no solo en el algoritmo de compresión a utilizar, sino en el número de canales, la
frecuencia de muestreo, el bitrate y el tipo de conexión unidireccional o bidireccional.
El problema aquí podría venir en forma de limitación en los parámetros que pueden ser utilizados
o negociados. Otra posibilidad podría ser extender el número de pasos para el establecimiento
de la comunicación a más de tres. El grupo de trabajo EBU N/ACIP está jugando un importante
papel en la búsqueda de soluciones apropiadas y establecimiento de estándares.
En Mayah tenemos mucho interés puesto en SIP como protocolo de comunicación para enlaces
multimedia de alta calidad, desde que las operadoras de telecomunicaciones comenzaron a
anunciar sus intenciones de cesar sus servicios de RDSI en un futuro cercano.
Las conexiones RDSI están ya muchas veces basadas en paquetes, al menos hasta el primer
conmutador. La latencia causada por esa conversión, así como las pérdidas de datos
adicionales pueden ser evitadas cambiando a una red manejada completamente por IP. Por
supuesto, las conexiones IP también introducen latencia la cual es directamente dependiente de
la calidad de red subyacente.
29
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
El grupo de trabajo N/ACIP de la EBU está ocupado con el asunto del Audio sobre IP y trabaja
junto con los fabricantes, proveedores de red y usuarios para alcanzar soluciones y
recomendaciones de compatibilidad entre audiocódecs vía IP. SIP es el protocolo obligatorio
mencionado dentro de los proyectos de recomendaciones.
Cuando se adapte SIP a los requerimientos de las comunicaciones multimedia de alta calidad, el
grupo de trabajo de la EBU será la plataforma más importante. Todas los problemas entre las
partes involucradas en el duro y largo camino de introducción de la RDSI deben ser evitadas con
SIP.
30
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
5.- Consideraciones Prácticas para SIP y audio-via-IP
5.1.- Requerimientos para comunicaciones basadas en SIP a través de la Internet Pública.
Lo primero a tener en cuenta a la hora de hacer pruebas/integración de SIP es la selección de la
conexión IP apropiada. En España por ejemplo hay varios proveedores de red nacionales y
regionales que proveen enlaces de datos simétricos y asimétricos con capacidades a partir de
320 kbps de velocidad de subida. Cuando se entra en contacto con un proveedor de servicio de
redes IP es necesario tener en cuenta los siguientes puntos de consideración:
. Utilizar la línea de una manera dedicada para evitar interferencias con otros
servicios en el consumo de ancho de banda, contratando la mayor velocidad de
subida posible a partir de 320 kbps.
. Poder contratar 3 direcciones IP Públicas, para poder instalar el Servidor SIP y al
menos los 2 dispositivos de comunicación.
. Preguntar al proveedor acerca de su política de QoS (Quality of Service) algunos operadores
penalizan el tráfico RTP por considerarlo competencia directa de sus obsoletos servicios de
transporte.
Todos los clientes SIP, han de estar registrados en un servidor SIP específico. Este servidor ha
de estar en la misma red o en una red diferente que sea accesible a través de Internet. El servidor
SIP es la llave de las conexiones SIP y puede ser considerado una especie de guía telefónica o
base de datos centralizada donde se encuentran todos los clientes disponibles.
Si estás interesado en probar SIP lo mejor es instalar tu propio servidor SIP. Hay varias opciones
en el mercado tanto en versiones de software como en versiones de hardware dedicado, tales
como el LANCOM 1722 VoIP por ejemplo.
En el momento de empezar a trabajar con SIP, solo necesitas registrarte como usuario SIP. El
resto de ajustes son directamente configurados en el cliente (Centauri II, Sporty, Flashman II).
También es posible usar servidores SIP externos en lugar de uno propio, pero siempre se ha de
tener en cuenta si dispone de las prestaciones necesarias para las comunicaciones de alta
calidad.
ICC Broadcast dispone de servidores SIP ubicados en backbones principales de Internet que
presta para los usuarios de los productos de Mayah en España, en el caso de que no dispongan
de la infraestructura necesaria, siendo una plataforma totalmente transparente para el usuario al
cual se le asigna la numeración del rango que desee.
31
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
5.2.- Requerimientos para otras conexiones basadas en IP a través de la Internet Pública |
Unicast frente a Multicast
Las conexiones IP Punto a Punto son denominadas Unicast. Multicast es usado para establecer
transmisiones Punto a Multipunto. Unicast puede usar tanto TCP como UDP como su protocolo
de transporte. Usando un Centauri II o cualquier otro Audiocódec de Mayah, las conexiones
UDP Unicast pueden ser unidireccionales o bidireccionales. Las conexiones TCP del Centauri II
son siempre bidireccionales. Multicast solo puede utilizar UDP como protocolo de transporte.
Todas las transmisiones Multicast son siempre unidireccionales.
El Multicast es un camino para distribuir datos multimedia a los receptores, mientras estos
reciben el contenido de audio o vídeo al mismo tiempo de una manera similar a la radio y
televisión actuales. Mientras que el Unicast establece un patrón de comunicación para enviar
datos de un host a otro, el Multicast representa el envío de datos desde un host a muchos otros
dentro de la misma red. El principio del Multicast es enviar datos desde un origen a varios
destinos, por el que estos hosts deben tener la posibilidad de solicitar datos particulares
enviando una solicitud específica de multicast al siguiente router.
Los problemas con el multicast se presentan cuando piensas acerca de como los datos
encuentran el camino entre el emisor y el receptor. Mientras que la radio y la televisión
convencional alcanzan sus receptores dispersando los datos todo lo que se puede como si fuera
una regadera, el envío a través de la red tiene algunas restricciones significativas, tales como el
ancho de banda y la carga de trabajo. El principio de la “regadera” puede causar que la red se
colapse tanto como enviando un stream de datos mediante una conexión punto a punto para
cada receptor. Otro problema radica en como consigue el emisor o el router saber que
receptores desean recibir sus datos y cuales no.
La intención de Multicast es usar el menor ancho de banda posible para permitir que la carga de
trabajo de la red sea lo más pequeña posible. Esto significa, no desperdiciar ancho de banda
para enviar datos innecesarios, pero enviar solo a los hosts que hayan solicitado los datos y
enviarlos por la vía más corta respectivamente al camino más eficiente. En general esto significa
que el emisor entrega los datos una vez y estos son duplicados por un router tan cercano al
receptor como sea posible.
La organización del envío y recepción de datos multimedia es manejada por un protocolo
llamado IGMP (Internet Group Management Protocol), por el cual los clientes pueden llamar al
router que ellos quieran para unirse o dejar un grupo multicast. Este grupo multicast es un
número determinado de emisores/receptores, registrados mediante sus routers en una
dirección especial Multicast-IP.
32
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
En el nivel de IP hay un rango especial de direcciones de clase-D reservadas para multicast. Los
cuatro bits significativos de las direcciones de clase-D se fijan a 1 1 1 0. El número de 28-bits
siguiente a esos cuatro bits se llama “Multicast group ID” el cual abarca desde la dirección
224.0.0.0 a la dirección 239.255.255.255.
Cada stream específico de Multicast es definido por un Multicast group ID. Si un host quiere
unirse a un determinado grupo multicast para enviar y recibir datos específicos debe informar de
ello inmediatamente al router vecino enviando la especifica Multicast ID a través de un telegrama
IGMP. Esta ID deberá ser enviada entonces de router a router para ver si hay otros miembros del
grupo multicast.
Recibiendo Multicast
Solicitud para Multicast
Emisor
Emisor
Emisor
Emisor
Emisor
Emisor
Emisor
Emisor
Emisor
Receptor
Emisor
Receptor
Receptor
Emisor
Emisor
Emisor
Receptor
Emisor
Emisor
Emisor
Emisor
Emisor
Receptor
Receptor
FIG. 9
Si el router vecino del host ahora consigue datos del grupo Multicast solicitado, los transmitirá al
host demandante. Por supuesto, el mismo host puede actuar como remitente también. En este
caso el router vecino, transmitirá sus datos al resto de miembros del grupo.
33
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
6.- Esquemas de aplicaciones IP Típicas e IP/RDSI
6.1.- Transmisión desde una Unidad de Reportero Móvil a múltiples
[Fig. 10]
2X HEAD·
PHONES
UMTS/3G/3.5G
MPG=4 HE AACV2,48KBPS
2X
LINE OUT
Internet
SPORTY
ESTÉREO ANALÓGICO
o AES/EBU DIGITAL
CENTAURI II
CENTAURI II
CENTAURI II
2X
LINE IN
2X MIC
6.2.- Transmisión desde una Unidad de Reportero Móvil a múltiples estudios con IP
Multicast vía WiFi o WiMax.
[Fig. 11]
HEAD·
PHONES
Eapt~X
192 KBPS
LINE OUT
Internet
WLAN
HOTSPOT
ESTÉREO ANALÓGICO
o AES/EBU DIGITAL
CENTAURI II
CENTAURI II
CENTAURI II
Flashman II
LINE IN
2X MIC
35
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
6.3.- Transmisión punto a punto por IP (Terrestre/Satélite) con backup por RDSI con
activación automática.
[Fig. 12]
ESTEREO DIGITAL
AES/EBJ
CENTAURI II
IP
MPEG 1/2,LAYER 2
384 KBPS
CENTAURI II
MPEG 4 HE AACv2
64 KBPS
DAB/DRM
AM/FM
STEREO DIGITAL
AES/EBJ
Backup line
RDSI
6.4.- Transmisión punto a 8 puntos por IP (Terrestre/Satélite) con backup por RDSI de
activación automática.
[Fig. 13]
RDSI UP to
24 bit/96 kHz, 448 kbps
ÉSTEREO DIGITAL
AES/EBU
IP
CENTAURI II
ESTEREO DIGITAL
AES/EBJ
CENTAURI II
#1
CENTAURI II
#2
CENTAURI II
#8
MPEG 4 HE AACv2
64 KBPS
Línea de Backup
ISDN
Audio
36
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
6.5.- Transmisión 7+1 punto a punto en modo AES/EBU Transparente vía IP con una bitrate de
12 Mbps.
[Fig. 14]
5.1/7.1 MULTICANAL
4X AES/EBJ
AES TRANSPARENTE
12,288 MBPS
IP
CENTAURI II
CENTAURI II
5.1/7.1 MULTICANAL
4X AES/EBJ
6.6.- Distribución Multicast a través de IP.
[Fig. 15]
MPEG 2 AAC
128KBPS
CENTAURI II
IP
ESTEREO DIGITAL
AES/EBJ
Ganymed 1002
Ganymed 1002
#1
#2
ESTEREO DIGITAL
AES/EBJ
Ganymed 1002
#N
Audio
37
Audio-vía-IP
Principios básicos, prácticas y aplicaciones
6.7.- Aplicación Gateway Multipunto SIP/RDSI con conversión de formatos de audio.
[Fig. 16]
SIP
Internet
Flashman II
SPORTY
SIP
CENTAURI II
SIP
Audio Codec
SIP
Mpeg Layer 2
192 kbps
SIP<=>RDSI
GATEWAY 2250
RDSI
CENTAURI II
1
CENTAURI II
2
CENTAURI II
8
6.8.-Aplicación Gateway RDSI/SIP con conversión de formatos de audio.
[Fig. 17]
AUDIO
Audio Codec
Mpeg Layer 3
128 kbps
RDSI
SIP<=>ISDN
GATEWAY 2250
SIP
E.G. EAPT.X
192 kbps
IP
CENTAURI II
Audio analogo
Digital AES/EBU
38
ICC Broadcast | Hardata España
Pº. Ind. Joxe Mari Korta, A61A - Mod. 12
20750 Zumaia (España) - Teléfono (+34) 902 117 480
www.iccbroadcast.com
Descargar