Si te has estado preguntando qué podría eliminar la capacidad de uno de los tres grandes operadores de telefonía celular de los Estados Unidos para entregar llamadas y mensajes de texto, y mantenerlo así durante la mayor parte del día, T-Mobile ahora tiene una respuesta parcial que pertenece a su extensa interrupción en todo el país el lunes .
La compañía emitió una disculpa el martes por la noche que puede leer en su totalidad a continuación, y el jueves, el CTO Neville Ray proporcionó una explicación adicional que encontrará al final de esta publicación.
La versión corta, si estamos leyendo esto correctamente: un circuito de fibra óptica falló, y su circuito de respaldo también falló, lo que causó una reacción en cadena que tensó la red hasta el punto de que muchas llamadas y mensajes de texto no podían pasar.
La versión más larga:
16 de junio de 2020 6:23 pm PST
Actualización sobre el rendimiento de voz y texto de T-Mobile
Todos los días vemos el papel vital que desempeña la tecnología para mantenernos conectados, y sabemos que los clientes de T-Mobile confían en nuestra red para garantizar que tengan conexiones con familiares, seres queridos y proveedores de servicios. Esta es una responsabilidad que mi equipo toma muy en serio y es nuestra máxima prioridad. Ayer, no encontramos nuestro propio bar por excelencia.
Muchos de nuestros clientes experimentaron un problema de voz y texto ayer, específicamente con llamadas VoLTE (Voz sobre LTE). Mi equipo tomó medidas inmediatas: cientos de nuestros ingenieros trabajaron incansablemente junto a proveedores y socios durante todo el día para resolver el problema desde el momento en que nos dimos cuenta. Las conexiones de datos continuaron funcionando, al igual que nuestras llamadas que no son VoLTE para muchos clientes y servicios como FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype y otros permitieron a nuestros clientes mantenerse en contacto. Además, muchos clientes pudieron usar conexiones de voz con conmutación de circuitos y los clientes de la red Sprint no se vieron afectados. VoLTE y texto en todas las regiones se recuperaron completamente a las 10 pm PDT anoche. Me complace decir que la red está en pleno funcionamiento … y estamos trabajando día a día para mantenerla así.
Nuestros ingenieros trabajaron durante toda la noche para comprender la causa raíz de los problemas de ayer, abordarlos y evitar que vuelva a suceder. Se sabe que el evento desencadenante es una falla de circuito de fibra arrendada de un proveedor externo en el sudeste. Esto es algo que sucede en todas las redes móviles, por lo que hemos trabajado con nuestros proveedores para crear redundancia y resistencia para asegurarnos de que este tipo de fallas en los circuitos no afecten a los clientes. Esta redundancia nos falló y resultó en una situación de sobrecarga que luego se agravó por otros factores. Esta sobrecarga resultó en una tormenta de tráfico IP que se extendió desde el sudeste para crear problemas de capacidad significativos a través de la red central IMS (subsistema multimedia IP) que admite llamadas VoLTE.
Hemos trabajado con nuestro IMS (IP Multimedia Subsystem) y proveedores de IP para agregar protecciones adicionales permanentes para evitar que esto vuelva a ocurrir y seguimos trabajando para determinar la causa de la falla de sobrecarga inicial.
Por lo tanto, quiero disculparme personalmente por cualquier inconveniente que creamos ayer y agradecerle su paciencia mientras trabajamos en la situación hacia la resolución.
Neville Ray
Presidente de tecnología de T-Mobile
No está claro qué circuito de fibra de otro proveedor falló. Hubo un informe el lunes de que Level 3, uno de los principales proveedores de backbone de Internet del mundo, estaba experimentando una interrupción, pero un portavoz le dijo a TechCrunch diferentemente.
El jueves, Ray restó importancia a la interrupción durante una presentación en el Foro Virtual 5G de Wells Fargo, alegando que solo el 20 por ciento de las llamadas de T-Mobile se cortaron porque los clientes pudieron completar otras llamadas utilizando datos móviles.
"Todo fue provocado por una interrupción común de la fibra del jardín", dijo, y agregó que "expuso un problema en una configuración de enrutamiento que condujo a una de estas inundaciones de IP en la red", que a su vez "creó todo tipo de capacidad y medidas de protección en la arquitectura central ”.
"Lo que hicimos para superar eso fue agregar mucha capacidad sobre la marcha, después de descubrir dónde realmente existían los problemas", dijo Ray.
"Tenemos que hacerlo mejor", dijo Ray, sin ofrecer ninguna sugerencia particular acerca de cómo T-Mobile podría prevenir tal problema en el futuro. Él caracterizó la interrupción como una coincidencia: "Fue una serie de eventos que, en muchos sentidos, desde la interrupción de la fibra hasta la red de enrutamiento y la vulnerabilidad central, todas esas cosas ocurrieron simultáneamente y esa fue la interrupción que vimos".
"Nunca digas nunca, las interrupciones siempre son parte de ser una empresa de tecnología, pero nos disculpamos y estamos en un lugar mejor".