Platform Owner AIOps SRE

Job title: Platform Owner AIOps SRE

Company: National Grid

Job description: Sobre nosotrosTodos los días, entregamos energía segura a hogares, comunidades y empresas, conectando a las personas con la energía que necesitan para sus vidas. Nuestra experiencia y trayectoria nos posicionan de manera única para dar forma al futuro sostenible de nuestra industria a medida que se acelera el ritmo del cambio. Para tener éxito, debemos anticiparnos a las necesidades de los clientes, reducir los costos de suministro de energía y ser pioneros en sistemas de energía flexibles. Esto requiere cumplir nuestras promesas y buscar oportunidades de crecimiento.En TI y Digital, colaboramos estrechamente con los diversos negocios de energía dentro del grupo National Grid, revolucionando las operaciones a través de la tecnología. Al adoptar metodologías ágiles y mentalidades digitales, impulsamos la eficiencia y brindamos nuevas capacidades a los clientes internos y externos mientras lideramos el avance hacia un futuro libre de carbono.Nuestro trabajo es fundamental, ya que National Grid suministra energía a millones de hogares y empresas en el Reino Unido y EE. UU., y la tecnología que empleamos es vital para esta tarea. El candidato seleccionado para este puesto desempeñará un papel crucial en nuestra misión, respaldado por nuestro equipo global multicultural y centrado en el cliente, con oportunidades de desarrollo profesional.National Grid está contratando un propietario de plataforma AI OPS SRE. Este puesto ofrece flexibilidad remota, con el requisito de que los candidatos residan en uno de los siguientes estados: Nueva York (NY), Nueva Jersey (NJ), Massachusetts (MA), Connecticut (CT), Vermont (VT), Rhode Island (RI). ), Maine (ME) o New Hampshire (NH).Propósito del trabajoComo propietario de plataforma de AI Ops y SRE, su objetivo principal es diseñar y supervisar la implementación de sistemas complejos que cumplan con los requisitos funcionales y no funcionales. Desempeñará un papel clave en el desarrollo de políticas, estándares y procesos de innovación de diseño de sistemas específicos para AI Ops y SRE. Además, monitoreará activamente las tecnologías emergentes y evaluará su impacto potencial en la organización. Sus responsabilidades incluirán impulsar la visión estratégica para AI Ops y SRE dentro de la plataforma, garantizar la alineación entre las partes interesadas y promover un enfoque cohesivo para la implementación de AI Ops y SRE.Responsabilidades claveComo propietario de plataforma de AI Ops y SRE, su principal responsabilidad es desarrollar estrategias integrales para implementar prácticas de AI Ops y SRE dentro de la organización. Esto implica comprender los requisitos comerciales, evaluar las capacidades técnicas e identificar áreas donde se pueden aprovechar la IA y la automatización para mejorar la confiabilidad, el rendimiento y la eficiencia operativa.Sus responsabilidades clave como propietario de plataforma de AI Ops y SRE incluyen:

Desarrollo de estrategias de operaciones de IA e ingeniería de confiabilidad del sitio (SRE): será responsable de desarrollar estrategias que incorporen prácticas de operaciones de IA y SRE dentro del centro de datos y el dominio de la nube. Esto implica comprender los requisitos comerciales, evaluar las capacidades técnicas e identificar oportunidades para aprovechar la inteligencia artificial y la automatización para mejorar la confiabilidad y el rendimiento.
Diseño de soluciones de arquitectura en la nube: diseñará soluciones de arquitectura local y en la nube que integren tecnologías de inteligencia artificial y principios de SRE. Esto incluye diseñar sistemas escalables y resilientes, implementar mecanismos de monitoreo y alerta y garantizar una alta disponibilidad y tolerancia a fallas.
Colaboración con los equipos de desarrollo y operaciones: trabajará en estrecha colaboración con los equipos de desarrollo y operaciones para brindar orientación técnica y garantizar la implementación exitosa de las prácticas de AI Ops y SRE. Esto implica revisar diseños, brindar recomendaciones y promover las mejores prácticas para crear y operar aplicaciones basadas en la nube confiables y eficientes.
Implementación de monitoreo y análisis impulsados por IA: implementará soluciones de monitoreo y análisis impulsados por IA dentro del dominio de la nube. Esto incluye aprovechar el aprendizaje automático y las técnicas de análisis de datos para identificar y predecir anomalías del sistema, cuellos de botella en el rendimiento y fallas potenciales.
Establecimiento de procesos de respuesta y resolución de incidentes: Definirá y establecerá procesos de respuesta y resolución de incidentes alineados con las prácticas de SRE. Esto incluye establecer marcos de gestión de incidentes, definir rutas de escalada e implementar estrategias efectivas de respuesta a incidentes para minimizar el tiempo de inactividad y garantizar una resolución rápida.
Impulsar la mejora y la optimización continuas: impulsará los esfuerzos de optimización y mejora continua dentro del dominio de la nube. Esto implica analizar métricas del sistema, realizar análisis de causa raíz e implementar cambios para optimizar el rendimiento, la confiabilidad y la eficiencia de la nube. Se emplearán mecanismos de automatización y autorreparación para mejorar la resiliencia del sistema y reducir la intervención manual.
Mantenerse actualizado con las tendencias de la industria: es fundamental mantenerse actualizado con las últimas tendencias, tecnologías y mejores prácticas de la industria relacionadas con AI Ops, SRE, la nube y la computación local. Esto incluye asistir a conferencias, participar en comunidades relevantes y aprender y explorar continuamente nuevas herramientas y técnicas para mejorar las capacidades de AI Ops y SRE de la organización dentro de la nube y el dominio local.
Crear y entregar métricas de éxito del cliente rastreables y auditables para los servicios/productos de la plataforma.
Monitorear y analizar las métricas de rendimiento de la plataforma e informar sobre el estado general de la plataforma a los altos directivos.
Gestionar la plataforma de infraestructura dentro de los límites presupuestarios para garantizar la alineación con las prioridades y objetivos de la empresa.
Colaborar con Equipos Transversales para alinear los Requisitos No Funcionales (NFR) y priorizarlos de forma conjunta.

Requisitos

Licenciatura en una disciplina relevante, o una combinación equivalente de educación, capacitación y experiencia.
7 – 10 años de experiencia relacionada.
Fomente la cultura de un solo equipo con propiedad, colaboración y empatía en todas las funciones.
5 o más años de experiencia en gestión de personas con certificaciones profesionales y de la industria relevante.
Gestione los riesgos y comunique el estado, los problemas y los riesgos del proyecto de forma clara y oportuna a las partes interesadas.
Colabore con colegas y proveedores en diferentes zonas horarias y comuníquese de manera efectiva con personal técnico y comercial.
De 3 a 5 años La experiencia con plataformas en la nube como Azure preferentemente, Amazon Web Services (AWS) o Google Cloud Platform (GCP) es esencial para administrar y optimizar la infraestructura basada en la nube.
Contenedorización y orquestación: el dominio de tecnologías de contenedorización como Docker y plataformas de orquestación de contenedores como Kubernetes es importante para implementar y administrar aplicaciones en contenedores a escala.
Infraestructura como código (IaC): el conocimiento de herramientas de infraestructura como código como Terraform o AWS CloudFormation es valioso para automatizar el aprovisionamiento y la gestión de recursos de infraestructura.
Monitoreo y observabilidad: la familiaridad con herramientas de monitoreo y observabilidad como Prometheus, Grafana, ServiceNow, ELK Stack (Elasticsearch, Logstash, Kibana) o Splunk es crucial para monitorear el rendimiento del sistema, analizar registros y solucionar problemas.
Integración continua e implementación continua (CI/CD): experiencia con canalizaciones de CI/CD y herramientas relacionadas como GitHub, GitLab CI/CD.
Gestión de la configuración: el conocimiento de herramientas de gestión de la configuración como Ansible, Puppet o Chef es valioso para gestionar y automatizar los cambios de configuración en entornos de infraestructura y aplicaciones.
El dominio de herramientas de gestión de incidentes como ServiceNow, PagerDuty, VictorOps o ServiceNow, así como de plataformas de colaboración como Slack o Microsoft Teams, es esencial para una respuesta y coordinación eficaces ante incidentes.
Comprender los conceptos de redes, los protocolos y las mejores prácticas de seguridad es importante para administrar la infraestructura de la red, implementar controles de acceso seguros y garantizar la protección del sistema y de los datos.
Lenguajes de programación y scripting: la familiaridad con lenguajes de scripting como Python, Bash o PowerShell, así como con lenguajes de programación como Java, Go o Ruby, permite la automatización y personalización de diversas tareas y flujos de trabajo.
Tecnologías de bases de datos: el conocimiento de tecnologías de bases de datos como MySQL, PostgreSQL, MongoDB o Redis es valioso para administrar y optimizar sistemas de bases de datos y garantizar la integridad y disponibilidad de los datos.

Tus recompensasUn trabajo gratificante y una cultura colaborativa y orientada al equipo son solo el comienzo. Revise nuestra guía de beneficios digitales en negbenefitslivebrighter.com para obtener detalles y descripciones completos.Más información#LI-RK1 #LI-HÍBRIDOSalarioNueva Inglaterra: 179.000 dólares – 211.000 dólares al añoEstado de Nueva York: $192 mil – $226 mil al añoNorte del estado de Nueva York: entre 160.000 y 188.000 dólares al añoEste puesto tiene una trayectoria profesional que brinda oportunidades de avance dentro y entre bandas a medida que se desarrolla y evoluciona en el puesto; adquirir experiencia, conocimientos y adquirir y aplicar habilidades técnicas. Los candidatos serán evaluados y se les proporcionarán ofertas según las calificaciones mínimas de este puesto y su experiencia individual.National Grid es un empleador que ofrece igualdad de oportunidades y valora una amplia diversidad de talentos, conocimientos, experiencia y conocimientos. Fomentamos una cultura de inclusión que impulsa el compromiso de los empleados para ofrecer un desempeño superior a las comunidades a las que servimos. National Grid se enorgullece de ser un empleador de acción afirmativa. Alentamos a las minorías, las mujeres, las personas con discapacidades y los veteranos protegidos a unirse al equipo de National Grid.

Expected salary: $179000 – 211000 per year

Location: Brooklyn, NY – Syracuse, NY

Job date: Sat, 19 Oct 2024 02:48:31 GMT

Apply for the job now!