Site Reliability Engineer (The Reliability Guardian)

Job title: Site Reliability Engineer (The Reliability Guardian)

Company: Unreal Gigs

Job description: ¿Le apasiona construir y mantener sistemas resistentes que garanticen una alta disponibilidad y rendimiento? ¿Se destaca en la automatización de procesos, la resolución de problemas complejos y la creación de sistemas que se escalan sin problemas? Si está listo para asumir el desafío de garantizar operaciones de sistema confiables, eficientes y seguras, nuestro cliente tiene el rol perfecto para usted. Buscamos un ingeniero de confiabilidad del sitio (también conocido como The Reliability Guardian) para mejorar la confiabilidad del sistema, implementar la automatización y respaldar una experiencia de usuario perfecta.Como ingeniero de confiabilidad del sitio en nuestro cliente, colaborará con desarrolladores, ingenieros de DevOps y especialistas de TI para construir una infraestructura que sea resistente y escalable. Su experiencia en monitoreo, automatización y optimización del rendimiento será crucial para mantener el tiempo de actividad del sistema y respaldar la mejora continua. Desempeñará un papel vital para garantizar que los servicios sean confiables, eficientes y estén preparados para manejar las demandas del futuro.Responsabilidades clave: * Garantizar la confiabilidad y el rendimiento del sistema:

Diseñar e implementar estrategias para mejorar la confiabilidad y el rendimiento del sistema, enfocándose en la escalabilidad y la redundancia. Garantizará una alta disponibilidad en todos los sistemas distribuidos y abordará de forma proactiva los posibles problemas.
Automatizar procesos y mejorar la eficiencia:

Desarrolle scripts y herramientas de automatización para reducir las intervenciones manuales y mejorar los procesos de implementación, monitoreo y mantenimiento. Aprovechará herramientas como Ansible, Puppet o scripts personalizados para mejorar la automatización.
Monitorear y responder al estado del sistema:

Implemente y administre soluciones de monitoreo como Prometheus, Grafana o Datadog para rastrear el estado del sistema. Configurará alertas, paneles y respuestas automatizadas para mantener un rendimiento óptimo y detectar posibles fallas de manera temprana.
Gestión de incidentes y resolución de problemas:

Liderar los esfuerzos de respuesta a incidentes para abordar y resolver rápidamente las interrupciones del servicio. Documentará incidentes y contribuirá al análisis post-mortem para prevenir incidentes futuros y perfeccionar los procedimientos operativos.
Colaborar en la arquitectura y escalabilidad del sistema:

Trabajar con equipos de ingeniería y desarrollo para diseñar y escalar infraestructura. Contribuirás a las decisiones sobre mejoras arquitectónicas y brindarás información sobre la planificación de capacidad y las pruebas de carga.
Implementar estándares de seguridad y cumplimiento:

Integre prácticas de seguridad en el flujo de trabajo de confiabilidad, garantizando que todos los procesos automatizados, las soluciones de monitoreo y los sistemas operativos cumplan con los estándares de cumplimiento y seguridad.
Desarrollar y mantener canales de CI/CD:

Respalde y mejore los procesos de integración e implementación continua para facilitar la liberación de código sin problemas. Se asegurará de que las canalizaciones estén optimizadas para ofrecer velocidad, confiabilidad y escalabilidad.

RequisitosHabilidades requeridas:

Experiencia en confiabilidad y rendimiento: sólida experiencia para garantizar la confiabilidad y el rendimiento del sistema en entornos complejos y distribuidos. Entiendes cómo diseñar sistemas que se recuperen con éxito de las fallas.
Automatización y secuencias de comandos: competencia en la automatización de tareas utilizando lenguajes de secuencias de comandos como Python, Bash o PowerShell. Tienes experiencia con herramientas de automatización como Ansible, Chef o Puppet.
Monitoreo y gestión de incidentes: familiaridad con herramientas de monitoreo como Prometheus, Grafana, ELK Stack o Datadog. Tiene experiencia en configurar paneles de monitoreo, alertas y respuestas automatizadas a incidentes.
Conocimiento de canalizaciones de CI/CD: experiencia en el mantenimiento y optimización de canalizaciones de CI/CD utilizando herramientas como Jenkins, GitLab CI/CD o CircleCI. Puede integrar prácticas de confiabilidad en el proceso de implementación.
Concientización sobre seguridad y cumplimiento: conocimiento de la integración de estándares y prácticas de seguridad en los procesos de confiabilidad del sitio, garantizando que se mantenga el cumplimiento en todos los flujos de trabajo operativos.

Requisitos educativos:

Licenciatura o Maestría en Ciencias de la Computación, TI o un campo relacionado. Se puede considerar experiencia equivalente en ingeniería de confiabilidad o ingeniería de sistemas.
Las certificaciones relacionadas con plataformas en la nube o DevOps (por ejemplo, ingeniero de DevOps certificado por AWS, ingeniero de DevOps en la nube profesional de Google) son una ventaja.

Requisitos de experiencia:

Más de 5 años de experiencia en ingeniería de confiabilidad de sitios, DevOps o un campo similar, con una sólida experiencia en monitoreo y automatización de sistemas.
Experiencia práctica en la construcción y gestión de sistemas distribuidos y de alta disponibilidad.
Es muy deseable estar familiarizado con las plataformas en la nube (AWS, GCP, Azure) y las herramientas de orquestación de contenedores como Kubernetes.

Beneficios

Salud y bienestar: Planes de seguro médico, dental y de la vista integrales con copagos y primas bajos.
Tiempo libre remunerado: vacaciones competitivas, licencia por enfermedad y 20 días festivos remunerados por año.
Conciliación vida-trabajo: horarios de trabajo flexibles y opciones de teletrabajo.
Desarrollo profesional: Oportunidades de capacitación, reembolso de certificaciones y programas de avance profesional.
Programas de bienestar: acceso a programas de bienestar, que incluyen membresías en gimnasios, exámenes de salud y recursos de salud mental.
Seguro de Vida e Invalidez: Seguro de vida y cobertura de invalidez a corto y largo plazo.
Programa de asistencia al empleado (EAP): asesoramiento confidencial y servicios de apoyo para desafíos personales y profesionales.
Reembolso de matrícula: Asistencia financiera para educación continua y desarrollo profesional.
Participación comunitaria: oportunidades para participar en servicio comunitario y actividades de voluntariado.
Programas de reconocimiento: Programas de reconocimiento de empleados para celebrar logros e hitos.

Expected salary:

Location: San Francisco, CA

Job date: Sun, 03 Nov 2024 23:10:54 GMT

Apply for the job now!