Site Reliability Engineer (The Reliability Guardian)
Job title: Site Reliability Engineer (The Reliability Guardian)
Company: Unreal Gigs
Job description: ¿Le apasiona construir y mantener sistemas resistentes que garanticen una alta disponibilidad y rendimiento? ¿Se destaca en la automatización de procesos, la resolución de problemas complejos y la creación de sistemas que se escalan sin problemas? Si está listo para asumir el desafío de garantizar operaciones de sistema confiables, eficientes y seguras, nuestro cliente tiene el rol perfecto para usted. Buscamos un ingeniero de confiabilidad del sitio (también conocido como The Reliability Guardian) para mejorar la confiabilidad del sistema, implementar la automatización y respaldar una experiencia de usuario perfecta.Como ingeniero de confiabilidad del sitio en nuestro cliente, colaborará con desarrolladores, ingenieros de DevOps y especialistas de TI para construir una infraestructura que sea resistente y escalable. Su experiencia en monitoreo, automatización y optimización del rendimiento será crucial para mantener el tiempo de actividad del sistema y respaldar la mejora continua. Desempeñará un papel vital para garantizar que los servicios sean confiables, eficientes y estén preparados para manejar las demandas del futuro.Responsabilidades clave: * Garantizar la confiabilidad y el rendimiento del sistema:
- Diseñar e implementar estrategias para mejorar la confiabilidad y el rendimiento del sistema, enfocándose en la escalabilidad y la redundancia. Garantizará una alta disponibilidad en todos los sistemas distribuidos y abordará de forma proactiva los posibles problemas.
- Automatizar procesos y mejorar la eficiencia:
- Desarrolle scripts y herramientas de automatización para reducir las intervenciones manuales y mejorar los procesos de implementación, monitoreo y mantenimiento. Aprovechará herramientas como Ansible, Puppet o scripts personalizados para mejorar la automatización.
- Monitorear y responder al estado del sistema:
- Implemente y administre soluciones de monitoreo como Prometheus, Grafana o Datadog para rastrear el estado del sistema. Configurará alertas, paneles y respuestas automatizadas para mantener un rendimiento óptimo y detectar posibles fallas de manera temprana.
- Gestión de incidentes y resolución de problemas:
- Liderar los esfuerzos de respuesta a incidentes para abordar y resolver rápidamente las interrupciones del servicio. Documentará incidentes y contribuirá al análisis post-mortem para prevenir incidentes futuros y perfeccionar los procedimientos operativos.
- Colaborar en la arquitectura y escalabilidad del sistema:
- Trabajar con equipos de ingeniería y desarrollo para diseñar y escalar infraestructura. Contribuirás a las decisiones sobre mejoras arquitectónicas y brindarás información sobre la planificación de capacidad y las pruebas de carga.
- Implementar estándares de seguridad y cumplimiento:
- Integre prácticas de seguridad en el flujo de trabajo de confiabilidad, garantizando que todos los procesos automatizados, las soluciones de monitoreo y los sistemas operativos cumplan con los estándares de cumplimiento y seguridad.
- Desarrollar y mantener canales de CI/CD:
- Respalde y mejore los procesos de integración e implementación continua para facilitar la liberación de código sin problemas. Se asegurará de que las canalizaciones estén optimizadas para ofrecer velocidad, confiabilidad y escalabilidad.
RequisitosHabilidades requeridas:
- Experiencia en confiabilidad y rendimiento: sólida experiencia para garantizar la confiabilidad y el rendimiento del sistema en entornos complejos y distribuidos. Entiendes cómo diseñar sistemas que se recuperen con éxito de las fallas.
- Automatización y secuencias de comandos: competencia en la automatización de tareas utilizando lenguajes de secuencias de comandos como Python, Bash o PowerShell. Tienes experiencia con herramientas de automatización como Ansible, Chef o Puppet.
- Monitoreo y gestión de incidentes: familiaridad con herramientas de monitoreo como Prometheus, Grafana, ELK Stack o Datadog. Tiene experiencia en configurar paneles de monitoreo, alertas y respuestas automatizadas a incidentes.
- Conocimiento de canalizaciones de CI/CD: experiencia en el mantenimiento y optimización de canalizaciones de CI/CD utilizando herramientas como Jenkins, GitLab CI/CD o CircleCI. Puede integrar prácticas de confiabilidad en el proceso de implementación.
- Concientización sobre seguridad y cumplimiento: conocimiento de la integración de estándares y prácticas de seguridad en los procesos de confiabilidad del sitio, garantizando que se mantenga el cumplimiento en todos los flujos de trabajo operativos.
Requisitos educativos:
- Licenciatura o Maestría en Ciencias de la Computación, TI o un campo relacionado. Se puede considerar experiencia equivalente en ingeniería de confiabilidad o ingeniería de sistemas.
- Las certificaciones relacionadas con plataformas en la nube o DevOps (por ejemplo, ingeniero de DevOps certificado por AWS, ingeniero de DevOps en la nube profesional de Google) son una ventaja.
Requisitos de experiencia:
- Más de 5 años de experiencia en ingeniería de confiabilidad de sitios, DevOps o un campo similar, con una sólida experiencia en monitoreo y automatización de sistemas.
- Experiencia práctica en la construcción y gestión de sistemas distribuidos y de alta disponibilidad.
- Es muy deseable estar familiarizado con las plataformas en la nube (AWS, GCP, Azure) y las herramientas de orquestación de contenedores como Kubernetes.
Beneficios
- Salud y bienestar: Planes de seguro médico, dental y de la vista integrales con copagos y primas bajos.
- Tiempo libre remunerado: vacaciones competitivas, licencia por enfermedad y 20 días festivos remunerados por año.
- Conciliación vida-trabajo: horarios de trabajo flexibles y opciones de teletrabajo.
- Desarrollo profesional: Oportunidades de capacitación, reembolso de certificaciones y programas de avance profesional.
- Programas de bienestar: acceso a programas de bienestar, que incluyen membresías en gimnasios, exámenes de salud y recursos de salud mental.
- Seguro de Vida e Invalidez: Seguro de vida y cobertura de invalidez a corto y largo plazo.
- Programa de asistencia al empleado (EAP): asesoramiento confidencial y servicios de apoyo para desafíos personales y profesionales.
- Reembolso de matrícula: Asistencia financiera para educación continua y desarrollo profesional.
- Participación comunitaria: oportunidades para participar en servicio comunitario y actividades de voluntariado.
- Programas de reconocimiento: Programas de reconocimiento de empleados para celebrar logros e hitos.
Expected salary:
Location: San Francisco, CA
Job date: Sun, 03 Nov 2024 23:10:54 GMT
Apply for the job now!