Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Kraken busca un Ingeniero Senior de Infraestructura de Cómputo IA para diseñar, operar y optimizar clústeres de GPU y aceleradores para cargas de trabajo de IA. El rol es remoto y requiere 5+ años de experiencia en ingeniería de infraestructura, sistemas distribuidos y ML.

Por qué aplicar

Atractivo para profesionales de IA que buscan trabajar en un entorno remoto y contribuir a la adopción global de criptomonedas. Ideal para aquellos que comparten valores de innovación y libertad financiera.

Descripción del puesto

BUILDING THE FUTURE OF OPEN FINANCE Payward, la empresa matriz detrás de Kraken, NinjaTrader, Breakout, xStocks, Payward Services y CF Benchmarks, ha pasado los últimos 15 años construyendo una de las plataformas de infraestructura financiera más modernas y accesibles a nivel mundial, diseñada para promover un sistema financiero abierto y global. Antes de postularte, te animamos a explorar nuestra página de cultura https://www.kraken.com/culture para entender qué nos impulsa y cómo trabajamos. EL EQUIPO Fundada en 2011, Kraken es una de las plataformas de criptomonedas más antiguas del mundo, confiada por más de 10 millones de personas e instituciones en todo el mundo. Ofrece trading spot, margen, futuros, staking y servicios OTC, con productos diseñados tanto para inversores individuales como para clientes institucionales. Kraken está construyendo un equipo dedicado de IA Compute e Infraestructura para potenciar la próxima generación de entrenamiento de modelos, inferencia, evaluación y experimentación en toda la plataforma. Este equipo depende del liderazgo de ingeniería y es responsable de la capa de infraestructura que permite a Kraken ejecutar cargas de trabajo de IA con control, velocidad, confiabilidad y disciplina de costos. El equipo es responsable de la infraestructura de GPU y aceleradores, operaciones de clúster, planificación, servicio de modelos, observabilidad, planificación de capacidad y cómputo rentable a escala. Esta es la columna vertebral que permite a Kraken entrenar, servir, evaluar e iterar sobre sistemas de IA internamente, donde es importante para la privacidad, latencia, confiabilidad, costo o diferenciación del producto. Te unirás a un equipo pequeño, senior y de alto impacto que trabaja directamente con investigadores de IA/ML, ingenieros de plataforma, equipos de seguridad y equipos de producto. El mandato es simple: hacer realidad las ambiciones de IA de Kraken construyendo infraestructura de cómputo que sea rápida, confiable, eficiente y lista para producción. LA OPORTUNIDAD - Ser responsable y operar clústeres de GPU y aceleradores utilizados para entrenamiento, inferencia, evaluación y experimentación, incluyendo drivers, runtimes, kernels, plugins de dispositivos, configuración de nodos, primitivas de planificación y aislamiento de cargas de trabajo. - Diseñar infraestructura que permita a los equipos de Kraken ejecutar modelos localmente en GPUs donde sea estratégica y económicamente preferible, reduciendo la dependencia innecesaria de proveedores externos y conteniendo los costos de cómputo. - Construir y mejorar sistemas de planificación, orquestación, ubicación, gestión de cuotas y utilización en entornos de aceleradores heterogéneos. - Optimizar pipelines de inferencia para latencia, rendimiento, confiabilidad, eficiencia de memoria y costo utilizando frameworks como vLLM, Triton Inference Server, TensorRT o stacks de servicio equivalentes. - Colaborar con ingenieros e investigadores de ML para eliminar cuellos de botella en flujos de trabajo de entrenamiento, evaluación, inferencia batch, inferencia online, despliegue y depuración de producción. - Construir observabilidad para la utilización de GPU, presión de memoria, profundidad de cola, saturación, rendimiento de tokens, latencia de solicitudes, cargas de trabajo fallidas, presión de capacidad y gasto. - Impulsar la confiabilidad, respuesta a incidentes, alertas, runbooks y mejoras post-incidente para la infraestructura de cómputo de IA siempre activa. - Evaluar e integrar nuevo hardware, familias de instancias en la nube, aceleradores especializados, runtimes, planificadores y frameworks de servicio a medida que evoluciona el panorama de la infraestructura de IA. - Construir herramientas que hagan visible, responsable y fácil de consumir el uso de GPU para los equipos internos, sin necesidad de convertirse en expertos en infraestructura. - Contribuir a decisiones de arquitectura a largo plazo que equilibren rendimiento, eficiencia de costos, escalabilidad, simplicidad operativa y seguridad de producción. QUÉ APORTAS - Más de 5 años de experiencia en ingeniería de infraestructura, con tiempo significativo dedicado a cómputo de GPU, infraestructura de ML, sistemas distribuidos, computación de alto rendimiento o plataformas de producción a gran escala. - Experiencia práctica operando clústeres de GPU o infraestructura respaldada por aceleradores en entornos de producción o similares a producción, incluyendo planificación, orquestación, monitoreo de utilización y optimización de costos. - Sólidos fundamentos de ingeniería de sistemas en Linux, redes, almacenamiento, contenedores, Kubernetes, runtimes distribuidos y depuración de producción. - Experiencia con frameworks de servicio de ML como vLLM, Triton Inference Server, TensorRT, TorchServe, KServe, Ray Serve o sistemas equivalentes. - Dominio de Python para automatización de infraestructura, herramientas, depuración, integración y flujos de trabajo operativos. - Comprensión práctica de las compensaciones de rendimiento en batching, concurrencia, uso de memoria, utilización de GPU, tamaño del modelo, latencia, rendimiento, disponibilidad y costo. - Historial de optimización de costos de cómputo manteniendo expectativas claras de rendimiento, confiabilidad y disponibilidad. - Experiencia construyendo sistemas observables con métricas útiles, logs, traces, dashboards, alertas y flujos de trabajo de incidentes. - Comodidad trabajando en entornos de alto riesgo y siempre activos donde el tiempo de actividad, el rendimiento, la corrección y la disciplina operativa son críticos. - Comunicador claro que puede traducir las compensaciones de infraestructura para investigadores, equipos de producto, ingenieros de plataforma, stakeholders de seguridad y liderazgo de ingeniería. SERÍA GENIAL SI TUVIESES - Experiencia en un laboratorio de IA de vanguardia, un hiperescalador, una firma de trading de alta frecuencia, una plataforma de investigación o una organización de ML a gran escala. - Familiaridad con silicio personalizado o aceleradores especializados como TPUs, AWS Trainium, Gaudi o plataformas similares. - Experiencia en planificación de capacidad, aportes a adquisiciones, estrategia de capacidad reservada, economía de aceleradores en la nube o gestión de costos de flotas de GPU. - Experiencia con frameworks de entrenamiento distribuido como DeepSpeed, Megatron-LM, FSDP, Ray o sistemas equivalentes. - Experiencia depurando problemas de CUDA, NCCL, kernel, driver, runtime, memoria, redes o rendimiento de bajo nivel. - Experiencia con Rust, C++, Go, CUDA u otros lenguajes de sistemas utilizados para infraestructura crítica de rendimiento. - Experiencia en criptomonedas, servicios financieros, infraestructura de trading o infraestructura de producción sensible a la seguridad. A menos que se indique una fecha límite específica en la publicación del trabajo, las solicitudes se aceptan de forma continua. Tenga en cuenta que se permite a los solicitantes redactar o eliminar información de su currículum que identifique la edad, fecha de nacimiento o fechas de asistencia o graduación de una institución educativa. Consideramos a los solicitantes calificados con antecedentes penales para empleo en nuestro equipo, evaluando a los candidatos de manera consistente con los requisitos de la Ordenanza de Oportunidades Justas de San Francisco. Payward está impulsado por personas de todo el mundo y celebramos los diversos talentos, antecedentes, contribuciones y perspectivas únicas que cada uno aporta. Contratamos por mérito, buscando personas con las habilidades, conocimientos y destrezas adecuadas para el puesto. Te animamos a postularte a roles donde no cumplas completamente con los requisitos enumerados, especialmente si te apasiona o tienes conocimientos sobre criptomonedas. Podríamos pedir a los candidatos que completen evaluaciones de habilidades relacionadas con el trabajo o estilos de trabajo como parte de nuestro proceso de contratación. Estas evaluaciones evalúan las competencias relevantes para el puesto y se aplican de manera consistente a los candidatos para puestos similares. Los resultados se consideran junto con la experiencia y las entrevistas, y no son la única base para ninguna decisión de empleo. Como empleador que ofrece igualdad de oportunidades, no toleramos la discriminación o el acoso de ningún tipo, ya sea por motivos de raza, etnia, edad, identidad de género, ciudadanía, religión, orientación sexual, discapacidad, embarazo, condición de veterano o cualquier otra característica protegida según las leyes federales, estatales o locales. Mantente informado Síguenos en Twitter https://twitter.com/krakenfx Lee el Blog de Kraken https://blog.kraken.com/#:~:text=Enter%20your%20email%20address Conéctate en LinkedIn https://www.linkedin.com/company/kraken-exchange/ Aviso de Privacidad del Candidato https://www.kraken.com/legal/candidate-privacy-notice

Responsabilidades

Operar clústeres de GPU y aceleradores
Diseñar infraestructura para modelos locales
Construir y mejorar sistemas de orquestación y planificación
Optimizar pipelines de inferencia
Eliminar cuellos de botella en flujos de trabajo de ML
Construir observabilidad para la utilización de GPU
Impulsar la confiabilidad y respuesta a incidentes

Skills requeridas

Ingeniería de sistemasDepuración de producciónOptimización de costosGestión de incidentesPlanificación de capacidadComunicación claraColaboraciónResolución de problemas

Trabajos similares

ML/AI Engineer Senior

AccusysBuenos Aires

Presencial

Más ofertas de Kraken Com

Senior Product Manager - Trading-as-a-service

Kraken Com

Remoto

Explorar empleos relacionados

Empleos remotos

Ingeniero Senior de Infraestructura de Cómputo IA

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

ML/AI Engineer Senior

Más ofertas de Kraken Com

Senior Product Manager - Trading-as-a-service

Explorar empleos relacionados

AI Platform Engineer

Senior AI Engineer - Americas

Senior AI Infrastucture Engineer

Senior Infrastructure Engineer

AI Research Engineer - 100% Remote Worldwide

Senior Software Engineer - C++ - Trading Technologies

Technical Project Manager - Core Infrastructure

Backend Crypto Engineer - L1