Se busca un Ingeniero de Software Senior con experiencia en IA para evaluar la calidad de interacciones con agentes de codificación como Codex y Claude Code. El rol es remoto y por proyecto, con una dedicación de 10-20 horas semanales y un pago de hasta $150/hr para Latinoamérica.
Atractivo para ingenieros experimentados que buscan evaluar interacciones de IA en un entorno remoto.
SENIOR AI INTERACTION EVALUATOR (CODEX / CLAUDE CODE) Contrato | $50-200/hr | 10+ hrs/semana | Basado en proyectos Se abren puestos de forma continua - aplica para unirte al banco de talentos y nos pondremos en contacto cuando uno se adapte. Esperá 40+ hrs una vez que comience un proyecto; el tiempo depende de la disponibilidad, pero movemos a las personas lo antes posible. Estos puestos están actualmente cubiertos, pero contratamos de forma continua a medida que se abren nuevos proyectos. Aplica ahora para unirte a nuestro banco de talentos - se contactará directamente con los candidatos calificados cuando estén disponibles. Mirá este video de Loom para obtener más detalles. https://www.loom.com/share/b0d1b0bf24c44ae8b95dca84b9db60e5 Estamos buscando ingenieros de software altamente experimentados (SR+) para ayudar a evaluar la calidad de las interacciones con agentes de codificación modernos como OpenAI Codex y Claude Code. Este no es un rol de ingeniería tradicional. No estarás escribiendo código de producción. Estarás evaluando algo más difícil: si el modelo piensa como un gran ingeniero. QUÉ ES ESTE ROL REALMENTE Evaluarás cómo se comportan los agentes de codificación de IA en escenarios del mundo real, enfocándote en: - Si la respuesta tiene sentido - Si el preámbulo y el razonamiento son útiles - Si la salida refleja un buen juicio de ingeniería - Si la interacción se siente bien para un desarrollador experimentado Este rol se trata de gusto de ingeniería, no de corrección de sintaxis. QUÉ HARÁS - Evaluar interacciones de codificación generadas por IA de extremo a extremo - Juzgar si las salidas son: - Útiles - Correctas (a un alto nivel) - Alineadas con cómo pensaría un ingeniero fuerte - Evaluar la calidad de las explicaciones y el razonamiento, no solo el código - Distinguir entre diferentes niveles de calidad de respuesta (por ejemplo, qué hace que algo sea un 2 frente a un 4) - Proporcionar comentarios claros y opinativos sobre: - Qué funcionó - Qué no funcionó - Qué se sintió "off" o engañoso - Ayudar a definir qué se ve bien cuando se interactúa con herramientas como Cursor QUÉ ENTENDEMOS POR "TASTE" Estamos buscando específicamente ingenieros que puedan responder preguntas como: - ¿Se siente como si algo que un ingeniero fuerte realmente diría? - ¿Es esta explicación útil o simplemente técnicamente correcta? - ¿Está guiando el modelo al usuario correctamente o simplemente volcando la salida? - ¿Esta interacción generaría o erosionaría la confianza? Deberías sentirte cómodo tomando juicios subjetivos pero rigurosos. QUIÉN ERES - Ingeniero de nivel Staff / Principal (o experiencia equivalente) - Fuerte experiencia en uno de los siguientes: - TypeScript / JavaScript - Python - Experiencia práctica con: - OpenAI Codex - Claude Code - Cursor - Familiaridad profunda con flujos de trabajo de desarrollo asistidos por IA modernos - Capaz de evaluar código sin necesidad de revisar o ejecutar completamente cada línea - Cónodo dando retroalimentación directa y opinativa - Alto nivel para lo que se ve "buena ingeniería" Agradable tener - Experiencia con herramientas como Cursor o IDEs similares de IA - Exposición previa a flujos de trabajo de diseño o evaluación de indicaciones - Experiencia en la tutoría de ingenieros senior o la definición de estándares de ingeniería DETalles de compromiso - EE. UU. y Canadá hasta $200/hr - UE y Latam hasta $150/hr - Otros lugares hasta $100/hr - Horas: ~10-20 horas/semana - Duración: Continua - basada en proyectos - Proceso: - Ejercicio de evaluación en casa - Una entrevista conductual