Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Se busca un Ingeniero de Software Senior con experiencia en IA para evaluar la calidad de interacciones con agentes de codificación como Codex y Claude Code. El rol es remoto y por proyecto, con una dedicación de 10-20 horas semanales y un pago de hasta $150/hr para Latinoamérica.

Por qué aplicar

Atractivo para ingenieros experimentados que buscan evaluar interacciones de IA en un entorno remoto.

Descripción del puesto

SENIOR AI INTERACTION EVALUATOR (CODEX / CLAUDE CODE) Contrato | $50-200/hr | 10+ hrs/semana | Basado en proyectos Se abren puestos de forma continua - aplica para unirte al banco de talentos y nos pondremos en contacto cuando uno se adapte. Esperá 40+ hrs una vez que comience un proyecto; el tiempo depende de la disponibilidad, pero movemos a las personas lo antes posible. Estos puestos están actualmente cubiertos, pero contratamos de forma continua a medida que se abren nuevos proyectos. Aplica ahora para unirte a nuestro banco de talentos - se contactará directamente con los candidatos calificados cuando estén disponibles. Mirá este video de Loom para obtener más detalles. https://www.loom.com/share/b0d1b0bf24c44ae8b95dca84b9db60e5 Estamos buscando ingenieros de software altamente experimentados (SR+) para ayudar a evaluar la calidad de las interacciones con agentes de codificación modernos como OpenAI Codex y Claude Code. Este no es un rol de ingeniería tradicional. No estarás escribiendo código de producción. Estarás evaluando algo más difícil: si el modelo piensa como un gran ingeniero. QUÉ ES ESTE ROL REALMENTE Evaluarás cómo se comportan los agentes de codificación de IA en escenarios del mundo real, enfocándote en: - Si la respuesta tiene sentido - Si el preámbulo y el razonamiento son útiles - Si la salida refleja un buen juicio de ingeniería - Si la interacción se siente bien para un desarrollador experimentado Este rol se trata de gusto de ingeniería, no de corrección de sintaxis. QUÉ HARÁS - Evaluar interacciones de codificación generadas por IA de extremo a extremo - Juzgar si las salidas son: - Útiles - Correctas (a un alto nivel) - Alineadas con cómo pensaría un ingeniero fuerte - Evaluar la calidad de las explicaciones y el razonamiento, no solo el código - Distinguir entre diferentes niveles de calidad de respuesta (por ejemplo, qué hace que algo sea un 2 frente a un 4) - Proporcionar comentarios claros y opinativos sobre: - Qué funcionó - Qué no funcionó - Qué se sintió "off" o engañoso - Ayudar a definir qué se ve bien cuando se interactúa con herramientas como Cursor QUÉ ENTENDEMOS POR "TASTE" Estamos buscando específicamente ingenieros que puedan responder preguntas como: - ¿Se siente como si algo que un ingeniero fuerte realmente diría? - ¿Es esta explicación útil o simplemente técnicamente correcta? - ¿Está guiando el modelo al usuario correctamente o simplemente volcando la salida? - ¿Esta interacción generaría o erosionaría la confianza? Deberías sentirte cómodo tomando juicios subjetivos pero rigurosos. QUIÉN ERES - Ingeniero de nivel Staff / Principal (o experiencia equivalente) - Fuerte experiencia en uno de los siguientes: - TypeScript / JavaScript - Python - Experiencia práctica con: - OpenAI Codex - Claude Code - Cursor - Familiaridad profunda con flujos de trabajo de desarrollo asistidos por IA modernos - Capaz de evaluar código sin necesidad de revisar o ejecutar completamente cada línea - Cónodo dando retroalimentación directa y opinativa - Alto nivel para lo que se ve "buena ingeniería" Agradable tener - Experiencia con herramientas como Cursor o IDEs similares de IA - Exposición previa a flujos de trabajo de diseño o evaluación de indicaciones - Experiencia en la tutoría de ingenieros senior o la definición de estándares de ingeniería DETalles de compromiso - EE. UU. y Canadá hasta $200/hr - UE y Latam hasta $150/hr - Otros lugares hasta $100/hr - Horas: ~10-20 horas/semana - Duración: Continua - basada en proyectos - Proceso: - Ejercicio de evaluación en casa - Una entrevista conductual

Responsabilidades

Evaluar interacciones de codificación generadas por IA de principio a fin
Juzgar si las respuestas son útiles, correctas (a alto nivel) y alineadas con el pensamiento de un ingeniero fuerte
Evaluar la calidad de las explicaciones y el razonamiento, no solo el código
Distinguir entre diferentes niveles de calidad de respuesta
Proporcionar feedback claro y con opinión sobre qué funcionó, qué no y qué se sintió 'fuera de lugar' o engañoso
Ayudar a definir qué constituye una gran interacción al usar herramientas como Cursor

Skills requeridas

Capacidad para evaluar código sin necesidad de ejecutarlo completamente o revisar cada línea en profundidadComodidad para dar feedback directo y con opiniónAlto estándar de lo que constituye "buena ingeniería"Capacidad para hacer juicios subjetivos pero rigurosos

Trabajos similares

Software Engineering AI Trainer

Anyone Ai

Remoto

Más ofertas de G2I

Data Scientist

G2I

Remoto

Explorar empleos relacionados

Empleos remotos Empleos en Buenos Aires

¿Te interesa empleos en Buenos Aires? Creá una alerta y te avisamos.

Ingeniero de Software Senior - Evaluador de Interacción IA

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

Software Engineering AI Trainer

Más ofertas de G2I

Data Scientist

Explorar empleos relacionados

Freelance Agent Evaluation Engineer

AI Testers - Evaluacion IA - Remoto Ingles Requerido

Freelance Agent Evaluation Engineer

Freelance Agent Evaluation Engineer

Computer Science PhD

Data Engineer

Senior Software Engineer – Player