Выбрать страницу

NLP engineer (GigaChat Pretrain Data)

зарплата не указана
Дата обновления: 23.05.2025, 10:27
Общество с ограниченной ответственностью "Хэдхантер"
Город Москва

Должностные обязанности

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шансОбязанности чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback; генерить синтетические данные; разбираться с токенизацией; кластеризовать данные; писать дедупликацию на Rust; оптимизировать MapReduce → Spark, тысячи ядер; экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики. Требования выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат работы (2 дня в офисе, 3 дня на удалёнке) ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха система обучения для профессионального и карьерного развития расширенный полис ДМС с первого дня работы и страхование для семьи льготная программа ипотеки для сотрудников бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Требования к кандидату

Образование: не указано

Квалификации

Образование: не указано

Условия

График работы: FULL
Количество рабочих мест: 1
full

Контактное лицо компании

Команда рекрутмента Сбера
Контактное лицо