ChatGPT для технических переводов: как сделать перевод документации без ошибок
Воркфлоу технического перевода через ChatGPT и Claude: системный промпт, словарь терминов, проверка через Smartcat и DeepL, human-in-the-loop ревью.
Технический перевод через ChatGPT или Claude в 2026 году обходится в 0,005 доллара за слово против 0,05–0,15 доллара у переводчика-человека. Но дешевизна работает только тогда, когда вы выстроили воркфлоу: глоссарий терминов, системный промпт, проверка через Translation Memory и финальная вычитка инженером. Без этого AI сгенерирует красивый текст с ошибкой в одной критичной формуле — и вы получите отзыв доли пользователей или штраф от регулятора.
Эта статья — рабочая инструкция, как переводить инженерную документацию, API-референсы и юридические документы силами LLM, не теряя точности.
Какие модели подходят для технического перевода
Для длинной документации первым делом смотрят на размер контекста. PDF на 200 страниц должен влезть в одно окно — иначе модель забывает контекст в начале документа и переводит непоследовательно.
| Модель | Контекст | Цена за 1M токенов (in/out) | Сильные стороны | Доступ в РФ |
|---|---|---|---|---|
| Claude Opus 4.7 | 1M токенов | $15 / $75 | Длинные PDF, юридические тексты, стиль | Через прокси |
| ChatGPT (GPT-5.5) | 400K | $5 / $20 | API-документация, технический разговорный стиль | Через прокси |
| Gemini 2.5 Pro | 2M | $3.5 / $14 | Самый дешёвый на больших документах | Через прокси |
| DeepSeek V3.5 | 256K | $0.27 / $1.10 | Лучшая цена для базового перевода | Напрямую |
| YandexGPT 5 | 64K | от 0,2 руб/1K токенов | Соответствие 152-ФЗ, банковский стиль | Напрямую |
| GigaChat MAX | 128K | по подписке | Госсектор, ЕСИА, on-premise | Напрямую |
Для документации без NDA лучшее соотношение «цена–качество» — Gemini 2.5 Pro или DeepSeek V3.5. Для текстов под NDA или 152-ФЗ — YandexGPT и GigaChat: данные не выходят за пределы РФ.
Воркфлоу из 4 шагов
1. Загрузка исходника
PDF, DOCX и Markdown Claude и Gemini читают нативно. Если документ свёрстан криво (например, отсканированная инструкция к станку), сначала прогоните его через OCR — Tesseract или ABBYY FineReader. После OCR обязательно проверьте формулы и схемы: они часто становятся «текстом» с битыми символами.
Markdown — оптимальный исходник: модель сохраняет структуру H1/H2, таблиц, кодовых блоков. Я загружаю DOCX → конвертирую в Markdown через Pandoc и только потом отдаю в LLM.
2. Системный промпт со словарём
Главная ошибка новичков — переводить документ одним «переведи на русский». В технических текстах термин должен быть стабильным: если в первом разделе вы написали «маршрутизатор», в десятом не должно быть «роутер». Решение — глоссарий внутри системного промпта.
Ты — старший технический переводчик с английского на русский.
Сфера: документация по сетевому оборудованию.
ТРЕБОВАНИЯ:
- Стиль: деловой, без разговорных оборотов
- Терминология: строго по глоссарию, без синонимов
- Кодовые блоки, команды CLI, имена переменных — НЕ переводить
- Сохраняй Markdown-структуру 1:1
- Аббревиатуры (BGP, OSPF, VLAN) оставляй на английском при первом упоминании
даём расшифровку в скобках, далее — только аббревиатуру
ГЛОССАРИЙ (en → ru):
- router → маршрутизатор (не "роутер")
- gateway → шлюз
- payload → полезная нагрузка
- throughput → пропускная способность
- failover → автоматическое переключение
ФОРМАТ ВЫВОДА:
- Только перевод, без комментариев
- Если встречаешь термин без эквивалента — оставь на английском
и помести в конец ответа список таких терминов с пометкой [REVIEW]
После каждой партии страниц вы получаете список [REVIEW] — это и есть кандидаты в глоссарий на следующую итерацию.
3. Проверка через Translation Memory
LLM не знает терминологию вашей компании. Если вы 10 лет переводили «load balancer» как «балансировщик нагрузки», а модель в одном месте написала «распределитель», это критично. Решение — Translation Memory (TM): база предыдущих переводов, которая подсказывает «правильный» вариант.
Промышленные TM-движки в 2026: Smartcat (российский, есть бесплатный тариф), DeepL Pro с интеграцией глоссария и memoQ. Воркфлоу такой: LLM делает черновой перевод, далее текст загружается в Smartcat, движок подсвечивает места, где вы раньше переводили иначе. Редактор за час правит то, что модель не угадала.
Если бюджет нулевой — обходной путь: ведите CSV-словарь, после перевода прогоняйте текст через простой Python-скрипт, который ищет несовпадения и подсвечивает их жёлтым.
4. Human-in-the-loop ревью
Никогда не сдавайте AI-перевод без вычитки инженером. Стандартная проверка занимает 20–30% времени от перевода с нуля и закрывает три типовых пробоя:
- Узкие термины из вашей отрасли. Модель не отличит «вахтенный журнал» (морское дело) от «бортового журнала».
- Идиомы и устойчивые выражения. «Ground truth» в ML-документе AI часто переведёт буквально — «истина на земле».
- Формулы и единицы измерения. LLM путают
μs(микросекунды) иms, неверно конвертируют дюймы в сантиметры.
Если у вас нет внутреннего редактора, наймите фрилансера на 2 часа на 100 страниц — это вернёт перевод к качеству 95%+.
Промпт-шаблоны для трёх типов документации
Engineering (инженерная)
Главное — точность единиц и сохранение схем. Добавьте в системный промпт: «не округляй числа», «не переводи названия моделей оборудования», «формулы в LaTeX оставляй как есть».
API-документация
Здесь критично сохранять кодовые блоки, имена методов, типы данных. В промпте: «текст внутри ``` не переводить», «параметры в camelCase или snake_case сохранять без изменений», «комментарии в коде переводить, сами строки кода — нет».
Если в description поля есть смысловая нагрузка — переводите. Если просто пример значения ("john@example.com") — оставляйте.
Legal (юридическая)
Юридический перевод требует Claude Opus 4.7 или Gemini 2.5 Pro: они лучше держат формальный стиль. Обязательно в промпт: «термин остаётся в скобках в оригинале при первом упоминании», «не упрощай канцелярит», «номера статей и пунктов не меняй». И — обязательно — финальная вычитка юристом. AI-перевод контракта без ревью — путь к арбитражу.
Где AI ошибается чаще всего
За год работы с LLM-переводами у меня накопился список «красных флагов»:
- Полисемия. Английское
bridge— это и мост, и сетевой коммутатор, и зубной протез. Контекста двух абзацев модели часто не хватает. - Длинные числа. Модель может «округлить» 1,234,567.89 до 1.2M в пересказе.
- Названия продуктов. Иногда переводит «iPhone 17 Pro» как «Айфон 17 Про» — и обратно никогда.
- Стрелочки и спецсимволы. В таблицах с
→,±,≤модель иногда заменяет их на текстовые «более или равно». - Снукеры из чужих языков. Французские или немецкие термины в английском тексте переводятся как английские.
Для критичной документации мы прогоняем перевод дважды через разные модели (Claude и Gemini) и сравниваем — расхождения почти всегда указывают на ошибку одной из них.
Сколько это реально стоит
100 страниц технической документации — это примерно 50–60 тысяч слов. Считаем для конкретного примера: руководство пользователя на 25 тысяч слов.
- Переводчик-человек (рынок РФ, технический английский → русский): 0,5–1,5 руб/слово → 12 500–37 500 рублей. Срок: 7–14 дней.
- Бюро переводов с TM и редактором: 1,5–3 руб/слово → 37 500–75 000 рублей. Срок: 5–10 дней.
- DeepSeek V3.5 + редактор-инженер (8 часов работы): API ≈ 200 рублей + 8 × 2 000 руб/час = 16 200 рублей. Срок: 1–2 дня.
- Claude Opus 4.7 + редактор: API ≈ 6 000 рублей + 16 000 руб редактуры = 22 000 рублей. Срок: 1–2 дня.
Экономия — 40–70%. Для шаблонной документации (релиз-ноуты, changelog, marketing collateral) — до 90%, потому что редактуры почти не требуется.
Как встроить в команду
Если вы менеджер документации, не вводите AI-перевод указом «теперь все так делают». Сделайте пилот:
- Возьмите один тип документа (например, релиз-ноут к minor-релизу) — там цена ошибки минимальна.
- Зафиксируйте текущие метрики: время перевода, стоимость, число правок от редактора.
- Прогоните 5–10 документов через AI-воркфлоу.
- Сравните метрики. Скорее всего, вы увидите минус 50% времени и минус 30% стоимости при сопоставимом качестве.
- Расширяйте на следующий тип документа.
Параллельно — обучите редактора. Его роль меняется: вместо «переводить с нуля» он становится «контролёром AI». Это новая компетенция и часто бьёт по гордости старых переводчиков. Дайте им роль «технических ревьюверов» и поднимите зарплату — это окупится.
Похожий подход к работе с длинными документами мы разбирали в статье про реглoаменты и SOP в нейросетях, а воркфлоу с расшифровкой исходных видео — здесь.
Частые вопросы
Можно ли отдать в ChatGPT документацию под NDA?
Только если у вас договор с OpenAI на data processing (тариф Enterprise или API с opt-out из обучения). Для большинства NDA-документов в РФ безопаснее использовать YandexGPT, GigaChat или DeepSeek через российский прокси с логированием.
Какая модель лучше переводит на русский — Claude или ChatGPT?
Claude Opus 4.7 чувствительнее к стилю, лучше держит официальный регистр и реже сваливается в кальки с английского. ChatGPT быстрее и дешевле, лучше справляется с разговорным контентом и API-доками.
Можно ли полностью отказаться от человека-редактора?
Нет. Для внутренних документов и черновиков — да, для публичных, регулируемых и контрактных — нет. Цена ошибки в API-документации публичного продукта — баг-репорты от клиентов и репутация. В юридическом — суд.
Как считать стоимость в токенах?
Грубое правило: 1 русское слово ≈ 2–2,5 токена, 1 английское ≈ 1,3 токена. PDF на 50 страниц ≈ 30–40 тысяч токенов. У большинства API первые 100 тысяч токенов в день стоят в районе 5–15 долларов.
Что делать с глоссарием на 5 000 терминов?
Не запихивать в системный промпт целиком — модель запутается. Решение: загружаете глоссарий в векторную базу (Chroma, Pinecone) и через RAG подкладываете только релевантные термины для каждого куска текста. Для постоянной работы — Smartcat с подключённым LLM-плагином.
Можно ли переводить с китайского или японского?
Да, но качество ниже. Для CJK языков лучше Claude Opus 4.7 или Gemini 2.5 Pro — у них больше тренировочных данных на этих парах. Обязательно подключайте редактора с языком: иероглифика «звучит» нормально для AI, но смысл уплывает.
Сколько времени уходит на настройку воркфлоу с нуля?
Первый системный промпт + глоссарий из 50 терминов — 1 рабочий день. Стабильный пайплайн с автоматизацией (загрузка в Smartcat, проверка через скрипты) — 2–3 недели. Окупается на третьем-четвёртом крупном переводе.
Итог
- Технический перевод через LLM стоит 0,005–0,01 доллара за слово против 0,05–0,15 у переводчика, но требует системного промпта со словарём.
- Воркфлоу: загрузка в Markdown → перевод через Claude или Gemini → проверка в Smartcat → ревью инженером.
- Без редактора-человека сдавать AI-перевод нельзя: модели промахиваются на полисемии, идиомах, формулах.
- Для NDA-документов используйте YandexGPT, GigaChat или DeepSeek через российский прокси.
- Экономия времени — 5–10×, экономия денег — 40–70%.
Михаил Соколов
AI-инженер с 10 годами в продакшене. Разрабатывает агентные сценарии и автоматизации на стеке OpenAI / Anthropic / YandexGPT.
Все материалы автора →
Дискуссия
Что вы думаете?
Поделитесь опытом, расскажите, как у вас решается похожая задача, или задайте вопрос — я лично читаю все комментарии и отвечаю.