Исправление mojibake / кодировки

Исправляйте искажённый текст mojibake вроде Café или don’t обратно в Café и don’t прямо в браузере.

Ваш текст восстанавливается локально в вашем браузере и никогда не загружается, но избегайте вставки чувствительных персональных данных в любой онлайн-инструмент.

Нужно экранировать спецсимволы HTML? Попробуйте инструмент HTML Entities.

Об инструменте Mojibake Fixer

Этот mojibake fixer восстанавливает искажённый текст, вызванный несовпадением кодировок — то самое, что превращает «Café» в «Café», «don't» в «don’t», а «😀» в «ðŸ˜€». Обычная причина — байты UTF-8, ошибочно декодированные как Windows-1252 или Latin-1, из-за чего буквы с диакритикой, типографские кавычки, тире и эмодзи выходят мусорными символами. Fixer обращает это вспять: он сопоставляет каждый искажённый символ обратно с его исходным байтом и заново декодирует результат как UTF-8. Поскольку возможно более одного несовпадения, он предлагает несколько интерпретаций (UTF-8 ↔ Windows-1252, UTF-8 ↔ Latin-1 и проход двойного декодирования) и подсвечивает самую чистую, позволяя выбрать другую. Вставьте текст слева и читайте восстановление справа. Всё работает в вашем браузере, поэтому вставленный текст остаётся на устройстве.

Возможности

Как использовать Mojibake Fixer

  1. Вставьте искажённый текст в поле ввода слева.
  2. Прочитайте лучшее восстановление на панели вывода «Исправлено» справа.
  3. Просмотрите список интерпретаций и выберите другого кандидата, если он читается чище.
  4. Нажмите «Копировать», чтобы взять восстановленный текст.

Пример

Ввод

Café — don’t panic

Результат

Café — don’t panic

Текст UTF-8, ошибочно декодированный как Windows-1252, восстановлен обратно в чистые символы.

Частые ошибки и устранение неполадок

Часто задаваемые вопросы

Что вызывает mojibake?
Mojibake возникает, когда текст, сохранённый в одной кодировке символов, читается в другой. Классический случай — байты UTF-8, декодируемые как Windows-1252 или Latin-1, из-за чего многобайтовые символы вроде диакритики, типографских кавычек и эмодзи распадаются на несколько неверных однобайтовых глифов.
Почему Café показывается как Café?
В UTF-8 символ é — это два байта (0xC3 0xA9). Когда эти байты читаются как Windows-1252, 0xC3 становится Ã, а 0xA9 становится ©, поэтому «Café» превращается в «Café». Fixer сопоставляет эти символы обратно с байтами и декодирует их как UTF-8, чтобы восстановить é.
Почему апостроф превращается в ’?
Фигурный апостроф (’, U+2019) — это три байта UTF-8. Декодированные как Windows-1252, они становятся â, € и ™, поэтому «don't» выглядит как «don’t». Повторное декодирование этих трёх символов как UTF-8 восстанавливает исходный ’.
В чём разница между исправлениями Windows-1252 и Latin-1?
Windows-1252 и Latin-1 (ISO-8859-1) почти идентичны, но различаются в диапазоне 0x80–0x9F, где Windows-1252 содержит типографские кавычки, тире и знак евро. Сначала попробуйте исправление Windows-1252; переключитесь на Latin-1, если символ пунктуации или знака всё ещё неверен.
Всегда ли mojibake можно восстановить?
Часто, но не всегда. Если исходные байты были заменены универсальным заполнителем (символом замены �) до того, как вы скопировали текст, информация утрачена и никакой fixer её не восстановит. Восстановление работает только пока искажённые, но обратимые байты целы.
Загружается ли куда-либо текст, который я вставляю?
Нет. Восстановление mojibake работает полностью в вашем браузере, поэтому вставленный текст обрабатывается локально на вашем устройстве и не отправляется на сервер.

Связанные инструменты

Все инструменты ArrayKit