Исправление mojibake / кодировки
Исправляйте искажённый текст mojibake вроде Café или don’t обратно в Café и don’t прямо в браузере.
Ваш текст восстанавливается локально в вашем браузере и никогда не загружается, но избегайте вставки чувствительных персональных данных в любой онлайн-инструмент.
Нужно экранировать спецсимволы HTML? Попробуйте инструмент HTML Entities.
Об инструменте Mojibake Fixer
Этот mojibake fixer восстанавливает искажённый текст, вызванный несовпадением кодировок — то самое, что превращает «Café» в «Café», «don't» в «don’t», а «😀» в «ðŸ˜€». Обычная причина — байты UTF-8, ошибочно декодированные как Windows-1252 или Latin-1, из-за чего буквы с диакритикой, типографские кавычки, тире и эмодзи выходят мусорными символами. Fixer обращает это вспять: он сопоставляет каждый искажённый символ обратно с его исходным байтом и заново декодирует результат как UTF-8. Поскольку возможно более одного несовпадения, он предлагает несколько интерпретаций (UTF-8 ↔ Windows-1252, UTF-8 ↔ Latin-1 и проход двойного декодирования) и подсвечивает самую чистую, позволяя выбрать другую. Вставьте текст слева и читайте восстановление справа. Всё работает в вашем браузере, поэтому вставленный текст остаётся на устройстве.
Возможности
- Восстанавливает самый частый mojibake: байты UTF-8, декодированные как Windows-1252 или Latin-1
- Исправляет буквы с диакритикой, типографские кавычки, тире, знак евро и сломанные эмодзи
- Предлагает несколько кандидатов-интерпретаций и помечает самое чистое восстановление как «Лучшее»
- Включает проход двойного декодирования для текста, который был ошибочно декодирован дважды
- Сигнализирует, действительно ли ввод выглядит как mojibake, прежде чем доверять исправлению
- Живой ввод и вывод — вставьте слева, читайте восстановленный текст справа
- Копирование исправленного текста в один клик или загрузка заведомо искажённого образца для пробы
- Работает полностью в вашем браузере; вставленный текст обрабатывается на устройстве
Как использовать Mojibake Fixer
- Вставьте искажённый текст в поле ввода слева.
- Прочитайте лучшее восстановление на панели вывода «Исправлено» справа.
- Просмотрите список интерпретаций и выберите другого кандидата, если он читается чище.
- Нажмите «Копировать», чтобы взять восстановленный текст.
Пример
Ввод
Café — don’t panic
Результат
Café — don’t panic
Текст UTF-8, ошибочно декодированный как Windows-1252, восстановлен обратно в чистые символы.
Частые ошибки и устранение неполадок
- Исправление превращает чистый текст с диакритикой в новый мусор вроде «Cé». — Ваш текст, вероятно, уже был корректным UTF-8. Выберите кандидата «Оригинал» или запускайте fixer только на вводе, который действительно выглядит искажённым.
- Некоторые символы всё ещё выглядят сломанными после одного прохода. — Текст мог быть ошибочно декодирован дважды. Выберите интерпретацию двойного декодирования, которая применяет восстановление второй раз.
- Несколько символов показаны как чёрный ромб с вопросительным знаком (�). — Эти байты были потеряны или заменены до того, как вы их вставили, и восстановить их нельзя. Заново экспортируйте текст из исходного источника как UTF-8.
- Фигурные кавычки и тире исправлены, но один странный символ остаётся. — Попробуйте интерпретацию Latin-1 вместо Windows-1252; эти две различаются лишь для горстки байтов пунктуации и символов.
Часто задаваемые вопросы
- Что вызывает mojibake?
- Mojibake возникает, когда текст, сохранённый в одной кодировке символов, читается в другой. Классический случай — байты UTF-8, декодируемые как Windows-1252 или Latin-1, из-за чего многобайтовые символы вроде диакритики, типографских кавычек и эмодзи распадаются на несколько неверных однобайтовых глифов.
- Почему Café показывается как Café?
- В UTF-8 символ é — это два байта (0xC3 0xA9). Когда эти байты читаются как Windows-1252, 0xC3 становится Ã, а 0xA9 становится ©, поэтому «Café» превращается в «Café». Fixer сопоставляет эти символы обратно с байтами и декодирует их как UTF-8, чтобы восстановить é.
- Почему апостроф превращается в ’?
- Фигурный апостроф (’, U+2019) — это три байта UTF-8. Декодированные как Windows-1252, они становятся â, € и ™, поэтому «don't» выглядит как «don’t». Повторное декодирование этих трёх символов как UTF-8 восстанавливает исходный ’.
- В чём разница между исправлениями Windows-1252 и Latin-1?
- Windows-1252 и Latin-1 (ISO-8859-1) почти идентичны, но различаются в диапазоне 0x80–0x9F, где Windows-1252 содержит типографские кавычки, тире и знак евро. Сначала попробуйте исправление Windows-1252; переключитесь на Latin-1, если символ пунктуации или знака всё ещё неверен.
- Всегда ли mojibake можно восстановить?
- Часто, но не всегда. Если исходные байты были заменены универсальным заполнителем (символом замены �) до того, как вы скопировали текст, информация утрачена и никакой fixer её не восстановит. Восстановление работает только пока искажённые, но обратимые байты целы.
- Загружается ли куда-либо текст, который я вставляю?
- Нет. Восстановление mojibake работает полностью в вашем браузере, поэтому вставленный текст обрабатывается локально на вашем устройстве и не отправляется на сервер.
Связанные инструменты
Все инструменты ArrayKit