文字化け / エンコーディング修復

Café や don’t のような文字化け(mojibake)を Café や don’t にブラウザ内で修復します。

テキストはブラウザ内でローカルに修復され、アップロードされることはありませんが、機微な個人データをオンラインツールに貼り付けるのは避けてください。

HTMLの特殊文字をエスケープしたいですか?HTMLエンティティツールをお試しください。

文字化け修復 について

この文字化け修復ツールは、エンコーディングの不一致で壊れたテキストを直します。「Café」が「Café」に、「don't」が「don’t」に、「😀」が「😀」になるあの現象です。よくある原因は、UTF-8のバイト列が誤ってWindows-1252やLatin-1としてデコードされ、アクセント付き文字・スマートクォート・ダッシュ・絵文字が文字化けすることです。このツールはそれを逆向きに直します。各文字化け文字を元のバイトに対応づけ、結果をUTF-8として再デコードします。不一致のパターンは複数ありうるため、いくつかの解釈(UTF-8 ↔ Windows-1252、UTF-8 ↔ Latin-1、二重デコードのパス)を提示し、最もきれいなものを強調表示しつつ、別の候補も選べるようにします。左にテキストを貼り付け、右で修復結果を読みます。すべてはブラウザ内で動作するため、貼り付けたテキストは端末上に留まります。

機能

文字化け修復 の使い方

  1. 文字化けしたテキストを左側の入力ボックスに貼り付けます。
  2. 右側のFixed出力パネルで最良の修復結果を読みます。
  3. Interpretations(解釈)の一覧を見て、よりきれいに読める別の候補を選びます。
  4. Copyをクリックして修復済みテキストを取得します。

入力

Café — don’t panic

出力

Café — don’t panic

Windows-1252として誤デコードされたUTF-8テキストを、きれいな文字に修復した例。

よくあるエラーとトラブルシューティング

よくある質問

文字化け(mojibake)は何が原因で起きますか。
文字化けは、ある文字エンコーディングで保存したテキストを別のエンコーディングで読んだときに起きます。典型例はUTF-8のバイトがWindows-1252やLatin-1としてデコードされ、アクセント・スマートクォート・絵文字のようなマルチバイト文字が、複数の誤った1バイトのグリフに分裂することです。
なぜ Café が Café と表示されるのですか。
UTF-8では é は2バイト(0xC3 0xA9)です。それらのバイトをWindows-1252として読むと 0xC3 が à に、0xA9 が © になり、「Café」が「Café」になります。このツールはそれらの文字をバイトに戻し、UTF-8としてデコードして é を復元します。
なぜアポストロフィが ’ になるのですか。
曲がったアポストロフィ(’、U+2019)はUTF-8で3バイトです。Windows-1252としてデコードすると â・€・™ になり、「don't」が「don’t」と表示されます。それら3文字をUTF-8として再デコードすると元の ’ が再構築されます。
Windows-1252とLatin-1の修復の違いは何ですか。
Windows-1252とLatin-1(ISO-8859-1)はほぼ同一ですが、0x80–0x9F の範囲で異なり、そこにWindows-1252はスマートクォート・ダッシュ・ユーロ記号を持ちます。まずWindows-1252の修復を試し、句読点や記号がまだ誤っていればLatin-1に切り替えてください。
文字化けは必ず修復できますか。
多くの場合は直りますが、常にではありません。元のバイトが汎用のプレースホルダー(置換文字 �)に置き換えられた後にテキストをコピーした場合、情報は失われており、どんなツールでも復元できません。修復は、文字化けしているが可逆なバイトがそのまま残っている間だけ機能します。
貼り付けたテキストはどこかにアップロードされますか。
いいえ。文字化けの修復はすべてブラウザ内で動作するため、貼り付けたテキストは端末上でローカルに処理され、サーバーへ送信されることはありません。

関連ツール

すべての ArrayKit ツール