文字化け / エンコーディング修復
Café や don’t のような文字化け(mojibake)を Café や don’t にブラウザ内で修復します。
テキストはブラウザ内でローカルに修復され、アップロードされることはありませんが、機微な個人データをオンラインツールに貼り付けるのは避けてください。
HTMLの特殊文字をエスケープしたいですか?HTMLエンティティツールをお試しください。
文字化け修復 について
この文字化け修復ツールは、エンコーディングの不一致で壊れたテキストを直します。「Café」が「Café」に、「don't」が「don’t」に、「😀」が「😀」になるあの現象です。よくある原因は、UTF-8のバイト列が誤ってWindows-1252やLatin-1としてデコードされ、アクセント付き文字・スマートクォート・ダッシュ・絵文字が文字化けすることです。このツールはそれを逆向きに直します。各文字化け文字を元のバイトに対応づけ、結果をUTF-8として再デコードします。不一致のパターンは複数ありうるため、いくつかの解釈(UTF-8 ↔ Windows-1252、UTF-8 ↔ Latin-1、二重デコードのパス)を提示し、最もきれいなものを強調表示しつつ、別の候補も選べるようにします。左にテキストを貼り付け、右で修復結果を読みます。すべてはブラウザ内で動作するため、貼り付けたテキストは端末上に留まります。
機能
- 最もよくある文字化けを修復:Windows-1252やLatin-1としてデコードされたUTF-8バイト
- アクセント付き文字・スマートクォート・ダッシュ・ユーロ記号・壊れた絵文字を修復
- 複数の候補解釈を提示し、最もきれいな修復をBestとして示す
- 二重に誤デコードされたテキスト向けの二重デコードのパスを搭載
- 修復を信頼する前に、入力が本当に文字化けに見えるかを判定
- ライブな入出力 — 左に貼り付け、右で修復済みテキストを読む
- 修復済みテキストをワンクリックでコピー、または既知の文字化けサンプルを読み込んで試す
- すべてブラウザ内で動作し、貼り付けたテキストは端末上で処理される
文字化け修復 の使い方
- 文字化けしたテキストを左側の入力ボックスに貼り付けます。
- 右側のFixed出力パネルで最良の修復結果を読みます。
- Interpretations(解釈)の一覧を見て、よりきれいに読める別の候補を選びます。
- Copyをクリックして修復済みテキストを取得します。
例
入力
Café — don’t panic
出力
Café — don’t panic
Windows-1252として誤デコードされたUTF-8テキストを、きれいな文字に修復した例。
よくあるエラーとトラブルシューティング
- 修復すると、きれいなアクセント付きテキストが「Cé」のような新たな文字化けになる。 — そのテキストはおそらく既に正しいUTF-8でした。Original候補を選ぶか、実際に文字化けして見える入力にだけツールを使ってください。
- 1回のパスの後でも一部の文字が壊れて見える。 — そのテキストは二重に誤デコードされた可能性があります。修復をもう一度適用する二重デコードの解釈を選んでください。
- いくつかの文字が黒いひし形の疑問符(�)として表示される。 — それらのバイトは貼り付ける前に失われたか置き換えられており、復元できません。元のソースからUTF-8として再エクスポートしてください。
- 曲がった引用符やダッシュは直ったが、変な記号が1つ残る。 — Windows-1252の代わりにLatin-1の解釈を試してください。両者はわずかな句読点や記号のバイトでのみ異なります。
よくある質問
- 文字化け(mojibake)は何が原因で起きますか。
- 文字化けは、ある文字エンコーディングで保存したテキストを別のエンコーディングで読んだときに起きます。典型例はUTF-8のバイトがWindows-1252やLatin-1としてデコードされ、アクセント・スマートクォート・絵文字のようなマルチバイト文字が、複数の誤った1バイトのグリフに分裂することです。
- なぜ Café が Café と表示されるのですか。
- UTF-8では é は2バイト(0xC3 0xA9)です。それらのバイトをWindows-1252として読むと 0xC3 が à に、0xA9 が © になり、「Café」が「Café」になります。このツールはそれらの文字をバイトに戻し、UTF-8としてデコードして é を復元します。
- なぜアポストロフィが ’ になるのですか。
- 曲がったアポストロフィ(’、U+2019)はUTF-8で3バイトです。Windows-1252としてデコードすると â・€・™ になり、「don't」が「don’t」と表示されます。それら3文字をUTF-8として再デコードすると元の ’ が再構築されます。
- Windows-1252とLatin-1の修復の違いは何ですか。
- Windows-1252とLatin-1(ISO-8859-1)はほぼ同一ですが、0x80–0x9F の範囲で異なり、そこにWindows-1252はスマートクォート・ダッシュ・ユーロ記号を持ちます。まずWindows-1252の修復を試し、句読点や記号がまだ誤っていればLatin-1に切り替えてください。
- 文字化けは必ず修復できますか。
- 多くの場合は直りますが、常にではありません。元のバイトが汎用のプレースホルダー(置換文字 �)に置き換えられた後にテキストをコピーした場合、情報は失われており、どんなツールでも復元できません。修復は、文字化けしているが可逆なバイトがそのまま残っている間だけ機能します。
- 貼り付けたテキストはどこかにアップロードされますか。
- いいえ。文字化けの修復はすべてブラウザ内で動作するため、貼り付けたテキストは端末上でローカルに処理され、サーバーへ送信されることはありません。
関連ツール
すべての ArrayKit ツール