第1回: Unicode から Shift_JIS への変換(その1)
Windows 上で Unicode を扱う場合に発生するセキュリティ上の問題点などについて不定期に書いていくことにします。以前の内容と重なる部分も多いですし、時間的にもどこまで書けるかわかりませんけれど…。
さて第1回目は、 Windows 上で Unicode を扱う際のもっとも基本とも言える WideCharToMultiByte を使用した Unicode から Shift_JIS (コードページ932)への変換についてです。
WideCharToMultiByte を使用する際に発生しやすい問題点は以下の2点です。
- バッファサイズの指定ミスによるバッファオーバーフロー
- Unicode から Shift_JIS への変換における多対一のマッピング
バッファサイズの指定ミスによるバッファオーバーフロー
変換前の Unicode の文字列は「文字数」で指定するのに対し(cchWideChar)、変換結果を受け取るバッファのサイズ(cbMultiByte)は「バイト単位」で指定しなければいけません。cchWideChar、cbMultiByte のどちらも終端のヌル文字を含めたサイズを指定します。
cbMultiByte にゼロを指定した場合には、関数の戻り値としてバッファに必要な大きさが返されますので、それを利用して動的にメモリを確保するのもよいでしょう。
Unicode から Shift_JIS への変換における多対一のマッピング
WideCharToMultiByte の呼び出しにて、フラグ(dwFlags) に WC_NO_BEST_FIT_CHARS を指定していない場合、Unicode から Shift_JIS に変換する場合に複数の Unicode 文字が同じ文字に変換されることがあります。WC_NO_BEST_FIT_CHARS フラグは Windows 2000 および Windows 98 以降で有効となりますが、残念なことに WideCharToMultiByte に関する世の中の例題の多くではあまり指定されていないようです。
このフラグを指定した場合には、Unicode 文字に直接対応する Shift_JIS の文字がない場合には、既定の文字(デフォルトでは '?' )に変換されます。このフラグを指定している場合、Unicode と Shift_JIS は一対一に対応しますので、Shift_JIS をもう一度 Unicode に直した場合には(対応する文字がなく '?' に変換された場合を除き)同じ文字に戻すことができます。
フラグが指定されていない場合には、「よく似た文字」に変換されてしまい、そのような Shift_JIS の文字を再び Unicode に変換した場合には元の文字とは異なった文字に変換されてしまいます。例えば、U+00C0(À)は、Shift_JIS に変換すると 0x41(A) に置き換わります。もちろん、U+0041(A)も Shift_JIS への変換で 0x41(A) になります。逆に、Shift_JIS の 0x41 を Unicode に変換した場合には、U+0041(A) になります。このように、WC_NO_BEST_FIT_CHARS を設定しない変換においては、Unicode と Shift_JIS の間では多対一の変換が行われてしまいます。
具体的に、Shift_JIS に変換した場合に「似たような文字」として変換される文字は以下の通りです。次回はこれらの「似た文字の変換」によって引き起こされる問題について説明したいと思います。
Unicode | Shift_JIS | ||
---|---|---|---|
¡ | U+00A1 | ! | 0x21 |
¢ | U+00A2 | ¢ | 0x81 0x91 |
£ | U+00A3 | £ | 0x81 0x92 |
¥ | U+00A5 | \ | 0x5C |
¦ | U+00A6 | | | 0x7C |
© | U+00A9 | c | 0x63 |
ª | U+00AA | a | 0x61 |
« | U+00AB | ≪ | 0x81 0xE1 |
¬ | U+00AC | ¬ | 0x81 0xCA |
| U+00AD | - | 0x2D |
® | U+00AE | R | 0x52 |
¯ | U+00AF |  ̄ | 0x81 0x50 |
² | U+00B2 | 2 | 0x32 |
³ | U+00B3 | 3 | 0x33 |
µ | U+00B5 | μ | 0x83 0xCA |
· | U+00B7 | ・ | 0x81 0x45 |
¸ | U+00B8 | 0x81 | |
¹ | U+00B9 | 1 | 0x31 |
º | U+00BA | o | 0x6F |
» | U+00BB | ≫ | 0x81 0xE2 |
À | U+00C0 | A | 0x41 |
Á | U+00C1 | A | 0x41 |
 | U+00C2 | A | 0x41 |
à | U+00C3 | A | 0x41 |
Ä | U+00C4 | A | 0x41 |
Å | U+00C5 | A | 0x41 |
Æ | U+00C6 | A | 0x41 |
Ç | U+00C7 | C | 0x43 |
È | U+00C8 | E | 0x45 |
É | U+00C9 | E | 0x45 |
Ê | U+00CA | E | 0x45 |
Ë | U+00CB | E | 0x45 |
Ì | U+00CC | I | 0x49 |
Í | U+00CD | I | 0x49 |
Î | U+00CE | I | 0x49 |
Ï | U+00CF | I | 0x49 |
Ð | U+00D0 | D | 0x44 |
Ñ | U+00D1 | N | 0x4E |
Ò | U+00D2 | O | 0x4F |
Ó | U+00D3 | O | 0x4F |
Ô | U+00D4 | O | 0x4F |
Õ | U+00D5 | O | 0x4F |
Ö | U+00D6 | O | 0x4F |
Ø | U+00D8 | O | 0x4F |
Ù | U+00D9 | U | 0x55 |
Ú | U+00DA | U | 0x55 |
Û | U+00DB | U | 0x55 |
Ü | U+00DC | U | 0x55 |
Ý | U+00DD | Y | 0x59 |
Þ | U+00DE | T | 0x54 |
ß | U+00DF | s | 0x73 |
à | U+00E0 | a | 0x61 |
á | U+00E1 | a | 0x61 |
â | U+00E2 | a | 0x61 |
ã | U+00E3 | a | 0x61 |
ä | U+00E4 | a | 0x61 |
å | U+00E5 | a | 0x61 |
æ | U+00E6 | a | 0x61 |
ç | U+00E7 | c | 0x63 |
è | U+00E8 | e | 0x65 |
é | U+00E9 | e | 0x65 |
ê | U+00EA | e | 0x65 |
ë | U+00EB | e | 0x65 |
ì | U+00EC | i | 0x69 |
í | U+00ED | i | 0x69 |
î | U+00EE | i | 0x69 |
ï | U+00EF | i | 0x69 |
ð | U+00F0 | d | 0x64 |
ñ | U+00F1 | n | 0x6E |
ò | U+00F2 | o | 0x6F |
ó | U+00F3 | o | 0x6F |
ô | U+00F4 | o | 0x6F |
õ | U+00F5 | o | 0x6F |
ö | U+00F6 | o | 0x6F |
ø | U+00F8 | o | 0x6F |
ù | U+00F9 | u | 0x75 |
ú | U+00FA | u | 0x75 |
û | U+00FB | u | 0x75 |
ü | U+00FC | u | 0x75 |
ý | U+00FD | y | 0x79 |
þ | U+00FE | t | 0x74 |
ÿ | U+00FF | y | 0x79 |
ゔ | U+3094 | ヴ | 0x83 0x94 |