国際化ドメインの偽装

MSの大量パッチのため、すっかり過去の話題になってしまってますが、国際化ドメインでアドレス偽装な話についていろいろ。

まぁ、何をいまさらという感じではあるんですが、よくよくRFC3490とかを見てみると、U+00F6 (LATIN SMALL LETTER O WITH DIAERESIS) と U+00F8 (LATIN SMALL LETTER O WITH STROKE) が別物扱いになるだとか*1、見た目がよく似た文字のために、視覚的に確認できる手段を提供するのもまた良し、など書かれてますね。

で、ヤマガタさんに「次は  を試す?」などと書かれたりされてるわけですが、ネタにマジレスしてみると、U+FEFF は RFC3454 の 3.1 Commonly mapped to nothing に、単純に入力から削除しますよ、と書かれています。
ついでに言うと、U+FEFF以外にも、文字列の偽装にはもってこいな U+202B (RIGHT-TO-LEFT EMBEDDING) なども禁止文字として規定されています。

*1:この2文字は見た目からして異なる;ö U+00F6、ø U+00F8