Unicode

エンジニアの魂 - typeコマンドで文字列変換

これはすごい(個人的に)。 C:\>chcp 20932 Active code page: 20932 C:\>dir >dir-euc.txtC:\>chcp 50220 Active code page: 50220 C:\>dir >dir-[]jis[].txtC:\>chcp 65001 Active code page: 65001 C:\>dir >dir-utf8.txtC:\>chcp 65000 Active code page:…

電子メール本文中の日本語ドメイン名URLをクリックできるようにするには - 日本語.jp

MUA にて、メール本文中の IDN をクリッカブルURL(懐かしい語)として正しく扱えるようにするためのガイドライン。ちなみに、Windows 上にて IDN を Punycode に変換するには、IdnToAscii が使えます。って書こうと思ったら、"Included in Windows Vista and …

ban the use and implementation of UTF-7 from Roy T. Fielding on 2006-12-14 (www-tag@w3.org from December 2006)(W3C TAG)

ブラウザでの UTF-7 のサポートをやめようよ、という提案。実際、UTF-7 なんかいらないし。

複数の事象を混同しがちなVistaの文字問題:ITpro

セキュmemo経由。気になったのはここ。 ちなみにマイクロソフトが定めたデータ圧縮の仕様であるCAB形式は,Unicodeに対応している。CAB ファイルにおける Unicode なファイル名の扱いについては、Microsoft Cabinet SDK に含まれる CAB のフォーマットの解説…

あとでちゃんと読む。

UTR# 36: Unicode Security Considerations UTR# 39: Unicode Security Mechanisms

Unicode Character Database 5.0 Released

出ました。

Sorting It All Out : Behind 'How to break Windows Notepad'

メモ帳で this app can break と書いて保存し、もう一度メモ帳で開くと 桴獩愠灰挠湡戠敲歡 と表示される、という話。 …確かに、IsUnicodeText( "&#x00000", 8, 0 ) は TRUE を返しますね。へ〰〰。

An ASP.NET application that is built on the .NET Framework 1.1 with Service Pack 1 may convert some symbols incorrectly

.NET Framework 1.1 SP1 上の ASP.NET にて、Unicode を使わずなおかつEnableBestFitResponseEncoding プロパティが true に設定されている場合に意図しない文字の変換が発生し、危険な文字に置き換えられる可能性があるといういつもどおりの話のKB。

ヒント: XML文書内の文字検索にUnicodeデータベースを使用する − IBM developerWorks

UCD の説明。メモ。

[LE-talk-ja 1] [案内] レガシーエンコーディングの変換機能の開発

というわけで、とりあえず ML 参加。

Ignoring a problem does not make it go away.... − Sorting It All Out

英語力ないのでこれ以上書けませんですた。

Every character has a story #19: U+200c and U+200d (ZERO WIDTH [NON] JOINER) − Sorting It All Out

めもめも。

ファイル名の大文字小文字を正しく比較する − 2ch

id:comiken さんところより。時間がないので簡単でごめんなさい。「Comparing Unicode file names the right way」(Sorting It All Out) に書かれているような正規化の話だけではなく、ファイル名の大文字小文字の同一視の条件と、CompareStringW を始めとす…

What is the name of that character? − Sorting It All Out

Unicode の文字の名前をプログラム内で取得するための方法は?という質問。UCD を読み込むという正しい方法が紹介されている。Windows XP では、これ以外に非公開の API である GetUName というものが実装されている。GetUName は GETUNAME.DLL 内にある API…

昨日の日記のフォロー

セキュリティホール memoからたくさん来られてるので、大急ぎでフォロー。 「Character Conversion Functions」にて In WideCharToMultiByte, the default behavior for code pages like 1252 is "best fit" mapping. However (略) For example, Latin capit…

Bugzilla Bug 4868 - ASCIIと互換性のない文字コードはユーザーの指定で選択可能にすべきでない − Bugzilla-jp

先日のUTF-7 を利用した XSSについて、 Firefox 側で危険な文字コードの選択を制限するという提案。しかしこの種類のXSSは、サーバ側やWAFではサニタイズしにくいでしょうねぇ。

BETA Unicode 5.0.0

2006年3月にリリース予定の Unicode Character Database(UCD) のベータ版も公開されている。

バイト列に意味はあるのか(05) - umqの日記

slashdot.jp の日記も、先日の Slashcode のバージョンアップに伴い RSS が配信されるようになったので、見落としにくくなりました*1。という話はおいておいて。 MS の IDN Mitigation API は8月に公開されたときにもすごく気になったものの、umqさんと同じ…

Comparing Unicode file names the right way

とりあえずあとで読む。必読。

Unicode を名前に含むファイルやフォルダをメールで添付する

ファイル名やフォルダ名に Unicode を含めた場合、簡単にはアーカイバで固めて添付するというわけにはいきません。私の知っている限り、Unicode なファイル名を扱えるアーカイバとしては、7-Zipがありますが、受け取り側にも 7-Zip を展開するためのソフトを…

I'd rather call it the path separator - Sorting It All Out

ぬぉっ!! Won Sign もかっ。むー。10月22日、この話だけでいいので聞きに行きたいなぁ…。

Where are those code pages from? - Sorting It All Out

Codepage 5093x と 20290 は NLS ではサポートしていないという話。

NTFS のファイル名

このあたりを見て思い出した話。NTFS では当然のことながらファイル名に Unicode が使えます。また、Unicode ではバックスラッシュ(U+005C)と円記号(U+00A5)はそれぞれ別の文字として定義されており、バックスラッシュはファイル名に含めることができません…

Microsoft Internationalized Domain Names (IDN) Mitigation APIs 1.0

国際化ドメイン名を手軽に扱うためのAPIを含むDLL。そういえば、某氏が日本語ドメインも取得したと言ってましたねぇ。 それはそうと、 Also included are the Unicode normalization APIs IsNormalizedString and NormalizeString, which are used by the mi…

エンコーディングの話 Part 1 - ディベロッパー製品開発統括部 Blog

プログラムのソースコードを UTF-8 などの Unicode で記述できるようになると、特別な配慮なしにリテラル文字列なんかも Unicode で書けるようになったりするのがちょっと嬉しいですね。言語自体はワイド文字列をサポートしているのに、ソースコード中に(コ…

Windows における文字コードの変換関数

こんなのもあったんですね。メモメモ。 SHUnicodeToAnsi SHAnsiToUnicode どうやら、MultiByteToWideChar と WideCharToMultiByte を、より簡単に扱えるようにコードページや変換フラグのパラメータを減らしたラッパー関数のようです。

メモ。あとで読む。

http://blogs.msdn.com/michkap/archive/2005/04/18/409095.aspx http://blogs.msdn.com/michkap/archive/2005/04/19/409566.aspx

Unicode Consortium、文字コード規格の新版「Unicode 4.1.0」を公開

Press Release 4.1 - unicode.org

国際化ドメインの偽装

MSの大量パッチのため、すっかり過去の話題になってしまってますが、国際化ドメインでアドレス偽装な話についていろいろ。 FirefoxやSafariなどでフィッシング詐欺につながる問題点発覚 国際化ドメイン名がフィッシングに悪用される問題〜Secuniaなどが指摘 …

メモ

改正JIS X 0213とUnicodeの等価属性/正規化について(下) 前回に引き続き、Unicodeの正規化についてわかりやすく解説されています。