それは嘘だろ - elf's blog

つまり、ユーザの注意に依存するのではなく、半角カナやOS依存文字も使えるシステムを構築し対応すべきなのである。その面の技術的進歩は著しい。cp932やeucjpmsと呼ばれるキャラクタセット（文字の集合のようなもの）では、OS依存文字から機種依存文字（ベンダ定義文字）まで、正しく変換し表示できるようになっている。

世の中がHTMLでcharset="cp932"とか書いたりする世界ならまだいいかもしれない．
が，そうではない．ふつーcharset="Shift_JIS"だったり"EUC-JP"だったりするわけですよね．
で，ボットを書くときはふつーcharsetから文字エンコードを導き出す実装をするのが自然で．
で，XML吐くときはUTF-8とか何らかの変換をしないといけないときは文字マッピングにない文字の扱いは不定(きっちり実装していたらふつう消える)
OSSとかで特に海外で主に開発されているようなもので上記みたいな説明簡単じゃないですよ．

とか知ってるのかなぁ〜〜〜