2008-02-08

雑談。

文字セットはブラックホールだ。

Python の文字コードサポートが整っているのは、Guido がヨーロッパ人だからなんだろうか。

以下うろおぼえにもとづく戯言。

ヨーロッパでは、ASCII の 128 文字に、アクセント記号付きアルファベットや各種記号などを加えた、8 ビット 256 文字の 1 バイト固定の文字コードを使っているのですが、困ったことに後半 128 文字の割り当てが規格によってばらばらで、しかもなまじ 1 バイト固定長のため、バイトの並び具合からの文字コードの推測が非現実的であるという問題があるそうで。ある意味これは Shift_JIS / ISO-2022-JP / EUC-JP の自動判別がそれなりの精度で効く日本語よりも深刻なわけです。だから、文字コードについてはアメリカ人がほんとにほんとにわかってないのだけ突出してるという状況なのかも。しかし影響力は大きいのでまたこれが。

で、ヨーロッパの事情からすると 8 ビット 256 マスのテーブルの「どこにどの文字が入っているか」という問題のとらえ方なので、「文字セット」という言い方がされるんじゃないかと思う。W3C の HTTP でも Content-Type: text/html; charset=iso-8859-1 ですよね。しかし日本語の文字コード事情からすると、文字集合(どの文字をどう並べた表を使うか)は JIS X 0208 なりなんなりで決まっていて、そのバイト表現(符号化方式)が違っているというのが問題になってくる。だから用語としては encoding のほうがしっくりくる(自分は)。encoding のほうが「文字の区点番号」と、その「区点番号のバイト表現」とを抽象化してるから、より一般的な概念じゃないかな。charset だとそこがまだ未分化な感じがする(文字の番号が即そのままバイト値)。

プログラムの変数名なんかは、encoding で統一してます。

Python では、

encode
抽象的な概念としての「文字列」 → 具体的なバイト列表現
例: u'いろは'.encode('shift_jis')
decode
抽象的な概念としての「文字列」 ← 具体的なバイト列表現
例: '¥x82¥xa2¥x82¥xeb¥x82¥xcd'.decode('shift_jis')

というレイヤーがはっきりしてる(言うまでもないけど、矢印の左側が unicode オブジェクトで、右側が str オブジェクトということになる)ので、「文字コードを意識したプログラミング」がやりやすい。

しかしどうも世のなかには「文字コードを意識しないプログラミング」をしている時に問題がもっとも起きにくいのが文字コード処理に優れたプログラミング言語であると考える方々もいるようで。

……などとえらそうなことを書いてたら、掲示板をテストしていて気づいたことを書く時間がなくなってしまった。

2008-02-02

で、lazer eyes ってなんなの?

雑談。掲示板の復活が見えてきた。CGI の動作検証のために、再び ThinkPad に Apache を入れたけど、いまのおそろしく潤沢な処理リソース(デュアルコアに、2 GB のメモリ)では、仰々しいとか重いとかいう感覚はもはやまったくしないすね。

よく読んでいるウェブ日記の中の方々の少なからずが HP のサーバ(いまキャンペーンで馬鹿みたいに安い)を買っている。しかも二台とか。法人より個人で買ってるほうが多いんじゃないかという気が……。

おまけ

「さくらPython」に関連して、先日このようなやりとりがあったので一応ご紹介しておきます。

2008-01-29

レーザーアイズ!!!

lazer EYES!!!

lazer EYES!!!

lazer EYES!!!

レいザーアぁイズ!!!

since when did you have lazer eyes?

since when did you have lazer eyes?

since when did you have lazer eyes?

いつの間にレーザーアイズを?

2008-01-14

明けましておめでとうございます。

更新情報

テンプレート処理用の Python ライブラリ、texttemplate.py を公開。

掲示板(まだ言ってるのかよ)でこれを使おうということで作りました。はじめ、HTML を解析したツリーを使ってテンプレート処理をしようと考えていた(し、実装していた)のですが、HTML にしか使えないのがやっぱり嫌になったので、汎用のテキストテンプレートです。まだ実用に供するものかはわかりませんけど。

余談だけど、このライブラリを作っている時に思いついたコードについて。

(locals() for a, b, c in iterable)

これは Python の、ジェネレータの内包表記というやつですが、この式を思いついたおかげでテンプレートの for ブロックをまともなものにするめどが立ったのです。

内包表記は、普通最初の部分で for に続く変数を使った式を書くものですが(たとえば、(x * 2 for x in range(10))、これは 0 から 18 までの偶数を生成するジェネレータ)、ここではその変数は使ってない。それでいて for 以下の変数(上の例だと、a, b, c)に代入しているのには意味があるという、へんな式。

# test.py

from pprint import pprint

L = [(1, 2, 3),
     (4, 5, 6),
     (7, 8, 9)]

for x in (locals() for a, b, c in L):
    pprint(x)
C:¥>python test.py
{'[outmost-iterable]': <listiterator object at 0x00B31B10>,
 'a': 1,
 'b': 2,
 'c': 3}
{'[outmost-iterable]': <listiterator object at 0x00B31B10>,
 'a': 4,
 'b': 5,
 'c': 6}
{'[outmost-iterable]': <listiterator object at 0x00B31B10>,
 'a': 7,
 'b': 8,
 'c': 9}

と、こういうことなのです。夜寝る時になってベッドの中でひらめいた変態的なコード。ちなみに変態的というのはベッド云々とは関係ない。