2008-12-21

久しぶりにプログラム的なものを。

MeCab Python バインディングの Windows 用インストーラ

MeCab の機能を Python から使えるようにするためのバインディングですが、配布元のソースは Windows だとうまくインストールできません。あれこれパラメータをいじって手作業でビルドするとなんとか動くようなものが作れますが、面倒です。そこで、Windows 用 Python 向けのインストーラを作成しました。

といっても、Python の distutil の機能を使っただけだけど。

当然ですが、Windows 版 MeCab 本体がインストールされている必要があります。MeCab 本体については、Windows 用のインストーラが配布されています。

C:¥>python
Python 2.6.1 (r261:67517, Dec  4 2008, 16:51:00) [MSC v.1500 32 bit (Intel)] on
win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
>>> t = MeCab.Tagger()
>>> print t.parse('今日もしないとね')
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
も      助詞,係助詞,*,*,*,*,も,モ,モ
し      動詞,自立,*,*,サ変・スル,未然形,する,シ,シ
ない    助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS

>>>

ぱっと見は動いているようですが、どうでしょう。試された方は動作報告をいただけると助かります。

ダウンロード

注意!! このインストーラはまだよくテストされてません。ご自身の責任で使用してください。

MeCab Python 2.6 バインディング Windows インストーラ
mecab-python-0.97.win32-py2.6.exe
上のインストーラを作成するために書いたツール類
mecab-python-win-tools.zip

2008-12-18

「あたし状態遷移図」。はてなブックマークで知ったというのがちょっと悔しいけど、これにはやられた。すばらしい。

古文言語コード

ISO-639-3 には、Old Japanese として ojp という言語コードが規定されている!

マイクロソフトのボリュームライセンス管理サイトがきわめてわかりにくい

プロダクトキー一覧では、Office の Professional と Standard の区別が付かない。アホか。

アドビ、マイクロソフト (MSDN)、IBM(とレノボ)あたりのサイトは何度リニューアルしてもさっぱり使いやすくならない。そのくせ「サイト改善のためのアンケートにご協力ください」とかいうポップアップはしょっちゅう出してくる。なにか根本的なところで間違っているとしか思えない。

ストリートファイターIV

以前「筐体間でTCP/IPとかで通信してるんじゃないだろうな」って書いたけど、やっぱりそうだった。今時はみんなそうだよね。

先日、対戦してたら「通信エラー」というのが出てゲームが操作不能になってしまった。店員が来て再起動させてたけど、起動中 192.168.*.*** という IP アドレスが出てた。ちなみに OS は組み込みの Windows ぽかった。

2008-12-14

今日は全般的にもやもやした話。

よくウニとかシャコとかを前に「これ最初に食ったやつすげえよな」なんて言ったり、食べられるキノコはどうやって見つけたんだなんていう話をするけど、考えてみると最初に食ったときにヒトだったとは限らないよね。食物についての情報は生命にとって優先度が高いから、ヒトがヒトになるよりはるか前に知ってたかもしれない。

と、思ったけど、現生人類がアフリカから広まったのなら、まさか最初からシャコが食えるとは知ってなかったか。やっぱり最初に食ったやつがいたんだ!

でも「死への恐怖」とか「母親」とか「敵・味方」とか、人間そのものよりも歴史が古い基本的概念ってあると思うんだよね。

ディレクトリ名の単数形・複数形

URL もそうなんだけど、スクリプトとかデータの格納場所としてディレクトリに英語で名前をつけようというとき、単数形にするべきか複数形にするべきかで悩むことが一年に数回ほどある。

Windows のエクスプローラなんかでフォルダを開いてると、「これは写真を入れるとこだから Photos だな」といった感じでなんとなく複数形のほうがしっくりくる。Windows も Mac も、UsersDocumentsPictures だし。もっとも、この辺のファイルやフォルダは日本語で名前つけちゃっても問題ないので、「自然言語で命名」という意識がそうさせてるのかも。

しかしプログラムを格納したり、サイトで URL になるようなディレクトリだと、パス名を意識するので単数形のほうがいいような気もする。などと言いつつ、emptypage.jp では /stylesheets/ とか /translations/ とか、ぜんぶ複数形にしちゃったけど。いまなら単数形にすることだろうけど、もう遅い。

考えてみると、「何が入っているのか」を説明するという発想の命名規則と、雑多なファイル群を分類するという発想の命名規則があって、前者なら複数形、後者なら単数形で名付けているということなのかもしれない。だけど慣習やその場の判断も大きくて(datum なんてディレクトリにはしないでしょ)、やっぱりその都度考えてしまうのであった。まさに時間の無駄。

でも何も考えないとたいてい複数形にしちゃうなあ。tools とか。

変数名の単数形・複数形

単数形・複数形といえば、プログラムの変数名でも変なことで悩んだりする。ツリー状にオブジェクトを組むとき、子ノードはだいたい child とかにして代入・操作するわけですが、それを格納するリストをどうするか。children とすると、なんか妙な感じがする。で、悩んだあげくに childnodes とか、長い名前になってしまう。まさに時間の無駄。

源氏物語

何人かに話を聞いてみると、やはりというべきなのか意外とというべきなのかわかんないけど、源氏物語に対して、「華やかな貴族文化と恋愛模様」という王道のイメージで好感持ってる女性は少なくないのね。男性の場合は、これは聞いてまわったわけじゃないけど、源氏物語に対するおおかたのイメージとしては、「とくになし」というのが大半だと思う。

貴族文化と恋愛模様なんて趣味はいまどきはみんな軽蔑してるのかと思ってた。自分がひねくれて考えすぎていたか。

戦国時代には、各国の武将がこぞって連歌師を呼んで源氏の講釈を聞いたとか。これは戦国武将たちの貴族文化へのあこがれとしては理解できるけど、なんだかおかしな光景だ。

一条兼良という人は、毎年、その年の初めに源氏物語の「若菜」の巻を朗読していたとか。それで「めでたい」とか言ってたんだろうか。

「あさきゆめみし」なんかは源氏物語を恋愛物語としてとらえているように見えるけど。平安時代の婚姻を恋愛と考えると、どこかで齟齬をきたすような気がする。

赤染衛門集とか蜻蛉日記とかを見ると、男が女の元に文を出すが、女の側が親なり女房なりの代筆で「まだもののよくわからない子供ですから」と断る、といった似たようなシチュエーションが出てくる。だけどこれ、男のほうは女の顔もまだ知らないんだぜ。どこからか、あそこに若い女がいるというのを聞きつけて、それで何度も熱烈な歌を書いてよこしてくる。そういう場面からは、自分はもうギラギラした男の欲情しか感じないんだけど。これを現代の意味で恋愛とはいえないでしょう。

だからけっきょく、その時代時代でみんな興味のあることにかこつけていろんな読み方で源氏物語は消費されてきたということなんだけど、どれも紫式部日記の内省的な感じとはギャップがありすぎて、そこが気になる。樋口一葉なんかはどう読んでたんだろうか。

2008-12-03

ビレッジセンターなくなっちゃったね……。あっけない幕切れ。

ここしばらく忙しかったのだけど、恐怖のオペレーションも無事終わり、やっと一息。ここのところ外食ばっかりだったし、掃除もしないので部屋も心も荒れに荒れていた。

源氏物語の分量

源氏物語を最初から読むと「須磨」とか「明石」の巻でたいてい挫折するという。全体の分量としてはプルーストの『失われた時を求めて』よりは多くないように見えるけど、古文というハンディキャップがある。便宜上ほぼ同量と考えて、『失われた時を求めて』は僕の場合読むのにおよそ一年かかったから、古文を現代文と同じペースで読みこなせれば、まあだいたいそれくらいで読み終わることになる。枕草子も読むのにおよそ一年かかったが、分量としては源氏物語の八分の一くらいだろうか。古文を読む速さは現代文の八分の一ということか。もし枕草子と同じペースで源氏物語を読んでいくと、八年かかることになる。とはいっても、さすがにいまでは読むのはそこまで遅くない。

分量的に枕草子とほぼ同じくらいの「蜻蛉日記」をいま読んでるけど、一か月半で半分ほどまで読んだ。つまり読む速さは四倍ほど向上したと考えてもいい。現代文読む速さの半分!? そんなに速く読めてる自信ないけど、仮にこのペースなら、源氏物語を読むのにはたったの二年しかかからないことになる。逆にいうと、一年以上かかるかしら、みたいな見通しで始めた人はぜんぜん読みが甘いともいえる。

現状はほかの本読む時間をまったくとってないから、それを差し引いて考えると三年くらいかかるだろうか。

……。

いや、はじめから数年かかるとわかってて読み始めれば、息切れしないかなと思って。

ところで、ひとくくりに五十四帖といっても数えてみると各巻の分量はそれぞれずいぶん違っている。あの巻は長いから読むのがたいへん、なんて下世話な話は、えらいひとはすすんで書いたりしゃべったりはしない。下世話な自分が数えてみた、各巻の「新古典文学大系」でのページ数。

# 巻名 分量(ページ数)
1 桐壺(きりつぼ) 28
2 帚木(ははきぎ) 52
3 空蝉(うつせみ) 16
4 夕顔(ゆふがほ) 52
5 若紫(わかむらさき) 52
6 末摘花(すゑつむはな) 36
7 紅葉賀(もみじのが) 34
8 花宴(はなのえん) 16
9 葵(あふひ) 52
10 賢木(さかき) 54
11 花散里(はなちるさと) 8
12 須磨(すま) 48
13 明石(あかし) 44
14 澪標(みをつくし) 36
15 蓬生(よもぎふ) 28
16 関屋(せきや) 8
17 絵合(ゑあはせ) 22
18 松風(まつかぜ) 26
19 薄雲(うすぐも) 36
20 朝顔(あさがほ) 26
21 少女(をとめ) 54
22 玉鬘(たまかづら) 46
23 初音(はつね) 22
24 胡蝶(こてふ) 26
25 螢(ほたる) 24
26 常夏(とこなつ) 26
27 篝火(かがりび) 6
28 野分(のわき) 22
29 行幸(みゆき) 32
30 藤袴(ふぢばかま) 20
31 真木柱(まきばしら) 42
32 梅枝(うめがえ) 24
33 藤裏葉(ふぢのうらば) 28
34 若菜上(わかなじやう) 104
35 若菜下(わかなげ) 106
36 柏木(かしはぎ) 44
37 横笛(よこぶえ) 22
38 鈴虫(すずむし) 18
39 夕霧(ゆふぎり) 74
40 御法(みのり) 24
41 幻(まぼろし) 26
42 匂宮(にほふのみや) 20
43 紅梅(こうばい) 18
44 竹河(たけかは) 48
45 橋姫(はしひめ) 42
46 椎本(しひがもと) 42
47 総角(あげまき) 92
48 早蕨(さわらび) 22
49 宿木(やどりぎ) 96
50 東屋(あづまや) 66
51 浮舟(うきふね) 74
52 蜻蛉(かげろふ) 60
53 手習(てならひ) 70
54 夢浮橋(ゆめのうきはし) 20

この表で役に立つことはとくにないです。ふーんと思って眺めるだけのもの。しいてなにかいうなら、極端に短い巻がいくつかあるというのと、「若菜」は上下に分かれていてもなおそれぞれ圧倒的に長いということくらい。

「蜻蛉日記」読み終わったら手つけ始めるか。

ツとヌが同じ動詞に付く場合

同じ動詞がツ形もヌ形もとることがあります。その場合ツ形は完成相を、ヌ形は起動相を表します。

(12)a 我が袖に降りつる雪も流れ行きて妹が手元に(=アノ子ノ袖ニ)い行き触れぬか(万 2320)
b 梓弓おして春雨今日降りぬ明日さへ降らば若菜摘みてむ(古今 20)

(12a) は「降った」、(12b) は「降るようになった」の意(中西宇一 1996)、

(13)a 「さらに知られじと思ひつるものを」とて、髪を振りかけて泣く[物ノ怪ノ]けはい、ただ昔見給ひし物の怪のさまと見えたり。(源・若菜下)
b 思はぬ人に押されぬる宿世になむ、世は思ひの外なるものと思ひ侍りぬる。(源・乙女)

(13a) は「決して本性は知られまいと思っていたのに(つい本性を現してしまった)」、(13b) は「この世は思いがけない成り行きになるものだと思うようになった」の意(鈴木泰 1999)と考えられます。

(小田勝『古代日本語文法』おうふう、2007 年、p. 76)

何回か引用しているこの本、おもしろいのでこれについてそのうちちょっとご紹介したいところ。

それにしても、もうこのページはぜんぜん更新情報じゃない。いいかげんどこかに古文の話をするブログでも用意して移るべきか。

源氏の分量の話を書いてしばらく見直してたら、「『失われた時を求めて』をフランス語で読んだら何年かかるのか」というおそろしい問いが浮かんできてしまった。そして人生は有限であること、一生に読める本は限られているということに思いをはせる。

もう寝よう。明日も読むべきものがある。

2008-11-11

岩波文庫版『枕草子』を読んでて生じた疑問点を、図書館から借りてきた新古典文学大系版で潰していく作業をしてたんだけど、それがようやく一通り終わった。

やはり岩波文庫版は注も解釈も古かった。注が弱いのは読む前からわかってたけど。本文をどこで段として区切るかという、その分けかたも違っていて、新古典文学大系のほうがより無難になっている。これから読む人には、新しいほうをお勧めするね。

原文を読んで、辞書を引いて、その上でいくら考えてもよく意味がわからなかった箇所というのは、新古典文学大系の解釈を見ても、これはわからなくても仕方がないよな、と思うものが多かった。たとえば歴史的な背景を知ってないとぴんとこないところだったり、そもそもいまだに文意がよくわかっていないところだったり。

でも最初に原文のみのやつをひたすら調べて読み通したのは結果としては正解だったと思う。基礎体力が付いた。そしてそういう基礎体力作りとしての使い方なら、べつに岩波文庫版でも問題はない。新しい研究内容が反映されてたほうが、とか考えるのはスタート地点に立ってからの話で、まずはそのスタート地点に着くまでがたいへんだった。

現代語訳が付いてたら、疑問点が出るまで本文を考えたりはしなかっただろう。現代語訳は、訳として完成度が高いと「ここはなにを言いたいのかよくわからないな」という本文の怪しいところが覆い隠されてしまうし、逐語訳調だとそもそも訳文の意味がよくわからなくてへんな方向に悩んでしまったりもする。「知らないべきであったのだなあ」とか、ああいうのはほとんど人造言語みたいなもので、意味を考えるときに頭の中で使う分にはいいけど、それで現代語にしたつもりになってはいけない。

といっても、これはあくまで自分のやり方で、現代語があったほうがやりやすいという考えを否定するものではない。自分のやり方はちょっとマゾヒスティックだ。それに文学作品として鑑賞する目的なら現代語訳で読んでもまったく問題ないと思う(思った)。和歌や俳句ならともかく、散文作品は翻訳できるのが強みなんだから。もちろん人造言語じゃない方向の訳でだよ。そっちの方向の訳文で(あわよくば原文もとか横着を目論みつつ)読もうと考えるのがいちばんよろしくないのではないか。意味がよくわからないうえに、退屈で。

章段分けはほかの本で言及されてるときに重要だから、そこはちょっと古い岩波文庫版は分が悪い。

さてこのアプローチは、古文以外の外国語を読むのにも使えるのだろうか。

ストリートファイターIV

対戦がそこそこできるようになってくるとおもしろくなってきた。それにしても、まさかこの歳になっていまだにボディプレスでめくったり波動拳をダブルラリアットで抜けたりしてるとは思わなんだ。

ふつうに対戦してるだけで満足なんだけど、カード作ったほうがいいのかな。

ところで今回は対戦だとわずかにタイムラグがあるような気がする。筐体間でTCP/IPとかで通信してるんじゃないだろうな。液晶のせいだと言う人もいるけど、あれってそんなに影響出るものなの?

それにしてもストIVの画面に慣れてしまうと、それまでの格ゲーがすごくしょぼく見えてしまう。アニメーションパターン数が多いと言われていた「ヴァンパイア」シリーズが紙芝居のように見えてしまったのには愕然とした。ストリートファイターIIIなどは、出た当時知人をして「現実はこんなにパターン数多くない」と言わしめたほどだったのに、それすらいま見るとよくできたパラパラマンガといった感じだ……。また遊べばすぐに感覚戻るんだろうけど、目が肥えてしまった自分がちょっと残念。でもどれももうおおむね10年以上前のゲームなんだよね……。

エディタ話

ちょっと前の話だけど。

膨大なテキストファイルのデータを修正する作業をメモ帳でやろうとしていた友達が「タブかスペースかの区別がつかない」とか言っているので、テキストエディタなるものの存在を教えて差し上げる。EmEditor をお勧めする。あと TeraPad の名前も挙げたけど、いまのトレンドとはやや外れてるか。

大工たちの食事の謎

これもちょっと前の話だけど、まだ書いてなかった。

『日本料理の歴史』という本に、枕草子にある話としてこんなことが書いてある。

清少納言の『枕草子』に大工たちの食事を描写したところがある。彼らは食べ物が運ばれてくるのを今や遅しと待ちうけていて、汁物がくると、みな飲んでしまい、空になった土器を置いてしまう。次におかずがくると、これもみな食べてしまってもうご飯はいらないのかと思っていると、ご飯もあとからくるとまたすぐなくなってしまった、といって「いとあやしけれ」というわけである。汁と飯、お菜と飯とを交互に食べていくのが今も続く和食の食べ方だが、お腹のすいた大工には、そんな作法は関係なかったようである。

『枕草子』の記事では、大工の食事がどの時間のものであったかわからない。

熊倉功夫『日本料理の歴史』吉川弘文館、2007年、pp. 40-41

ふーん、おもしろい、と思うでしょ。自分もそう思った。だけどこの本を読んでいたときは、まだ枕草子は途中だったから、あとでこういう話が出てくるんだな、と思うくらいで読み流した。

ところが読み終わってみると、こんな話、枕草子のどこにもなかったのだ! これはいったいどうしたことだ。この件はいまでも謎。出典とした書名が書いてあれば参照できたのだけど。