2009-01-03

あけましておめでとうございます。

今年は古文の話は別のとこでやることにします。

このページの熱烈な読者であられます検索エンジンのクローラの方々には、今年もクローリングのほど、なにとぞよろしくお願い申し上げます。毎日毎日片っ端からリンクをお辿りいただきご苦労様でございます。しかしもうそんなに更新されませんので、そこまで必死にチェックしないで大丈夫ですってよ。

2008-12-29

いつもいつも「年末年始で読むことにしよう」って本が多すぎるんだよね……。一週間しかないのに。

ローマ字について

ローマ字といっても、ローマ字入力の時に使うローマ字と、ヘボン式や訓令式のローマ字とは性質が違っている。ローマ字入力では ASCII の文字しか使わないが、ヘボン式や訓令式ではそれぞれマクロンやサーカムフレックスを用いる(だからコンピュータで使いづらいんだ)。それから、ローマ字入力はその目的からして当然翻字的 (transliterational) だが、ヘボン式や訓令式は音訳的 (transcriptional) だ。翻字的/音訳的というのは、たとえば「とお」「とう」のかな表記の違いをかき分けることができる(翻字的)かできない(音訳的)かということ。ウィキペディアによると、日本式という翻字的な流儀もあるらしい。

ヘボン式や訓令式のローマ字を、ASCII しか使えない環境で使おうとすると、長音のアクセント記号を省略することになって、音声表記的ですらなくなってしまう。だけどネットではこの方式で名前を表記している人は多い。佐藤を Sato とするように。

現実では、それぞれの表記法が恣意的に混同されて使われている。それでも日本人はあんまり困らないからか。まあどの方式であれ、統一されてたほうが外国人にしてみればありがたいに違いないということに異を唱える人はいないだろう。

あと統一されてない問題点として、ローマ字をまだ学校で教えているのなら、あれがまったく世の中で役に立たないというのもあったか。やっぱり統一したほうがいいよ。

ローマ字の表記法も政治的思想的思惑を巻き込んだ議論になりがちで、いろいろと面倒な世界のようだ。いつまでたっても統一されないのにはそういうデリケートな面があることも大きいのだろうね。

だけどローマ字を扱うプログラムが書きにくいんだよ!

携帯スパム

携帯電話のほうのメールにスパムが大量にくるようになった。夜中だろうとお構いなし。メールのフィルタリングの設定で、URL を含むメールを受信しないようにした。あと送信ドメイン認証とかそのへんも設定する。ホワイトリスト以外の方策としてはいちばん厳しい設定なんだけど、それでもたまにランダムな送信アドレスから空のメールが届く。メールアドレスの実在確認かなんか?

この空メールスパムは ocn.co.jp, msn.net, odn.co.jp, dion.com からくる。ocn.co.jp って ocn.ne.jp と違うんだ。覗いてみると最新情報に「当社ドメイン(ocn.co.jp)を語った迷惑メールについて」なんて書いてある。こりゃぜんぶ受信拒否して問題なさそうだ。

まだ捨てない

もう CD を読み込まなくなって久しい十年選手の CD ラジカセ。今年最後の不燃ごみの日に出してしまうつもりだったけど、朝なぜか気になってドライバーで分解、いろいろ外したり回したりして組み立てたら鳴るようになった! 捨てるのはやめ。命拾いしたな。

Bose のアラウンドイヤーヘッドホンのイヤーパッド部分がはがれてきて、中のクッションが飛び出てしまった。このヘッドホンはつけ心地がよくて、長時間つけてても耳や頭が痛くならないので気に入ってたのに。そしたら替えのイヤーパッドがちゃんとあるのね。ところがこのふわふわドーナツだけで4,200円もする。まあ買いましたけどさあ……。

もう捨てたい

もう捨てたいものもけっこうあるんだけど、これは捨ててから書くべし。

今年の5枚

ていうか2008年リリースのアルバムは5枚しか買ってなかった。今年はあんまり音楽聞いてない。古文読んでたからだな。

  • SYR 8: Andre Sider Af Sonic Youth / Sonic Youth
  • Women as Lovers / Xiu Xiu
  • Offend Maggie / Deerhoof
  • Inherit / Free Kitten
  • Fleet Foxes / Fleet Foxes

今年リリース以外の CD も合わせると、全部で20枚ほど買ってる。これも今までより大幅に少ない。去年は70枚以上買ってた。聞く枚数が少ないと、新しいものに出会うことも少ない。今年新しくお気に入りになったのは、Juana Molina (Son), Metric (Live It Out), Unrest (Imperial F.F.R.R.) あたり。

今年はこれで

よいお年を。

今年の写真。

2008-12-21

久しぶりにプログラム的なものを。

MeCab Python バインディングの Windows 用インストーラ

MeCab の機能を Python から使えるようにするためのバインディングですが、配布元のソースは Windows だとうまくインストールできません。あれこれパラメータをいじって手作業でビルドするとなんとか動くようなものが作れますが、面倒です。そこで、Windows 用 Python 向けのインストーラを作成しました。

といっても、Python の distutil の機能を使っただけだけど。

当然ですが、Windows 版 MeCab 本体がインストールされている必要があります。MeCab 本体については、Windows 用のインストーラが配布されています。

C:¥>python
Python 2.6.1 (r261:67517, Dec  4 2008, 16:51:00) [MSC v.1500 32 bit (Intel)] on
win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
>>> t = MeCab.Tagger()
>>> print t.parse('今日もしないとね')
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
も      助詞,係助詞,*,*,*,*,も,モ,モ
し      動詞,自立,*,*,サ変・スル,未然形,する,シ,シ
ない    助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS

>>>

ぱっと見は動いているようですが、どうでしょう。試された方は動作報告をいただけると助かります。

ダウンロード

注意!! このインストーラはまだよくテストされてません。ご自身の責任で使用してください。

MeCab Python 2.6 バインディング Windows インストーラ
mecab-python-0.97.win32-py2.6.exe
上のインストーラを作成するために書いたツール類
mecab-python-win-tools.zip

2008-12-18

「あたし状態遷移図」。はてなブックマークで知ったというのがちょっと悔しいけど、これにはやられた。すばらしい。

古文言語コード

ISO-639-3 には、Old Japanese として ojp という言語コードが規定されている!

マイクロソフトのボリュームライセンス管理サイトがきわめてわかりにくい

プロダクトキー一覧では、Office の Professional と Standard の区別が付かない。アホか。

アドビ、マイクロソフト (MSDN)、IBM(とレノボ)あたりのサイトは何度リニューアルしてもさっぱり使いやすくならない。そのくせ「サイト改善のためのアンケートにご協力ください」とかいうポップアップはしょっちゅう出してくる。なにか根本的なところで間違っているとしか思えない。

ストリートファイターIV

以前「筐体間でTCP/IPとかで通信してるんじゃないだろうな」って書いたけど、やっぱりそうだった。今時はみんなそうだよね。

先日、対戦してたら「通信エラー」というのが出てゲームが操作不能になってしまった。店員が来て再起動させてたけど、起動中 192.168.*.*** という IP アドレスが出てた。ちなみに OS は組み込みの Windows ぽかった。

2008-12-14

今日は全般的にもやもやした話。

よくウニとかシャコとかを前に「これ最初に食ったやつすげえよな」なんて言ったり、食べられるキノコはどうやって見つけたんだなんていう話をするけど、考えてみると最初に食ったときにヒトだったとは限らないよね。食物についての情報は生命にとって優先度が高いから、ヒトがヒトになるよりはるか前に知ってたかもしれない。

と、思ったけど、現生人類がアフリカから広まったのなら、まさか最初からシャコが食えるとは知ってなかったか。やっぱり最初に食ったやつがいたんだ!

でも「死への恐怖」とか「母親」とか「敵・味方」とか、人間そのものよりも歴史が古い基本的概念ってあると思うんだよね。

ディレクトリ名の単数形・複数形

URL もそうなんだけど、スクリプトとかデータの格納場所としてディレクトリに英語で名前をつけようというとき、単数形にするべきか複数形にするべきかで悩むことが一年に数回ほどある。

Windows のエクスプローラなんかでフォルダを開いてると、「これは写真を入れるとこだから Photos だな」といった感じでなんとなく複数形のほうがしっくりくる。Windows も Mac も、UsersDocumentsPictures だし。もっとも、この辺のファイルやフォルダは日本語で名前つけちゃっても問題ないので、「自然言語で命名」という意識がそうさせてるのかも。

しかしプログラムを格納したり、サイトで URL になるようなディレクトリだと、パス名を意識するので単数形のほうがいいような気もする。などと言いつつ、emptypage.jp では /stylesheets/ とか /translations/ とか、ぜんぶ複数形にしちゃったけど。いまなら単数形にすることだろうけど、もう遅い。

考えてみると、「何が入っているのか」を説明するという発想の命名規則と、雑多なファイル群を分類するという発想の命名規則があって、前者なら複数形、後者なら単数形で名付けているということなのかもしれない。だけど慣習やその場の判断も大きくて(datum なんてディレクトリにはしないでしょ)、やっぱりその都度考えてしまうのであった。まさに時間の無駄。

でも何も考えないとたいてい複数形にしちゃうなあ。tools とか。

変数名の単数形・複数形

単数形・複数形といえば、プログラムの変数名でも変なことで悩んだりする。ツリー状にオブジェクトを組むとき、子ノードはだいたい child とかにして代入・操作するわけですが、それを格納するリストをどうするか。children とすると、なんか妙な感じがする。で、悩んだあげくに childnodes とか、長い名前になってしまう。まさに時間の無駄。

源氏物語

何人かに話を聞いてみると、やはりというべきなのか意外とというべきなのかわかんないけど、源氏物語に対して、「華やかな貴族文化と恋愛模様」という王道のイメージで好感持ってる女性は少なくないのね。男性の場合は、これは聞いてまわったわけじゃないけど、源氏物語に対するおおかたのイメージとしては、「とくになし」というのが大半だと思う。

貴族文化と恋愛模様なんて趣味はいまどきはみんな軽蔑してるのかと思ってた。自分がひねくれて考えすぎていたか。

戦国時代には、各国の武将がこぞって連歌師を呼んで源氏の講釈を聞いたとか。これは戦国武将たちの貴族文化へのあこがれとしては理解できるけど、なんだかおかしな光景だ。

一条兼良という人は、毎年、その年の初めに源氏物語の「若菜」の巻を朗読していたとか。それで「めでたい」とか言ってたんだろうか。

「あさきゆめみし」なんかは源氏物語を恋愛物語としてとらえているように見えるけど。平安時代の婚姻を恋愛と考えると、どこかで齟齬をきたすような気がする。

赤染衛門集とか蜻蛉日記とかを見ると、男が女の元に文を出すが、女の側が親なり女房なりの代筆で「まだもののよくわからない子供ですから」と断る、といった似たようなシチュエーションが出てくる。だけどこれ、男のほうは女の顔もまだ知らないんだぜ。どこからか、あそこに若い女がいるというのを聞きつけて、それで何度も熱烈な歌を書いてよこしてくる。そういう場面からは、自分はもうギラギラした男の欲情しか感じないんだけど。これを現代の意味で恋愛とはいえないでしょう。

だからけっきょく、その時代時代でみんな興味のあることにかこつけていろんな読み方で源氏物語は消費されてきたということなんだけど、どれも紫式部日記の内省的な感じとはギャップがありすぎて、そこが気になる。樋口一葉なんかはどう読んでたんだろうか。