今週知ったこと。走ってる Python インタプリタの unicode 内部実装が narrow (16bit UCS-2) か wide (32bit UCS-4) かを知る方法: sys.maxunicode
を見る。
ucd.py 0.5.0 を公開。今週できたとこまでの中間報告という感じ。来週もやるよー。
こまごまと進めていったら、sentence break とか分割をカスタマイズ可能にするとか、面倒だと思ってたところができてしまったのでちょっと嬉しい。
そろそろモジュールの名前を変えたい。ucd
というのは、Line_Break 属性を返す関数などがあるので最初は unicodedata モジュールに近いものかと思って “Unicode Character Database” からとっていたもの。しかしだんだん方向性が見えてきて、違う名前のほうが相応しいような気がしてきた。いま思ってるのは、これは文字列をいろいろな境界で分割する機能(segmentation)を提供しているものと言えるので、textseg
か uniseg
なんてどうかな、と。UAX #29 も “Unicode Text Segmentation” だしね(UAX #14: Unicode Line Breaking Algorithm とかも扱ってるけど)。あと ucd.codepoint
とかのサブモジュールは廃止予定。廃止というか、ルート・パッケージでぜんぶ import
してしまう。関数名が長くなって取っつきにくい。