より高速なchardet、cchardetをリリースしました
以前の投稿にchardetがあまりにも遅いと嘆いていました。
これも何かの縁だと思い、Cythonの練習がてら、さっそくcchardetをリリースさせて頂きました!
ベンチを取ったのですが、C拡張なだけあってかなり早い結果が出ました。
chardetが4.009999990463257秒で検出したのに対し、cchardetは0.0009999275207519531秒と実に4000倍!(計算あっているか不安w)
割かし満足しています。
ただ不満もありまして、chardetはconfidenceを出力できるのに対し、cchardetはencodingしか吐きません。
これはcharsetdetectライブラリ側の問題なのですが、いずれソースをいじって得られるようにしたいと考えています。
もう1つはビルド環境がWindowsでしかおこなっていないため、setup.pyをもう少々柔軟なものに変えないと他のプラットフォームで扱えないことです。
この2つは時間があるときに修正していきたいと思います。
ではでは
追記 2012,06/20,22:39
linuxもビルドできるように修正しました。 Ubuntu 12.04 64bit環境で確認
追記 2012,07/07,14:35
confidenceを取得できるようにしました。