中身

私ようの日記、  読んでも理解なんて出来るわけがない..っと

今日したこと

 青空文庫に掲載されている夢野久作のテキストのインディックスを作成する。  テキストごと と 夢野久作についてのインデックスを作成する

圧縮

 簡易ではあるのだけれども NGram用のインディックスを作成しました
 これです

  もう少しハッシュを用いるとか、他の indexerの性能だとか、  を調べた上で使用したかったが、思うように情報を探し出すことが出来なかった。      取れあえずは、現状のものを使用することにした。      ちなみにZIPで圧縮すると 元のテキストの10倍程度のデータとなります。   (自分用       ZIP圧縮がファイル単位で圧縮することを考えると、どこできるのかが   結構難しい たしか、数kbyteごとハフマン木更新しているはずだから   あまり、小さいデータを1ノードとしてみても返って圧縮されることは難しいだろう。     しかし、20kのテキスト× 4000冊として、 80000kbyteとして    圧縮後そうインデイッスクスは最悪800MByteとなり、メモリーがすごいことに成っている。   もちろんステレージ上でほとんどの処理は扱うが、...         それとも スライド辞書の部分で圧縮されているのだろうか   )

楽天モバイル[UNLIMITが今なら1円] ECナビでポインと Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!


無料ホームページ 無料のクレジットカード 海外格安航空券 解約手数料0円【あしたでんき】 海外旅行保険が無料! 海外ホテル