2013年1月17日木曜日

Solr4.0起動時のエラー

Solr4.0起動時のエラーのメモ

solr3.6の起動時のエラー:org.apache.solr.common.SolrException: undefined field text

solr4.0から導入された_version_フィールド

LimitTokenCountFilterFactory config parsing is totally broken

さくらVPS CentOS6.2でSolr4.0を使って「魔法少女まどか☆マギカ」の台詞を全文検索

転職した後輩に「プログラマたるもの、アニメかゲームをやるもの。」と以前怒られたので、タイトルのとおり、チャレンジしてみた。
  1. Solr 4.0 のインストール
  2. 細かい設定は、さくらVPS CentOS6.2でSolr4.0のチュートリアルに従って設定済みのため、詳細は割愛する。

  3. ディレクトリの用意


  4. 不要ファイルの削除


  5. solr.xmlの編集
  6. 以下のとおりになっていることを確認する。

    defaultCoreName="madmagi"
    core name="madmagi"
    instanceDir="madmagi"


  7. schema.xmlの編集


  8. 以下の内容をコピペする。

    Ctrl+Cで終了する。




  9. solrconfig.xmlの編集
  10. 今回は、特に実施しない。
    (1/31追記)solrconfig.xmlを編集する。
    以下をコメントアウトする。


  11. solrの起動


  12. beautifulsoupのインストール
  13. 別ターミナルを開いて、beautifulsoupのインストールをする。

  14. インストール魔法少女まどか☆マギカの台詞のデータをダウンロード
  15. Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみたを参考に、台詞をjsonで保存する。

    以下の内容をコピペする。

    Ctrl+Cで終了する。



    以下のスクリプトを実行する。




    出力結果を確認する。








  16. solrの起動


  17. madmagiのデータインポート
  18. 別ターミナルを開いて、データのインポートをする。

  19. 管理コンソールの起動
  20. ブラウザから、「http://IPアドレス:8983/solr/#/madmagi/query」を起動し、管理コンソールから検索できるか確認する。