2012年11月20日火曜日

さくらVPS CentOS6.2でSolr4.0にwikipediaのデータを投入

  1. Solrのインストール
  2. SolrにWikipediaのデータを入れて遊ぶを参考にさせていただいた。以下、設定内容。


  3. Solr 4.0 のインストール
  4. 細かい設定は、さくらVPS CentOS6.2でSolr4.0のチュートリアルに従って設定済みのため、詳細は割愛する。

  5. Wikipedia用ディレクトリの用意


  6. 不要ファイルの削除


  7. solr.xmlの編集
  8. 以下のとおりになっていることを確認する。

    defaultCoreName="wikipedia"
    core name="wikipedia"
    instanceDir="wikipedia"


  9. schema.xmlの編集
  10. (1/31追記)SyntaxHighlighter内のソース記載が壊れていたため修正。
    以下の内容をコピペする。

    Ctrl+Cで終了する。


    削除されている項目もあったたため、サンプルのschema.xmlのコメントを参照しながら、設定する。 maxFieldLengthの代わりに設定するはずだった、solr.LimitTokenCountFilterFactoryは、JIRAに不具合が報告されているようなので、ひとまずコメントアウトする。

    LimitTokenCountFilterFactory config parsing is totally broken
    (1/31追記)SyntaxHighlighter内のソース記載が壊れていたため修正。
    solr4.0から導入された_version_フィールドを設定しないと起動時に異常終了する。


  11. solrconfig.xmlの編集
  12. 今回は、特に実施しない。
    (1/31追記)solrconfig.xmlを編集する。
    以下をコメントアウトする。



  13. solrの起動



  14. wikipediaのデータをダウンロード



  15. Javaソース(PagesArticlesXmlParser.java)の設置
  16. Ctrl+Cで終了する。

    grepcodeで調べたところ、CommonsHttpSolrServerは、solr-solrj 3.6.1までのようなので、HttpSolrServerに変更した。




  17. Javaソース(WikipediaModel.java)の設置
  18. Ctrl+Cで終了する。





  19. クラスファイルの生成



  20. Wikipediaのデータインポート



  21. 管理コンソールの起動
  22. ブラウザから、「http://IPアドレス:8983/solr/#/wikipedia/query」を起動し、管理コンソールから検索できるか確認する。