ラベル Solr の投稿を表示しています。 すべての投稿を表示
ラベル Solr の投稿を表示しています。 すべての投稿を表示

2015年4月20日月曜日

Solr4系とSolr5系の違い

2015/02/20に Apache Solr 5.0.0
2015/04/14に Apache Solr 5.1.0
2015/06/07に Apache Solr 5.2.0
2015/06/15に Apache Solr 5.2.1
がリリースされている。

個人的には、
Apache Solr 5.2.0以降で、Jetty 9が採用されている
また、
Apache Solr 5.2.0以前のBug Fixesの件数が多い
ため、
Apache Solr 5.2.1以降を採用する予定。


20 February 2015 - Apache Solr 5.0.0 and Reference Guide for 5.0 available http://lucene.apache.org/solr/news.html#20-february-2015-apache-solr-500-and-reference-guide-for-50-available
Apache Solr Release Notes http://lucene.apache.org/solr/5_0_0/changes/Changes.html
14 April 2015 - Apache Solr 5.1.0 Available http://lucene.apache.org/solr/news.html#14-april-2015-apache-solr-510-available
Apache Solr Release Notes http://lucene.apache.org/solr/5_1_0/changes/Changes.html
7 June 2015 - Apache Solr 5.2.0 and Reference Guide for 5.2 available http://lucene.apache.org/solr/news.html#7-june-2015-apache-solr-520-and-reference-guide-for-52-available
Apache Solr Release Notes http://lucene.apache.org/solr/5_2_0/changes/Changes.html
15 June 2015, Apache Solr 5.2.1 available http://lucene.apache.org/solr/news.html#15-june-2015-apache-solr-521-available
Apache Solr Release Notes http://lucene.apache.org/solr/5_2_1/changes/Changes.html


リファレンスガイドの最新版は以下で公開されている。

Apache Solr Reference Guide (pdf) http://ftp.kddilabs.jp/infosystems/apache/lucene/solr/ref-guide/
Apache Solr Reference Guide https://cwiki.apache.org/confluence/display/solr/Apache+Solr+Reference+Guide


メジャーバージョンアップに伴い、非推奨またはサポート対象外の項目も多いので注意が必要。

Solr is Now a Standalone Server

  • Beginning with Solr 5.0, Solr is no longer distributed as a "war" (Web Application Archive) suitable for deployment in any Servlet Container.
  • Solr 5.0からは、サーブレットコンテナに対するデプロイに適しているwar形式でのディストリビューションは実施していない。
  • Deployment as a "webapp" to other Servlet Containers (or other instances of Jetty) is not supported,
  • 他のサーブレットコンテナ(または、jetty以外のインスタンス)へのwebappとしてのデプロイはサポートされない。

Index Format

  • Solr 5 has no support for reading Lucene/Solr 3.x and earlier indexes.
  • Solr 5 は Lucene/Solr 3.x 以前のインデックスの読み込みをサポートしていない。

solr.xml Format

  • Solr 5.0 has eliminated all support for the older solr.xml format, and moved entirely to core discovery.
  • Solr 5.0 は、(Solr 4.3以前の古い) solr.xml フォーマットに対する全てのサポートを排除した。

Collections API

  • Solr 5.0 only supports creating and removing SolrCloud collections through the Collections API, unlike previous versions.
  • これまでのバージョンと違い、Solr 5.0 は コレクションAPIを経由した、SolrCloud コレクションの作成または削除のみ、サポートする。

SolrJ changes

  • Many SolrJ methods that were marked deprecated in Solr 4.10 have been removed.
  • Solr 4.10で非推奨となった、多数のSolrJ メソッドが削除された。
Major Changes from Solr 4 to Solr 5 https://cwiki.apache.org/confluence/display/solr/Major+Changes+from+Solr+4+to+Solr+5
Moving to the New solr.xml Format https://cwiki.apache.org/confluence/display/solr/Moving+to+the+New+solr.xml+Format
Upgrading a Solr 4.x Cluster to Solr 5.0 https://cwiki.apache.org/confluence/display/solr/Upgrading+a+Solr+4.x+Cluster+to+Solr+5.0


javaのバグがあるため、Apache Solr 4.8 以降は、Java 7u55以上が推奨。
  • The recently released Java 7u55 fixes the above bug causing index corrumption. This version is now the recommended version for running Apache Solr.
12 March 2014 - Apache Solr 4.8 will require Java 7 https://lucene.apache.org/solr/news.html#12-march-2014-apache-solr-48-will-require-java-7

2013年1月17日木曜日

Solr4.0起動時のエラー

Solr4.0起動時のエラーのメモ

solr3.6の起動時のエラー:org.apache.solr.common.SolrException: undefined field text

solr4.0から導入された_version_フィールド

LimitTokenCountFilterFactory config parsing is totally broken

さくらVPS CentOS6.2でSolr4.0を使って「魔法少女まどか☆マギカ」の台詞を全文検索

転職した後輩に「プログラマたるもの、アニメかゲームをやるもの。」と以前怒られたので、タイトルのとおり、チャレンジしてみた。
  1. Solr 4.0 のインストール
  2. 細かい設定は、さくらVPS CentOS6.2でSolr4.0のチュートリアルに従って設定済みのため、詳細は割愛する。

  3. ディレクトリの用意


  4. 不要ファイルの削除


  5. solr.xmlの編集
  6. 以下のとおりになっていることを確認する。

    defaultCoreName="madmagi"
    core name="madmagi"
    instanceDir="madmagi"


  7. schema.xmlの編集


  8. 以下の内容をコピペする。

    Ctrl+Cで終了する。




  9. solrconfig.xmlの編集
  10. 今回は、特に実施しない。
    (1/31追記)solrconfig.xmlを編集する。
    以下をコメントアウトする。


  11. solrの起動


  12. beautifulsoupのインストール
  13. 別ターミナルを開いて、beautifulsoupのインストールをする。

  14. インストール魔法少女まどか☆マギカの台詞のデータをダウンロード
  15. Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみたを参考に、台詞をjsonで保存する。

    以下の内容をコピペする。

    Ctrl+Cで終了する。



    以下のスクリプトを実行する。




    出力結果を確認する。








  16. solrの起動


  17. madmagiのデータインポート
  18. 別ターミナルを開いて、データのインポートをする。

  19. 管理コンソールの起動
  20. ブラウザから、「http://IPアドレス:8983/solr/#/madmagi/query」を起動し、管理コンソールから検索できるか確認する。

2012年11月20日火曜日

さくらVPS CentOS6.2でSolr4.0にwikipediaのデータを投入

  1. Solrのインストール
  2. SolrにWikipediaのデータを入れて遊ぶを参考にさせていただいた。以下、設定内容。


  3. Solr 4.0 のインストール
  4. 細かい設定は、さくらVPS CentOS6.2でSolr4.0のチュートリアルに従って設定済みのため、詳細は割愛する。

  5. Wikipedia用ディレクトリの用意


  6. 不要ファイルの削除


  7. solr.xmlの編集
  8. 以下のとおりになっていることを確認する。

    defaultCoreName="wikipedia"
    core name="wikipedia"
    instanceDir="wikipedia"


  9. schema.xmlの編集
  10. (1/31追記)SyntaxHighlighter内のソース記載が壊れていたため修正。
    以下の内容をコピペする。

    Ctrl+Cで終了する。


    削除されている項目もあったたため、サンプルのschema.xmlのコメントを参照しながら、設定する。 maxFieldLengthの代わりに設定するはずだった、solr.LimitTokenCountFilterFactoryは、JIRAに不具合が報告されているようなので、ひとまずコメントアウトする。

    LimitTokenCountFilterFactory config parsing is totally broken
    (1/31追記)SyntaxHighlighter内のソース記載が壊れていたため修正。
    solr4.0から導入された_version_フィールドを設定しないと起動時に異常終了する。


  11. solrconfig.xmlの編集
  12. 今回は、特に実施しない。
    (1/31追記)solrconfig.xmlを編集する。
    以下をコメントアウトする。



  13. solrの起動



  14. wikipediaのデータをダウンロード



  15. Javaソース(PagesArticlesXmlParser.java)の設置
  16. Ctrl+Cで終了する。

    grepcodeで調べたところ、CommonsHttpSolrServerは、solr-solrj 3.6.1までのようなので、HttpSolrServerに変更した。




  17. Javaソース(WikipediaModel.java)の設置
  18. Ctrl+Cで終了する。





  19. クラスファイルの生成



  20. Wikipediaのデータインポート



  21. 管理コンソールの起動
  22. ブラウザから、「http://IPアドレス:8983/solr/#/wikipedia/query」を起動し、管理コンソールから検索できるか確認する。

2012年10月23日火曜日

さくらVPS CentOS6.2でSolr4.0のチュートリアル

  1. Javaのインストール
  2. CentOSにJavaをインストール(with yum)を参考にさせていただいた。以下、設定内容。


  3. Java1.6のインストール

  4. 今回は、Java1.6をインストールする。


  5. Javaのバージョン確認


  6. 複数バージョンのJavaを切り替える場合は以下のコマンドで切り替える。


  7. Javaのシンボリックリンク作成


  8. JAVA_HOMEの設定


  9. .bashrcの読み込み


  10. Solr 4.0 のインストール
  11. Solr 4.0 Tutorialを参考に設定する。


  12. Solr 4.0 の起動

  13. ブラウザから、「http://IPアドレス:8983/solr/」を起動し、管理コンソールが起動するか確認する。

  14. iptablesの設定
  15. 管理コンソールが起動しない場合は、別ターミナルでiptablesの設定をする。

    以下のとおり「8983」ポートを許可するように設定しておくこと。

  16. iptablesの再起動


  17. ブラウザから、「http://IPアドレス:8983/solr/」を起動し、管理コンソールが起動するか確認する。

    以前(Solr 3.x系まで)と比べて、だいぶ見栄えが変わったように見える。
















  18. サンプルドキュメントのポスト(post.jar)


  19. サンプルドキュメントのポスト(post.sh)
  20. curlがインストールされているか確認する。インストールされていなければ、yumでインストールする。
    post.shでドキュメントをポストする。


  21. 管理コンソールからクエリ検索





  22. URLからクエリ指定