2013年2月24日日曜日

さくらVPS CentOS6.2でインターネット公報SGMLのスクレイピング

  1. インターネット商標公報のダウンロード
  2. 電子署名検証(TARP7→TAR形式)
  3. インターネット利用による公報発行サイトにも書いておいたが、Windowsのクライアント上で、あらかじめ、


    電子署名検証方法について(「特許庁公報電子署名検証プログラム」のダウンロード)


    に従って、プログラム本体のダウンロードと電子署名検証を一度は試しておき、取得した以下のファイルをインターネット商標公報(TARP7形式)と同一ディレクトリに格納する。


    ・電子署名検証して取得したルート証明書(例:JPT_2013006_01-01_root.der)
    ・p7verify.jar


    TARを解凍する。


  4. ruby1.9のインストール
  5. さくらVPS CentOS6.2にRuby(1.9.3-p392)をインストールでインストール済みの前提のため、割愛する。

    (2013/2/24追記)
    以下、Ruby 2.0.0-p0でも動くことを確認した。


  6. hpricotのインストール
  7. 一部のHTMLパーサはSGMLの簡単なパースなら出来る模様。
    不具合があるパターンがあれば、正規表現で抜くことになると思う。




  8. gazette.rbの編集
  9. サンプルとして、登録番号を取得するスクリプトを書いてみた。
    公報SGMLはeuc-jpなので、エンコーディング周りには注意が必要。


    各ファイルの詳細仕様については、公報仕様書を参照。2013年2月現在は、第8版が最新。
    公報仕様 意匠、商標、公開・国際商標、審決 第8版について




  10. gazette.rbの実行
  11. 以下のとおり表示されることを確認する。




0 件のコメント:

コメントを投稿