From ngoto ＠ gen-info.osaka-u.ac.jp  Wed Jun  1 09:45:38 2005
From: ngoto ＠ gen-info.osaka-u.ac.jp (GOTO Naohisa)
Date: Wed Jun  1 09:47:26 2005
Subject: [BioRuby-ja] Bio::Blast::Default::Report.to_s (format0)
In-Reply-To: <bf4903396ac5e04438398e4e34cb8ac1@kenroku.kanazawa-u.ac.jp>
References: <bf4903396ac5e04438398e4e34cb8ac1@kenroku.kanazawa-u.ac.jp>
Message-ID: <200506011350.j51DoR3J002084@idns103.gen-info.osaka-u.ac.jp>

後藤です。

On Wed, 1 Jun 2005 10:18:28 +0900
Tomoaki NISHIYAMA <tomoakin@kenroku.kanazawa-u.ac.jp> wrote:

> 多数のblastの結果がまとまっているファイルを分割したり、
> 特定の条件を満たす結果をそのまま抽出したりすることを考えると、
> Bio::Blast::Default::Report.to_sでそのまま、
> 一個分の結果を返すようになっていると便利だと思います。

BLASTに関しては、作った当初はメモリ使用量増加を憂慮して、敢えて
そうしなかったのですが、やはり便利だと思うので追加したいと思います。

それに、BLAST以外の他のパーサでも、そうしたほうがいいかもしれませんね。
現状どうなっているのか調べてみます。

-- 
後藤 直久  ngoto@gen-info.osaka-u.ac.jp
大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研)
From ktym ＠ hgc.jp  Tue Jun 21 03:54:26 2005
From: ktym ＠ hgc.jp (Toshiaki Katayama)
Date: Tue Jun 21 03:46:07 2005
Subject: [BioRuby-ja] =?iso-2022-jp?b?GyRCTCRGJxsoQg==?=
Message-ID: <B8A1D7F8-2308-414C-84A1-7C7CF6BF9097@hgc.jp>

皆様

この度、BioRuby/ChemRuby プロジェクトが IPA の未踏ソ 
フトウェア創造事業に
採択され、本日プレスリリースされました。

   プレスリリース
   http://www.ipa.go.jp/about/press/20050621.html

   公募結果
   http://www.ipa.go.jp/jinzai/esp/2005mito1/koubokekka.html

   採択案件概要
   http://www.ipa.go.jp/jinzai/esp/2005mito1/gaiyou/10-26.html

BioRuby プロジェクトが始まってから５年近くになりますが、最近はま 
とまった
時間がとれずドキュメントの整備不足や開発の停滞が問題となっていま 
した。

これを機に、本年度はドキュメント整備、機能強化に力を入れていきた 
いと思います。
このため、開発合宿（BioRuby/ChemRuby Hackathon？）等を開催 
する予定です。

他に、オープンバイオ研究会との連携でチュートリアルを開催するなど、
開発成果のフィードバックにも取り組んでいきたいと思っています。

BioRuby/ChemRuby が少しでも良いものになるよう開発者一同頑張って 
いきますので、
よろしくお願いします。

片山

From tanaka ＠ kuicr.kyoto-u.ac.jp  Thu Jun 30 03:50:10 2005
From: tanaka ＠ kuicr.kyoto-u.ac.jp (Nobuya Tanaka)
Date: Thu Jun 30 03:41:33 2005
Subject: [BioRuby-ja] =?iso-2022-jp?b?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?=
	=?iso-2022-jp?b?Y3Q=?=
Message-ID: <42C3A432.3080704@kuicr.kyoto-u.ac.jp>

田中伸也です。

Flatfile (flatfile.rb)でお願いがあります。

現在のFlatfileではautodetectにそれぞれのファイルフォーマット(GenBankな
ど）を認識するコードがflatfile.rbに書かれていますが、これをそれぞれの
フォーマットごとのライブラリのメソッド呼び出しにしていただけませんか？

ユーザーがFlatfileを使ったカスタムのパーザーを作ることが簡単になると思い
ます。

# ChemrubyもFlatfileを使って実装したのですが、
# autodetectが変更できないため利用をあきらめた経緯があります。

# flatfile.rb

module Bio
  BioFormatReg = []
  class Flatfile
    def self.autodetect(text)
      BioFormatReg.find do |format|
        format.detect(text)
      end
    end
  end
end

# genpept.rb

module Bio
  class GenPept
    def self.detect text
      /^LOCUS       .+ aa .+/.match(text)
    end
  end
  BioFormatReg << GenPept
end


p Bio::Flatfile.autodetect("LOCUS       NP_000048               1417 aa
           linear   PRI 21-JUN-2005")


-- 
----------
[+] cp
TANAKA Nobuya
Tel (Home) +81-6-6352-2031
Fax (Home) +81-6-6352-2031
Tel (Kyoto Univ.) +81-774-38-3296
Skype callto:nobuyat
Email tanaka@kuicr.kyoto-u.ac.jp
　　　　nobuya.tanaka@gmail.com

From ngoto ＠ gen-info.osaka-u.ac.jp  Thu Jun 30 09:51:38 2005
From: ngoto ＠ gen-info.osaka-u.ac.jp (GOTO Naohisa)
Date: Thu Jun 30 09:42:51 2005
Subject: [BioRuby-ja] =?ISO-2022-JP?B?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?=
	=?ISO-2022-JP?B?Y3Q=?=
In-Reply-To: <42C3A432.3080704@kuicr.kyoto-u.ac.jp>
References: <42C3A432.3080704@kuicr.kyoto-u.ac.jp>
Message-ID: <200506301342.j5UDghPB014498@portal.open-bio.org>

後藤です。

On Thu, 30 Jun 2005 16:50:10 +0900
Nobuya Tanaka <tanaka@kuicr.kyoto-u.ac.jp> wrote:

> 田中伸也です。
> 
> Flatfile (flatfile.rb)でお願いがあります。
> 
> 現在のFlatfileではautodetectにそれぞれのファイルフォーマット(GenBankな
> ど）を認識するコードがflatfile.rbに書かれていますが、これをそれぞれの
> フォーマットごとのライブラリのメソッド呼び出しにしていただけませんか？
> 
> ユーザーがFlatfileを使ったカスタムのパーザーを作ることが簡単になると思い
> ます。

将来的にはそのようにしないといけないなあと考えていました。

現状では、case文で順番に正規表現マッチを試すという基本構造ですが、
実は、この正規表現マッチの順番が肝になっているのです。
配列データベースのファイル形式はけっこう微妙に似ているものが多いので、
正規表現の順番を変えると、誤認識する場合が増えてしまいます。
もっとも、それは、優先順位付きにすれば何とかなるとは思います。

ちなみに、自動認識できなくてもよいのなら、

  class MyData
    DELIMITER = "__END_OF_DATA__\n"
    def initialize(str)
      (中略)
    end
  end
  ff = Bio::FlatFile.open(MyData, filename)

みたいな感じで、DELIMITERとinitializeさえ定義すればOKです。

ついでに便乗すると、この、DELIMITER までを読み込むという読み込み部分も
そろそろ限界に達しているので、何とかしたいと思っています。
他には、データの出力に関しても検討中。

-- 
後藤 直久  ngoto@gen-info.osaka-u.ac.jp
From tanaka ＠ kuicr.kyoto-u.ac.jp  Thu Jun 30 21:21:25 2005
From: tanaka ＠ kuicr.kyoto-u.ac.jp (Nobuya Tanaka)
Date: Thu Jun 30 21:12:50 2005
Subject: [BioRuby-ja] =?ISO-2022-JP?B?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?=
	=?ISO-2022-JP?B?Y3Q=?=
In-Reply-To: <200506301342.j5UDghPB014498@portal.open-bio.org>
References: <42C3A432.3080704@kuicr.kyoto-u.ac.jp>
	<200506301342.j5UDghPB014498@portal.open-bio.org>
Message-ID: <42C49A95.6030101@kuicr.kyoto-u.ac.jp>

田中です。

> 後藤です。
中略
> 将来的にはそのようにしないといけないなあと考えていました。
> 
> 現状では、case文で順番に正規表現マッチを試すという基本構造ですが、
> 実は、この正規表現マッチの順番が肝になっているのです。
> 配列データベースのファイル形式はけっこう微妙に似ているものが多いので、
> 正規表現の順番を変えると、誤認識する場合が増えてしまいます。
> もっとも、それは、優先順位付きにすれば何とかなるとは思います。

なるほど。そういう問題があったんですね。
ただ自動認識は魅力的な機能で、よく使われていると思うのでぜひ前向きに検討
していただければと思います。

もしやるとすれば、具体的にはデータベースから認識に利用している部分だけを
網羅的に抜き出し、UnitTestを自動生成、その中から自動認識の難しいものを付
属するとして、すべてのテストが成功するまで優先順位と正規表現を工夫すると
いうことになるのでしょうか。

後藤さんが作られていないのならば、テストケースを作ってみたいと思います。
# bioruby付属のtestにはまだ含まれてないようですね。

> ちなみに、自動認識できなくてもよいのなら、
> 
>   class MyData
>     DELIMITER = "__END_OF_DATA__\n"
>     def initialize(str)
>       (中略)
>     end
>   end
>   ff = Bio::FlatFile.open(MyData, filename)
> 
> みたいな感じで、DELIMITERとinitializeさえ定義すればOKです。
> 
> ついでに便乗すると、この、DELIMITER までを読み込むという読み込み部分も
> そろそろ限界に達しているので、何とかしたいと思っています。
> 他には、データの出力に関しても検討中。
> 

Small compoundのデータにはDELIMITERの情報を廃棄したくない場合や正規表現
で書きたい場合、もっと複雑な条件で書きたい場合もあるのでできればブロック
でentryの区切り条件を指定できるようにしていただければうれしいです。

-- 
----------
[+] cp
TANAKA Nobuya
Tel (Home) +81-6-6352-2031
Fax (Home) +81-6-6352-2031
Tel (Kyoto Univ.) +81-774-38-3296
Skype callto:nobuyat
Email tanaka@kuicr.kyoto-u.ac.jp
　　　　nobuya.tanaka@gmail.com