From ngoto @ gen-info.osaka-u.ac.jp Wed Jun 1 09:45:38 2005 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Wed Jun 1 09:47:26 2005 Subject: [BioRuby-ja] Bio::Blast::Default::Report.to_s (format0) In-Reply-To: References: Message-ID: <200506011350.j51DoR3J002084@idns103.gen-info.osaka-u.ac.jp> 後藤です。 On Wed, 1 Jun 2005 10:18:28 +0900 Tomoaki NISHIYAMA wrote: > 多数のblastの結果がまとまっているファイルを分割したり、 > 特定の条件を満たす結果をそのまま抽出したりすることを考えると、 > Bio::Blast::Default::Report.to_sでそのまま、 > 一個分の結果を返すようになっていると便利だと思います。 BLASTに関しては、作った当初はメモリ使用量増加を憂慮して、敢えて そうしなかったのですが、やはり便利だと思うので追加したいと思います。 それに、BLAST以外の他のパーサでも、そうしたほうがいいかもしれませんね。 現状どうなっているのか調べてみます。 -- 後藤 直久 ngoto@gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From ktym @ hgc.jp Tue Jun 21 03:54:26 2005 From: ktym @ hgc.jp (Toshiaki Katayama) Date: Tue Jun 21 03:46:07 2005 Subject: [BioRuby-ja] =?iso-2022-jp?b?GyRCTCRGJxsoQg==?= Message-ID: 皆様 この度、BioRuby/ChemRuby プロジェクトが IPA の未踏ソ フトウェア創造事業に 採択され、本日プレスリリースされました。 プレスリリース http://www.ipa.go.jp/about/press/20050621.html 公募結果 http://www.ipa.go.jp/jinzai/esp/2005mito1/koubokekka.html 採択案件概要 http://www.ipa.go.jp/jinzai/esp/2005mito1/gaiyou/10-26.html BioRuby プロジェクトが始まってから5年近くになりますが、最近はま とまった 時間がとれずドキュメントの整備不足や開発の停滞が問題となっていま した。 これを機に、本年度はドキュメント整備、機能強化に力を入れていきた いと思います。 このため、開発合宿(BioRuby/ChemRuby Hackathon?)等を開催 する予定です。 他に、オープンバイオ研究会との連携でチュートリアルを開催するなど、 開発成果のフィードバックにも取り組んでいきたいと思っています。 BioRuby/ChemRuby が少しでも良いものになるよう開発者一同頑張って いきますので、 よろしくお願いします。 片山 From tanaka @ kuicr.kyoto-u.ac.jp Thu Jun 30 03:50:10 2005 From: tanaka @ kuicr.kyoto-u.ac.jp (Nobuya Tanaka) Date: Thu Jun 30 03:41:33 2005 Subject: [BioRuby-ja] =?iso-2022-jp?b?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?= =?iso-2022-jp?b?Y3Q=?= Message-ID: <42C3A432.3080704@kuicr.kyoto-u.ac.jp> 田中伸也です。 Flatfile (flatfile.rb)でお願いがあります。 現在のFlatfileではautodetectにそれぞれのファイルフォーマット(GenBankな ど)を認識するコードがflatfile.rbに書かれていますが、これをそれぞれの フォーマットごとのライブラリのメソッド呼び出しにしていただけませんか? ユーザーがFlatfileを使ったカスタムのパーザーを作ることが簡単になると思い ます。 # ChemrubyもFlatfileを使って実装したのですが、 # autodetectが変更できないため利用をあきらめた経緯があります。 # flatfile.rb module Bio BioFormatReg = [] class Flatfile def self.autodetect(text) BioFormatReg.find do |format| format.detect(text) end end end end # genpept.rb module Bio class GenPept def self.detect text /^LOCUS .+ aa .+/.match(text) end end BioFormatReg << GenPept end p Bio::Flatfile.autodetect("LOCUS NP_000048 1417 aa linear PRI 21-JUN-2005") -- ---------- [+] cp TANAKA Nobuya Tel (Home) +81-6-6352-2031 Fax (Home) +81-6-6352-2031 Tel (Kyoto Univ.) +81-774-38-3296 Skype callto:nobuyat Email tanaka@kuicr.kyoto-u.ac.jp     nobuya.tanaka@gmail.com From ngoto @ gen-info.osaka-u.ac.jp Thu Jun 30 09:51:38 2005 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Thu Jun 30 09:42:51 2005 Subject: [BioRuby-ja] =?ISO-2022-JP?B?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?= =?ISO-2022-JP?B?Y3Q=?= In-Reply-To: <42C3A432.3080704@kuicr.kyoto-u.ac.jp> References: <42C3A432.3080704@kuicr.kyoto-u.ac.jp> Message-ID: <200506301342.j5UDghPB014498@portal.open-bio.org> 後藤です。 On Thu, 30 Jun 2005 16:50:10 +0900 Nobuya Tanaka wrote: > 田中伸也です。 > > Flatfile (flatfile.rb)でお願いがあります。 > > 現在のFlatfileではautodetectにそれぞれのファイルフォーマット(GenBankな > ど)を認識するコードがflatfile.rbに書かれていますが、これをそれぞれの > フォーマットごとのライブラリのメソッド呼び出しにしていただけませんか? > > ユーザーがFlatfileを使ったカスタムのパーザーを作ることが簡単になると思い > ます。 将来的にはそのようにしないといけないなあと考えていました。 現状では、case文で順番に正規表現マッチを試すという基本構造ですが、 実は、この正規表現マッチの順番が肝になっているのです。 配列データベースのファイル形式はけっこう微妙に似ているものが多いので、 正規表現の順番を変えると、誤認識する場合が増えてしまいます。 もっとも、それは、優先順位付きにすれば何とかなるとは思います。 ちなみに、自動認識できなくてもよいのなら、 class MyData DELIMITER = "__END_OF_DATA__\n" def initialize(str) (中略) end end ff = Bio::FlatFile.open(MyData, filename) みたいな感じで、DELIMITERとinitializeさえ定義すればOKです。 ついでに便乗すると、この、DELIMITER までを読み込むという読み込み部分も そろそろ限界に達しているので、何とかしたいと思っています。 他には、データの出力に関しても検討中。 -- 後藤 直久 ngoto@gen-info.osaka-u.ac.jp From tanaka @ kuicr.kyoto-u.ac.jp Thu Jun 30 21:21:25 2005 From: tanaka @ kuicr.kyoto-u.ac.jp (Nobuya Tanaka) Date: Thu Jun 30 21:12:50 2005 Subject: [BioRuby-ja] =?ISO-2022-JP?B?RmxhdGZpbGUbJEIkThsoQmF1dG9kZXRl?= =?ISO-2022-JP?B?Y3Q=?= In-Reply-To: <200506301342.j5UDghPB014498@portal.open-bio.org> References: <42C3A432.3080704@kuicr.kyoto-u.ac.jp> <200506301342.j5UDghPB014498@portal.open-bio.org> Message-ID: <42C49A95.6030101@kuicr.kyoto-u.ac.jp> 田中です。 > 後藤です。 中略 > 将来的にはそのようにしないといけないなあと考えていました。 > > 現状では、case文で順番に正規表現マッチを試すという基本構造ですが、 > 実は、この正規表現マッチの順番が肝になっているのです。 > 配列データベースのファイル形式はけっこう微妙に似ているものが多いので、 > 正規表現の順番を変えると、誤認識する場合が増えてしまいます。 > もっとも、それは、優先順位付きにすれば何とかなるとは思います。 なるほど。そういう問題があったんですね。 ただ自動認識は魅力的な機能で、よく使われていると思うのでぜひ前向きに検討 していただければと思います。 もしやるとすれば、具体的にはデータベースから認識に利用している部分だけを 網羅的に抜き出し、UnitTestを自動生成、その中から自動認識の難しいものを付 属するとして、すべてのテストが成功するまで優先順位と正規表現を工夫すると いうことになるのでしょうか。 後藤さんが作られていないのならば、テストケースを作ってみたいと思います。 # bioruby付属のtestにはまだ含まれてないようですね。 > ちなみに、自動認識できなくてもよいのなら、 > > class MyData > DELIMITER = "__END_OF_DATA__\n" > def initialize(str) > (中略) > end > end > ff = Bio::FlatFile.open(MyData, filename) > > みたいな感じで、DELIMITERとinitializeさえ定義すればOKです。 > > ついでに便乗すると、この、DELIMITER までを読み込むという読み込み部分も > そろそろ限界に達しているので、何とかしたいと思っています。 > 他には、データの出力に関しても検討中。 > Small compoundのデータにはDELIMITERの情報を廃棄したくない場合や正規表現 で書きたい場合、もっと複雑な条件で書きたい場合もあるのでできればブロック でentryの区切り条件を指定できるようにしていただければうれしいです。 -- ---------- [+] cp TANAKA Nobuya Tel (Home) +81-6-6352-2031 Fax (Home) +81-6-6352-2031 Tel (Kyoto Univ.) +81-774-38-3296 Skype callto:nobuyat Email tanaka@kuicr.kyoto-u.ac.jp     nobuya.tanaka@gmail.com