From tomoakin @ kenroku.kanazawa-u.ac.jp Wed Nov 15 08:18:03 2006 From: tomoakin @ kenroku.kanazawa-u.ac.jp (Tomoaki NISHIYAMA) Date: Wed, 15 Nov 2006 22:18:03 +0900 Subject: [BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container Message-ID: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> BioRubyの開発者の皆様 FlatFileでFastaNumericFormatを処理する時は、大抵、 核酸配列のファイルと組で処理することになっていて、 例えば、ベクターとマッチする領域を削るとか、quality valueが 低い、あるいは特定のパターンの配列領域を選ぶと言うような用途 に使いたいことが多いんじゃないかと思います。 そんなわけで、quality valueでも核酸でも、同じmethod 例えば subseqが使える方がいいし、配列はどちらでも、entry.seqでア クセス 出来る方が良いと思います。また、FastaFormatでは、 dataが 処理前のデータテキストを表すなら、FastaNumericFormatでも 同様になっているべきと感じます。 まあ、dataは既に公開して時が経っているので、 新しい名前にした方が良いかもしれませんが。 そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM を作ってみました。 なにぶん、書き出しが簡単に出来ないと不都合なので、definition, format_fastaをつけて ありますが、たぶん、これはBio::Sequenceのほうに作るように することが あるべき姿なんでしょうかね? おそらく、FlatFileの各エントリーをBio::Sequence型に 変換するmethodと Bio::Sequenceから、適当な形式へのFormat methodを用意して処 理しようというのが Bio::Sequenceをa container of rich sequence annotations にするという意図ですよね? @seq以外に@qualというinstance付きで、phredファ イルからあるいは、fasta, fasta.qual ファイルpairからBio::Sequenceに読み込むmethod と、 outputに加えoutputqualというmethodがあれば便利なのか なと考えております。 あるいはBio::Sequence::NAwithQualのようなクラスがあるべき なのかも。 ご意見が伺えれば幸いです。 # bioruby-1.0.1は結局出さないんでしょうか? -- 西山智明 金沢大学学際科学実験センター ゲノム機能解析分野 (920-0934 金沢市宝町13−1) ERATO長谷部分化全能性進化プロジェクト インフォマティクス・進化グループ Tomoaki NISHIYAMA Advanced Science Research Center, Kanazawa University, 13-1 Takara-machi Kanazawa, 920-0934 Japan tomoakin @ kenroku.kanazawa-u.ac.jp -------------- next part -------------- From ngoto @ gen-info.osaka-u.ac.jp Thu Nov 16 08:30:07 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Thu, 16 Nov 2006 22:30:07 +0900 Subject: [BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container In-Reply-To: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> References: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> Message-ID: <200611161329.kAGDTtuL004833@idns103.gen-info.osaka-u.ac.jp> 西山様 どうやら添付ファイルは経路途中で失われたようですので、お手数ですが、 できれば staff @ bioruby.org 宛に直接お送りいただけると幸いです。 > FlatFileでFastaNumericFormatを処理する時は、大抵、 > 核酸配列のファイルと組で処理することになっていて、 > 例えば、ベクターとマッチする領域を削るとか、quality valueが > 低い、あるいは特定のパターンの配列領域を選ぶと言うような用途 > に使いたいことが多いんじゃないかと思います。 > > そんなわけで、quality valueでも核酸でも、同じmethod > 例えば > subseqが使える方がいいし、配列はどちらでも、entry.seq > でアクセス出来る方が良いと思います。 整数(場合によっては小数も?)のArrayをString的に扱うこともやりたい、 という、主旨は理解できます。確かに、便利だと思います。 ちなみに、小数でゲノムスケールの巨大な配列を扱うにはNArrayが無いと 苦しいかもしれません。 > また、FastaFormatでは、 dataが > 処理前のデータテキストを表すなら、FastaNumericFormatでも > 同様になっているべきと感じます。 > まあ、dataは既に公開して時が経っているので、 > 新しい名前にした方が良いかもしれませんが。 data については、おっしゃるとおり、他のデータフォーマットと 統一した名前のメソッドにしたいなあと思います。 > そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM > を作ってみました。 > > なにぶん、書き出しが簡単に出来ないと不都合なので、definition, > format_fastaをつけて > ありますが、たぶん、これはBio::Sequenceのほうに作るように > することが > あるべき姿なんでしょうかね? > > おそらく、FlatFileの各エントリーをBio::Sequence型に > 変換するmethodと > Bio::Sequenceから、適当な形式へのFormat methodを用意して処 > 理しようというのが > Bio::Sequenceをa container of rich sequence annotations > にするという意図ですよね? はい、Bio::Sequenceを経由してフォーマット間の変換をする予定です。 ただし、配列が伴わないデータ形式や、マルチプルアライメントなど 複数配列の組み合わせからなるデータ形式に関しては、思案中です。 > @seq以外に@qualというinstance付きで、phredファイルからあるいは、 > fasta, fasta.qualファイルpairからBio::Sequenceに読み込むmethodと、 > outputに加えoutputqualというmethodがあれば便利なのか > なと考えております。 > あるいはBio::Sequence::NAwithQualのようなクラスがあるべきなのかも。 > ご意見が伺えれば幸いです。 クオリティ以外にも、配列全長に関して何かのスコアを付けるケースは結構あると 思います。たとえば保存や変異の度合、何かの因子の結合活性、二次構造や疎水性など。 これらはfeatureとして一般的に扱ってもいいとは思いますが、長大なデータでも 効率よく扱うために「副配列」的な形で特別扱いしてもよいかもしれません。 Phredに関しては、誰かがPhredデータのパーサーを作っていたような気がします。 > # bioruby-1.0.1は結局出さないんでしょうか? 年初の構想では、今頃は既にbioruby-1.2か1.4くらいまで出ている予定 だったのですが… いずれにせよ、致命的バグがいくつかあるので(私の書いた部分ばかりですが) 近いうちに新バージョンがリリースされるとは思います。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp From kawashima38 @ gmail.com Wed Nov 22 14:55:00 2006 From: kawashima38 @ gmail.com (Takeshi Kawashima) Date: Wed, 22 Nov 2006 11:55:00 -0800 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= Message-ID: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> biorubyメーリングリストの皆様 いつもお世話になります。 EC番号からgenesのIDのリストが欲しいのですけれども、 下記スクリプトに対して、空のアレイが返って来てしまいます。 なにがおかしいのでしょうか。 なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) 川島武士 スクリプト #!/usr/local/bin/ruby require 'bio' serv = Bio::KEGG::API.new p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') 返ってくるメッセージ bash-2.03$ ruby hoge.rb WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver instead. [] From mark.james.lists @ gmail.com Thu Nov 23 22:28:05 2006 From: mark.james.lists @ gmail.com (mark larios) Date: Fri, 24 Nov 2006 12:28:05 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= In-Reply-To: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> References: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> Message-ID: 川島 様 biorubyの何versionを使っていらっしゃるでしょうか。 bash-2.03$ ruby -e "require 'bio'; puts Bio::BIORUBY_VERSION.join('.')" というcommandの返ってメッセージは何ですか。bioruby >= 0.6.4にはWSDLDriverFactoryのエラーはないと思います。 マーク・アダムス On 11/23/06, Takeshi Kawashima wrote: > biorubyメーリングリストの皆様 > > いつもお世話になります。 > EC番号からgenesのIDのリストが欲しいのですけれども、 > 下記スクリプトに対して、空のアレイが返って来てしまいます。 > なにがおかしいのでしょうか。 > なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 > biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) > > 川島武士 > > スクリプト > > #!/usr/local/bin/ruby > > require 'bio' > serv = Bio::KEGG::API.new > p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') > > 返ってくるメッセージ > > bash-2.03$ ruby hoge.rb > WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver > instead. > [] > -- Mark James Adams Drosophila Genetic Resource Center Kyoto Institute of Technology From ktym @ hgc.jp Thu Nov 23 22:30:59 2006 From: ktym @ hgc.jp (Toshiaki Katayama) Date: Fri, 24 Nov 2006 12:30:59 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= In-Reply-To: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> References: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> Message-ID: 川島さん ktym @ samma:~% cat moge.rb #!/usr/local/bin/ruby require 'bio' serv = Bio::KEGG::API.new p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') ktym @ samma:~% ruby moge.rb ["eco:b0356", "eco:b1241", "eco:b1478", "eco:b3589"] 再現できないのですが、同じ現象は続いていますか? 片山 On 2006/11/23, at 4:55, Takeshi Kawashima wrote: > biorubyメーリングリストの皆様 > > いつもお世話になります。 > EC番号からgenesのIDのリストが欲しいのですけれども、 > 下記スクリプトに対して、空のアレイが返って来てしまいます。 > なにがおかしいのでしょうか。 > なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 > biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) > > 川島武士 > > スクリプト > > #!/usr/local/bin/ruby > > require 'bio' > serv = Bio::KEGG::API.new > p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') > > 返ってくるメッセージ > > bash-2.03$ ruby hoge.rb > WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver > instead. > [] From tomoakin @ kenroku.kanazawa-u.ac.jp Wed Nov 15 13:18:03 2006 From: tomoakin @ kenroku.kanazawa-u.ac.jp (Tomoaki NISHIYAMA) Date: Wed, 15 Nov 2006 22:18:03 +0900 Subject: [BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container Message-ID: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> BioRubyの開発者の皆様 FlatFileでFastaNumericFormatを処理する時は、大抵、 核酸配列のファイルと組で処理することになっていて、 例えば、ベクターとマッチする領域を削るとか、quality valueが 低い、あるいは特定のパターンの配列領域を選ぶと言うような用途 に使いたいことが多いんじゃないかと思います。 そんなわけで、quality valueでも核酸でも、同じmethod 例えば subseqが使える方がいいし、配列はどちらでも、entry.seqでア クセス 出来る方が良いと思います。また、FastaFormatでは、 dataが 処理前のデータテキストを表すなら、FastaNumericFormatでも 同様になっているべきと感じます。 まあ、dataは既に公開して時が経っているので、 新しい名前にした方が良いかもしれませんが。 そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM を作ってみました。 なにぶん、書き出しが簡単に出来ないと不都合なので、definition, format_fastaをつけて ありますが、たぶん、これはBio::Sequenceのほうに作るように することが あるべき姿なんでしょうかね? おそらく、FlatFileの各エントリーをBio::Sequence型に 変換するmethodと Bio::Sequenceから、適当な形式へのFormat methodを用意して処 理しようというのが Bio::Sequenceをa container of rich sequence annotations にするという意図ですよね? @seq以外に@qualというinstance付きで、phredファ イルからあるいは、fasta, fasta.qual ファイルpairからBio::Sequenceに読み込むmethod と、 outputに加えoutputqualというmethodがあれば便利なのか なと考えております。 あるいはBio::Sequence::NAwithQualのようなクラスがあるべき なのかも。 ご意見が伺えれば幸いです。 # bioruby-1.0.1は結局出さないんでしょうか? -- 西山智明 金沢大学学際科学実験センター ゲノム機能解析分野 (920-0934 金沢市宝町13−1) ERATO長谷部分化全能性進化プロジェクト インフォマティクス・進化グループ Tomoaki NISHIYAMA Advanced Science Research Center, Kanazawa University, 13-1 Takara-machi Kanazawa, 920-0934 Japan tomoakin @ kenroku.kanazawa-u.ac.jp -------------- next part -------------- From ngoto @ gen-info.osaka-u.ac.jp Thu Nov 16 13:30:07 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Thu, 16 Nov 2006 22:30:07 +0900 Subject: [BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container In-Reply-To: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> References: <571E36F6-FDA8-43D9-A0C8-DAEF65ADFB33@kenroku.kanazawa-u.ac.jp> Message-ID: <200611161329.kAGDTtuL004833@idns103.gen-info.osaka-u.ac.jp> 西山様 どうやら添付ファイルは経路途中で失われたようですので、お手数ですが、 できれば staff @ bioruby.org 宛に直接お送りいただけると幸いです。 > FlatFileでFastaNumericFormatを処理する時は、大抵、 > 核酸配列のファイルと組で処理することになっていて、 > 例えば、ベクターとマッチする領域を削るとか、quality valueが > 低い、あるいは特定のパターンの配列領域を選ぶと言うような用途 > に使いたいことが多いんじゃないかと思います。 > > そんなわけで、quality valueでも核酸でも、同じmethod > 例えば > subseqが使える方がいいし、配列はどちらでも、entry.seq > でアクセス出来る方が良いと思います。 整数(場合によっては小数も?)のArrayをString的に扱うこともやりたい、 という、主旨は理解できます。確かに、便利だと思います。 ちなみに、小数でゲノムスケールの巨大な配列を扱うにはNArrayが無いと 苦しいかもしれません。 > また、FastaFormatでは、 dataが > 処理前のデータテキストを表すなら、FastaNumericFormatでも > 同様になっているべきと感じます。 > まあ、dataは既に公開して時が経っているので、 > 新しい名前にした方が良いかもしれませんが。 data については、おっしゃるとおり、他のデータフォーマットと 統一した名前のメソッドにしたいなあと思います。 > そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM > を作ってみました。 > > なにぶん、書き出しが簡単に出来ないと不都合なので、definition, > format_fastaをつけて > ありますが、たぶん、これはBio::Sequenceのほうに作るように > することが > あるべき姿なんでしょうかね? > > おそらく、FlatFileの各エントリーをBio::Sequence型に > 変換するmethodと > Bio::Sequenceから、適当な形式へのFormat methodを用意して処 > 理しようというのが > Bio::Sequenceをa container of rich sequence annotations > にするという意図ですよね? はい、Bio::Sequenceを経由してフォーマット間の変換をする予定です。 ただし、配列が伴わないデータ形式や、マルチプルアライメントなど 複数配列の組み合わせからなるデータ形式に関しては、思案中です。 > @seq以外に@qualというinstance付きで、phredファイルからあるいは、 > fasta, fasta.qualファイルpairからBio::Sequenceに読み込むmethodと、 > outputに加えoutputqualというmethodがあれば便利なのか > なと考えております。 > あるいはBio::Sequence::NAwithQualのようなクラスがあるべきなのかも。 > ご意見が伺えれば幸いです。 クオリティ以外にも、配列全長に関して何かのスコアを付けるケースは結構あると 思います。たとえば保存や変異の度合、何かの因子の結合活性、二次構造や疎水性など。 これらはfeatureとして一般的に扱ってもいいとは思いますが、長大なデータでも 効率よく扱うために「副配列」的な形で特別扱いしてもよいかもしれません。 Phredに関しては、誰かがPhredデータのパーサーを作っていたような気がします。 > # bioruby-1.0.1は結局出さないんでしょうか? 年初の構想では、今頃は既にbioruby-1.2か1.4くらいまで出ている予定 だったのですが… いずれにせよ、致命的バグがいくつかあるので(私の書いた部分ばかりですが) 近いうちに新バージョンがリリースされるとは思います。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp From kawashima38 @ gmail.com Wed Nov 22 19:55:00 2006 From: kawashima38 @ gmail.com (Takeshi Kawashima) Date: Wed, 22 Nov 2006 11:55:00 -0800 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= Message-ID: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> biorubyメーリングリストの皆様 いつもお世話になります。 EC番号からgenesのIDのリストが欲しいのですけれども、 下記スクリプトに対して、空のアレイが返って来てしまいます。 なにがおかしいのでしょうか。 なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) 川島武士 スクリプト #!/usr/local/bin/ruby require 'bio' serv = Bio::KEGG::API.new p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') 返ってくるメッセージ bash-2.03$ ruby hoge.rb WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver instead. [] From mark.james.lists @ gmail.com Fri Nov 24 03:28:05 2006 From: mark.james.lists @ gmail.com (mark larios) Date: Fri, 24 Nov 2006 12:28:05 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= In-Reply-To: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> References: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> Message-ID: 川島 様 biorubyの何versionを使っていらっしゃるでしょうか。 bash-2.03$ ruby -e "require 'bio'; puts Bio::BIORUBY_VERSION.join('.')" というcommandの返ってメッセージは何ですか。bioruby >= 0.6.4にはWSDLDriverFactoryのエラーはないと思います。 マーク・アダムス On 11/23/06, Takeshi Kawashima wrote: > biorubyメーリングリストの皆様 > > いつもお世話になります。 > EC番号からgenesのIDのリストが欲しいのですけれども、 > 下記スクリプトに対して、空のアレイが返って来てしまいます。 > なにがおかしいのでしょうか。 > なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 > biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) > > 川島武士 > > スクリプト > > #!/usr/local/bin/ruby > > require 'bio' > serv = Bio::KEGG::API.new > p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') > > 返ってくるメッセージ > > bash-2.03$ ruby hoge.rb > WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver > instead. > [] > -- Mark James Adams Drosophila Genetic Resource Center Kyoto Institute of Technology From ktym @ hgc.jp Fri Nov 24 03:30:59 2006 From: ktym @ hgc.jp (Toshiaki Katayama) Date: Fri, 24 Nov 2006 12:30:59 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2V0X2dlbmVzX2J5X2VuenltZRskQiUzGyhC?= =?iso-2022-jp?b?GyRCJV4lcyVJJEskRCQkJEYbKEI=?= In-Reply-To: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> References: <370070be0611221155j4bd43f32tfef8b0e2cddd0888@mail.gmail.com> Message-ID: 川島さん ktym @ samma:~% cat moge.rb #!/usr/local/bin/ruby require 'bio' serv = Bio::KEGG::API.new p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') ktym @ samma:~% ruby moge.rb ["eco:b0356", "eco:b1241", "eco:b1478", "eco:b3589"] 再現できないのですが、同じ現象は続いていますか? 片山 On 2006/11/23, at 4:55, Takeshi Kawashima wrote: > biorubyメーリングリストの皆様 > > いつもお世話になります。 > EC番号からgenesのIDのリストが欲しいのですけれども、 > 下記スクリプトに対して、空のアレイが返って来てしまいます。 > なにがおかしいのでしょうか。 > なお、他のKEGG APIのメソッドは現在の環境で、上手く動いています。 > biorubyは1.8.5、(使っているのは、東大のsammaサーバーです。) > > 川島武士 > > スクリプト > > #!/usr/local/bin/ruby > > require 'bio' > serv = Bio::KEGG::API.new > p serv.get_genes_by_enzyme('ec:1.1.1.1', 'eco') > > 返ってくるメッセージ > > bash-2.03$ ruby hoge.rb > WSDLDriverFactory#create_driver is depricated. Use create_rpc_driver > instead. > []