From dritoshi @ gmail.com Wed Jun 14 01:21:51 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Wed, 14 Jun 2006 14:21:51 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= Message-ID: にかいどうです。 提案です。 bio/sequence/na.rb の gc_percent ですが、float を返したほうが 良いのではないでしょうか。PCRプライマーなどオリゴの設計の 際には小数点第一位あたりが大事になってきます。実際に実験条件を 小数点第一位あたりで振るのは日常的ですので、floatのほうが現場に 合う気がします。如何でしょうか? 以下のコードを gc = 100.0 * gc / (at + gc) とするだけですけど。 # Calculate the ratio of GC / ATGC bases as a percentage rounded to # the nearest whole number. # # s = Bio::Sequence::NA.new('atggcgtga') # puts s.gc_percent #=> 55 # --- # *Returns*:: Fixnum def gc_percent count = self.composition at = count['a'] + count['t'] + count['u'] gc = count['g'] + count['c'] gc = 100 * gc / (at + gc) return gc end -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From ktym @ hgc.jp Wed Jun 14 01:59:01 2006 From: ktym @ hgc.jp (Toshiaki Katayama) Date: Wed, 14 Jun 2006 14:59:01 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: References: Message-ID: <28BDD305-4BB5-47E6-A52E-54BEB59E5DCD@hgc.jp> 二階堂さん 元々はそんな感じになっていましたが、有効数字や ATGC 以外の文字があった時の 扱いなどを簡単には決められないので percent という名前の通り所詮は概算値である という意味合いで整数値を返すように変更しました(それとともに gc メソッドは 無くしました)。 http://code.open-bio.org/cgi-bin/viewcvs/viewcvs.cgi/bioruby/lib/bio/sequence.rb.diff?r1=0.42&r2=0.43&cvsroot=bioruby 精度が必要な場合は composition メソッドの返り値から自分の基準で計算して もらうのが良いと思います。 片山 On 2006/06/14, at 14:21, Itoshi NIKAIDO wrote: > にかいどうです。 > > 提案です。 > > bio/sequence/na.rb の gc_percent ですが、float を返したほうが > 良いのではないでしょうか。PCRプライマーなどオリゴの設計の > 際には小数点第一位あたりが大事になってきます。実際に実験条件を > 小数点第一位あたりで振るのは日常的ですので、floatのほうが現場に > 合う気がします。如何でしょうか? > > 以下のコードを > gc = 100.0 * gc / (at + gc) > とするだけですけど。 > > # Calculate the ratio of GC / ATGC bases as a percentage rounded to > # the nearest whole number. > # > # s = Bio::Sequence::NA.new('atggcgtga') > # puts s.gc_percent #=> 55 > # --- > # *Returns*:: Fixnum > def gc_percent > count = self.composition > at = count['a'] + count['t'] + count['u'] > gc = count['g'] + count['c'] > gc = 100 * gc / (at + gc) > return gc > end > > -- > Itoshi NIKAIDO, Ph.D. > FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From dendoh @ hotmail.co.jp Tue Jun 20 05:52:32 2006 From: dendoh @ hotmail.co.jp (=?iso-2022-jp?B?GyRCMXNGIxsoQiAbJEJCZ0ZzGyhC?=) Date: Tue, 20 Jun 2006 18:52:32 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuaxskQiVHITwlPyROJVEhPCU5GyhC?= Message-ID: 酪農学園大学の遠藤ともうします GenBankのデータをパースしています。 ダウンロードしたファイルの整形について Rubyのメーリングリストに投稿して片山さんなどから、御示唆いただきました。 ファイルの整形については、ruby-listからの御返事をまちたいとおもいますが、手 動で整形したファイルから、データをとりこむ時にも問題を生じました。ruby-list での問題とは異なり、biorubyに関係すると思い、入会して投稿させていただきまし た。 Tutrialをみて下記1のスクリプトを実行したのですが、2のエラーが帰ってきまし た。 1 ff=Bio::FlatFile.new(Bio::GenBank, ARGF) sgb=[] ff.each_entry do |gb| p gb.gi p gb.accession p gb.definition p gb.organism p gb.taxonomy gb.features.each do |feature| position=feature.position hash = feature.assoc next unless hash['translation'] print hash['gene'], hash['product'], hash['note'], hash['function'] puts puts gb.naseq.splicing(position) end end 2エラー /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:118:in `pos': no stream to tell (ArgumentError) from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:118:in `pos' from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:342:in `get_entry' from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:573:in `next_entry' from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:609:in `each_entry' from getgbnem1.rb:18 ファイルの終端が問題かと思い、削って見ましたが、エラーに変化はありませんでし た。 対策について御示唆いただけるとさいわいです。 よろしくおねがいします。 _________________________________________________________________ MSN アラートで欲しい情報を必要な時に逃さずキャッチ! http://alerts.msn.co.jp/ From ngoto @ gen-info.osaka-u.ac.jp Tue Jun 20 06:01:08 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Tue, 20 Jun 2006 19:01:08 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: References: Message-ID: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> 後藤です。 On Wed, 14 Jun 2006 14:21:51 +0900 "Itoshi NIKAIDO" wrote: > 提案です。 > > bio/sequence/na.rb の gc_percent ですが、float を返したほうが > 良いのではないでしょうか。PCRプライマーなどオリゴの設計の > 際には小数点第一位あたりが大事になってきます。実際に実験条件を > 小数点第一位あたりで振るのは日常的ですので、floatのほうが現場に > 合う気がします。如何でしょうか? 浮動小数点にするなら、100倍せずに 0 <= x <= 1 の範囲内で返すほうが、 数学的に美しいし、後の計算に使い回す場合にも都合がよいと思います。 というわけで、(gc_percentはそのままで)別メソッドの新設を提案したいです。 GC含有率を求める、というのは極めてありがちな欲求なので、予めメソッドを 用意しておくと、他人に教えたり、ワンライナーやirb(BioRuby shell)で 使う際に便利だと思います。 def gc_content #(仮称) #(略) return gc.to_f / (at + gc).to_f end 有効数字は、Floatで計算する=Floatの限界に任せる、でいいと思います。 ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が 存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、 その仕様をドキュメントに書いておけば、問題ないとは思います。 ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと 思ったことがないので、何が標準かは知らないです… -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From ngoto @ gen-info.osaka-u.ac.jp Tue Jun 20 07:08:28 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Tue, 20 Jun 2006 20:08:28 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuaxskQiVHITwlPyROJVEhPCU5GyhC?= In-Reply-To: References: Message-ID: <200606201108.k5KB8U1M029506@newportal.open-bio.org> 後藤@阪大です。 On Tue, 20 Jun 2006 18:52:32 +0900 遠藤 大二 wrote: > Tutrialをみて下記1のスクリプトを実行したのですが、2のエラーが帰ってきまし > た。 > 1 > ff=Bio::FlatFile.new(Bio::GenBank, ARGF) > sgb=[] > ff.each_entry do |gb| > p gb.gi > p gb.accession > p gb.definition > p gb.organism > p gb.taxonomy > gb.features.each do |feature| > position=feature.position > hash = feature.assoc > next unless hash['translation'] > print hash['gene'], hash['product'], hash['note'], hash['function'] > puts > puts gb.naseq.splicing(position) > end > end > > 2エラー > /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:118:in `pos': no stream to > tell (ArgumentError) > from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:118:in `pos' > from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:342:in > `get_entry' > from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:573:in > `next_entry' > from /usr/lib64/ruby/site_ruby/1.8/bio/io/flatfile.rb:609:in > `each_entry' > from getgbnem1.rb:18 > > ファイルの終端が問題かと思い、削って見ましたが、エラーに変化はありませんでし > た。 > 対策について御示唆いただけるとさいわいです。 > よろしくおねがいします。 これは、BioRuby 1.0のFlatFileのバグが原因です。 解決策としては、添付ファイルのパッチを当てて、BioRubyを再インストール してください。 あるいは、当面の回避策としては、副作用があるので要注意の方法ですが、 > ff=Bio::FlatFile.new(Bio::GenBank, ARGF) の直前に def ARGF.pos; 0; end の1行を追加して試してみてください。 (上記のプログラムではこの回避策による副作用は問題にならないと思います が、別のプログラムでは問題が起こるかもしれませんので要注意です。) なお、BioRubyの次に出る新バージョンでは直る予定(CVSでは既に直した) ですので、新バージョンが出たら、BioRubyをバージョンアップするよう お願いします。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) -------------- next part -------------- 文字コード指定の無い添付文書を保管しました... 名前: flatfile.patch URL: http://lists.open-bio.org/pipermail/bioruby-ja/attachments/20060620/e718c389/attachment.pl From dendoh @ hotmail.co.jp Tue Jun 20 09:19:27 2006 From: dendoh @ hotmail.co.jp (=?iso-2022-jp?B?GyRCMXNGIxsoQiAbJEJCZ0ZzGyhC?=) Date: Tue, 20 Jun 2006 22:19:27 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuaxskQiVHITwlPyROJVEhPCU5GyhC?= Message-ID: 後藤様 遠藤です 方法の御連絡ありがとうございました。これからは、バグ報告にしっかりと目を通す ようにします。 パッチについては、添付いただいたファイルが 下のほうにdefがあってendが無い状 況でダウンロードされましたので、パッチをあてるのは中止しました。 その代わりに、def ARGF.pos; 0; end を追加したら、スクリプトは問題なくうまく行きました。 cvsも勉強しておいて、自動でアップデートできるようになるように心がけます。 とりあえずお礼申し上げます。 酪農学園大学 遠藤大二 _________________________________________________________________ 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kawashima_38 @ hotmail.com Tue Jun 20 13:15:33 2006 From: kawashima_38 @ hotmail.com (=?iso-2022-jp?B?GyRCQG5FZxsoQiAbJEJJcDtOGyhC?=) Date: Wed, 21 Jun 2006 02:15:33 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= Message-ID: 川島@Berkeley&JGIです。 横から口を挟みまして恐縮ですが。 >>ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が >>存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、 >>その仕様をドキュメントに書いておけば、問題ないとは思います。 >ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと >思ったことがないので、何が標準かは知らないです… 塩基の一文字表記は、一般に下記添付表のように定められています。 (Graur and Li, "Fundamenrals of Molecular Evolution" 2nd Edition ) アミノ酸配列の一文字表記と塩基配列の一文字表記を自動判別するような プログラムが、こういう汎用表記にかならず対応しているのかどうか、 しらないですけれど。  それと、最近非常に気になる事を聞きました。 下記の一文字表記以外に, "_"(underbar)を使った表記を使う シーケンサーがあるというのです。 (ある人たちにとってはこれは常識のようでした。) 英語で聞いたのでかなり記憶が不確かですが、 AAなのか、Aなのか分からないときに、A_と表記するようです。 AAAなのかAAなのかAなのか分からないときは、A__など。 どなたか詳しい事をご存知でしたら、教えて下さい。 One-letter abbreviations for the DNA alphabet A Adenine C Cytosine T Thymine G Guanine U uracil W Weak bonds (A, T) S Strong bonds (G, C) R puRines (A, G) Y pYrimidines (C, T) K Keto (T, G) M aMino (A, C) B C, G, or T (Aの次がBだからでしょう) D A, G, ot T (Cの次がDだからでしょう) H A, C, or T (Gの次がHだからでしょう) V A, C, or G (Tの次の次がVだからでしょう) N A, C, T, or G - No nucleotide (gap symbol) _________________________________________________________________ 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From dritoshi @ gmail.com Wed Jun 21 01:48:38 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Wed, 21 Jun 2006 14:48:38 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> References: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> Message-ID: にかいどうです。 On 6/20/06, GOTO Naohisa wrote: > def gc_content #(仮称) > #(略) > return gc.to_f / (at + gc).to_f > end これに賛成です。 一応、b-srcで調べてみましたが、調べた中ではすべて float でした。 BioPerl - Bio::Tools::SiRNA http://b-src.cbrc.jp/markup/bioperl/core/Bio/Tools/SiRNA.pm?q=gc%20percent#l425 GenomeDiagram http://b-src.cbrc.jp/markup/GenomeDiagram-0.1/GenomeDiagram/GDUtilities.py?q=gc%20content#l125 Steden http://b-src.cbrc.jp/markup/staden-src-1-5-3/src/prefinish/finish_pcr.c?q=gc%20primer3#l265 Primer3 http://b-src.cbrc.jp/markup/primer3_1.0.0/src/primer3_main.c#l1089 BioJava http://b-src.cbrc.jp/markup/biojava_all/biojava-live/demos/seq/GCContent.java?q=gc#l32 -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From dritoshi @ gmail.com Wed Jun 21 01:57:09 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Wed, 21 Jun 2006 14:57:09 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?QkxBVBskQiROJTklMyUiGyhC?= Message-ID: にかいどうです。 Rails勉強会のときに後藤さんに話したのですが、BLATが出力する psl ファイルには、WebのBLATで出力される score と %id が表示 されません。 BLATをコマンドラインで使っているひとは、そんなスコアが出ていること に気付いていない人も多いようです。しかし、Wetな現場/論文などでは、 Webで検索した結果を元にしていることも多く、さらに、解析をお願いされた ときに、スコアを指標に閾値を指定してくる方がよくいます。 まあ、簡単な式なので、毎回自分でメソッドを作るのですが、BioRuby の BLAT parser のなかに、始めから定義されていても良いような気がします。 http://genome.ucsc.edu/FAQ/FAQblat#blat4 どうぞ、ご検討下さい。 -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From k @ bioruby.org Wed Jun 21 01:34:13 2006 From: k @ bioruby.org (Toshiaki Katayama) Date: Wed, 21 Jun 2006 14:34:13 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: References: Message-ID: <34E116E9-859D-491C-A17F-A74F059D60A5@bioruby.org> 川島さん BioRuby では以下の塩基を認識します。 せいぜい正規表現に変換できる程度ですが。 lib/bio/data/na.rb に定義されています。 bioruby> nucleicacids a a Adenine t t Thymine g g Guanine c c Cytosine u u Uracil r [ag] puRine y [tc] pYrimidine w [at] Weak s [gc] Strong k [tg] Keto m [ac] aroMatic b [tgc] not A v [agc] not T h [atc] not G d [atg] not C n [atgc] _ を使った表記については知りませんでした。 情報がある方は教えてください。 よろしくお願いします。 片山 On 2006/06/21, at 2:15, 川島 武士 wrote: > 川島@Berkeley&JGIです。 > > 横から口を挟みまして恐縮ですが。 > >>> ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が >>> 存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、 >>> その仕様をドキュメントに書いておけば、問題ないとは思います。 > >> ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと >> 思ったことがないので、何が標準かは知らないです… > > 塩基の一文字表記は、一般に下記添付表のように定められています。 > (Graur and Li, "Fundamenrals of Molecular Evolution" 2nd Edition ) > アミノ酸配列の一文字表記と塩基配列の一文字表記を自動判別するような > プログラムが、こういう汎用表記にかならず対応しているのかどうか、 > しらないですけれど。 > >  それと、最近非常に気になる事を聞きました。 > 下記の一文字表記以外に, "_"(underbar)を使った表記を使う > シーケンサーがあるというのです。 > (ある人たちにとってはこれは常識のようでした。) > 英語で聞いたのでかなり記憶が不確かですが、 > AAなのか、Aなのか分からないときに、A_と表記するようです。 > AAAなのかAAなのかAなのか分からないときは、A__など。 > どなたか詳しい事をご存知でしたら、教えて下さい。 > > One-letter abbreviations for the DNA alphabet > > A Adenine > C Cytosine > T Thymine > G Guanine > U uracil > W Weak bonds (A, T) > S Strong bonds (G, C) > R puRines (A, G) > Y pYrimidines (C, T) > K Keto (T, G) > M aMino (A, C) > B C, G, or T (Aの次がBだからでしょう) > D A, G, ot T (Cの次がDだからでしょう) > H A, C, or T (Gの次がHだからでしょう) > V A, C, or G (Tの次の次がVだからでしょう) > N A, C, T, or G > - No nucleotide (gap symbol) > > _________________________________________________________________ > 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From k @ bioruby.org Wed Jun 21 01:30:19 2006 From: k @ bioruby.org (Toshiaki Katayama) Date: Wed, 21 Jun 2006 14:30:19 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuaxskQiVHITwlPyROJVEhPCU5GyhC?= In-Reply-To: References: Message-ID: 皆様 1.1 のリリースが遅れてお手数をおかけしております。 FlatFile の問題が大きいので、 できるだけ今週には次のリリースを出せるようにしたいと思います。 コミットや修正などありましたら今のうちにお願いします。>開発の方々 片山 On 2006/06/20, at 22:19, 遠藤 大二 wrote: > 後藤様 > > 遠藤です > > 方法の御連絡ありがとうございました。これからは、バグ報告にしっかりと目を通す > ようにします。 > パッチについては、添付いただいたファイルが 下のほうにdefがあってendが無い状 > 況でダウンロードされましたので、パッチをあてるのは中止しました。 > > その代わりに、def ARGF.pos; 0; end > > を追加したら、スクリプトは問題なくうまく行きました。 > > cvsも勉強しておいて、自動でアップデートできるようになるように心がけます。 > > とりあえずお礼申し上げます。 > > 酪農学園大学 遠藤大二 > > _________________________________________________________________ > 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From dritoshi @ gmail.com Wed Jun 21 11:21:38 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Thu, 22 Jun 2006 00:21:38 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: <34E116E9-859D-491C-A17F-A74F059D60A5@bioruby.org> References: <34E116E9-859D-491C-A17F-A74F059D60A5@bioruby.org> Message-ID: にかいどうです。 少なくとも、かずさでも理研でも聞いたことないですね。 ローカルルールなのでは? その情報を使うプログラム がなければ、気にしなくてもよいと思います。 そもそもシーケンスが怪しいかどうかを定性的に評価して ファイルに書きこむというのは聞いたことがないです。 普通は、Phredなどのsequence quality valute やアキュラシー など定量的な指標を使うのが一般的なのではないでしょうか。 On 6/21/06, Toshiaki Katayama wrote: > 川島さん > > BioRuby では以下の塩基を認識します。 > せいぜい正規表現に変換できる程度ですが。 > lib/bio/data/na.rb に定義されています。 > > bioruby> nucleicacids > a a Adenine > t t Thymine > g g Guanine > c c Cytosine > u u Uracil > r [ag] puRine > y [tc] pYrimidine > w [at] Weak > s [gc] Strong > k [tg] Keto > m [ac] aroMatic > b [tgc] not A > v [agc] not T > h [atc] not G > d [atg] not C > n [atgc] > > _ を使った表記については知りませんでした。 > 情報がある方は教えてください。 > よろしくお願いします。 > > 片山 > > On 2006/06/21, at 2:15, 川島 武士 wrote: > > > 川島@Berkeley&JGIです。 > > > > 横から口を挟みまして恐縮ですが。 > > > >>> ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が > >>> 存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、 > >>> その仕様をドキュメントに書いておけば、問題ないとは思います。 > > > >> ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと > >> 思ったことがないので、何が標準かは知らないです… > > > > 塩基の一文字表記は、一般に下記添付表のように定められています。 > > (Graur and Li, "Fundamenrals of Molecular Evolution" 2nd Edition ) > > アミノ酸配列の一文字表記と塩基配列の一文字表記を自動判別するような > > プログラムが、こういう汎用表記にかならず対応しているのかどうか、 > > しらないですけれど。 > > > > それと、最近非常に気になる事を聞きました。 > > 下記の一文字表記以外に, "_"(underbar)を使った表記を使う > > シーケンサーがあるというのです。 > > (ある人たちにとってはこれは常識のようでした。) > > 英語で聞いたのでかなり記憶が不確かですが、 > > AAなのか、Aなのか分からないときに、A_と表記するようです。 > > AAAなのかAAなのかAなのか分からないときは、A__など。 > > どなたか詳しい事をご存知でしたら、教えて下さい。 > > > > One-letter abbreviations for the DNA alphabet > > > > A Adenine > > C Cytosine > > T Thymine > > G Guanine > > U uracil > > W Weak bonds (A, T) > > S Strong bonds (G, C) > > R puRines (A, G) > > Y pYrimidines (C, T) > > K Keto (T, G) > > M aMino (A, C) > > B C, G, or T (Aの次がBだからでしょう) > > D A, G, ot T (Cの次がDだからでしょう) > > H A, C, or T (Gの次がHだからでしょう) > > V A, C, or G (Tの次の次がVだからでしょう) > > N A, C, T, or G > > - No nucleotide (gap symbol) > > > > _________________________________________________________________ > > 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ > > -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From kawashima_38 @ hotmail.com Wed Jun 21 13:55:43 2006 From: kawashima_38 @ hotmail.com (=?iso-2022-jp?B?GyRCQG5FZxsoQiAbJEJJcDtOGyhC?=) Date: Thu, 22 Jun 2006 02:55:43 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= Message-ID: Bioruby-jaの皆様 "_" の一文字キャラクターのことですが、確かにローカルルールだったとは思うの ですが、「そんなルール知ってる訳ないだろう!」的な会話を横目にして、「大変そ うだなあ」と思った記憶があるのです。  もしかしたら、遺伝子予測プログラムの出力だったかもしれません。  でも、塩基配列にどんなものが紛れ込みやすいか知っておけば、なにかと良い事も あると思うので、その時居た人たちに確認メールしてみますので、分かったらまたれ んらくします。   川島@Berkeley&JGI _________________________________________________________________ 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From ngoto @ gen-info.osaka-u.ac.jp Thu Jun 22 11:29:48 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Fri, 23 Jun 2006 00:29:48 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?QkxBVBskQiROJTklMyUiGyhC?= In-Reply-To: References: Message-ID: <200606221529.k5MFTvEO026346@newportal.open-bio.org> 後藤です。 On Wed, 21 Jun 2006 14:57:09 +0900 "Itoshi NIKAIDO" wrote: > にかいどうです。 > > Rails勉強会のときに後藤さんに話したのですが、BLATが出力する > psl ファイルには、WebのBLATで出力される score と %id が表示 > されません。 関西Ruby勉強会のほうもよろしく :-) 私は次回(7/15)は他の用事で行けないような気がしますが… > BLATをコマンドラインで使っているひとは、そんなスコアが出ていること > に気付いていない人も多いようです。しかし、Wetな現場/論文などでは、 > Webで検索した結果を元にしていることも多く、さらに、解析をお願いされた > ときに、スコアを指標に閾値を指定してくる方がよくいます。 > > まあ、簡単な式なので、毎回自分でメソッドを作るのですが、BioRuby の > BLAT parser のなかに、始めから定義されていても良いような気がします。 > > http://genome.ucsc.edu/FAQ/FAQblat#blat4 > > どうぞ、ご検討下さい。 さっそく対応してみました。 (Rails勉強会@関西で話を聞いて、さっそく実装開始したので、火曜日のうちに 既にcvs ci済。) ただ、本当にこの式で合っているのか不安なので、確かめてもらえると幸いです。 現在、ウェブ上のBLATとローカルのBLATの計算で値が一致するか確認中です。 ついでにunit testも作ろうかと思っています。 また、気が付かないうちに、ウェブ上のBLATのpsl形式のバージョンが psLayout version 4にバージョンアップしており、1行目の形式が若干変わり、 FlatFileの自動認識で認識されなさそうだったので、それも修正しました。 ただし、pslパーサ(Bio::Blat::Report)自体は、見たところデータ本体に 本質的変更はなさそうなので、(メソッドの追加以外は)変更していません。 誰か、バージョンアップに伴ってどういうデータ形式の変更があったのか 知っている人はいますか? -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From dritoshi @ gmail.com Sun Jun 25 21:33:42 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Mon, 26 Jun 2006 10:33:42 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?QkxBVBskQiROJTklMyUiGyhC?= In-Reply-To: <200606221529.k5MFTvEO026346@newportal.open-bio.org> References: <200606221529.k5MFTvEO026346@newportal.open-bio.org> Message-ID: にかいどうです。 ありがとうございました。 http://code.open-bio.org/cgi-bin/viewcvs/viewcvs.cgi/bioruby/lib/bio/appl/blat/report.rb?rev=1.9&cvsroot=bioruby&content-type=text/vnd.viewcvs-markup ですが、問題ないように思います。 ただ、一点だけ言うと参照ULRは http://genome.ucsc.edu/FAQ/FAQblat#blat4 だと思います。 On 6/23/06, GOTO Naohisa wrote: > 後藤です。 > > On Wed, 21 Jun 2006 14:57:09 +0900 > "Itoshi NIKAIDO" wrote: > > > にかいどうです。 > > > > Rails勉強会のときに後藤さんに話したのですが、BLATが出力する > > psl ファイルには、WebのBLATで出力される score と %id が表示 > > されません。 > > 関西Ruby勉強会のほうもよろしく :-) > 私は次回(7/15)は他の用事で行けないような気がしますが… > > > BLATをコマンドラインで使っているひとは、そんなスコアが出ていること > > に気付いていない人も多いようです。しかし、Wetな現場/論文などでは、 > > Webで検索した結果を元にしていることも多く、さらに、解析をお願いされた > > ときに、スコアを指標に閾値を指定してくる方がよくいます。 > > > > まあ、簡単な式なので、毎回自分でメソッドを作るのですが、BioRuby の > > BLAT parser のなかに、始めから定義されていても良いような気がします。 > > > > http://genome.ucsc.edu/FAQ/FAQblat#blat4 > > > > どうぞ、ご検討下さい。 > > さっそく対応してみました。 > (Rails勉強会@関西で話を聞いて、さっそく実装開始したので、火曜日のうちに > 既にcvs ci済。) > > ただ、本当にこの式で合っているのか不安なので、確かめてもらえると幸いです。 > 現在、ウェブ上のBLATとローカルのBLATの計算で値が一致するか確認中です。 > ついでにunit testも作ろうかと思っています。 > > また、気が付かないうちに、ウェブ上のBLATのpsl形式のバージョンが > psLayout version 4にバージョンアップしており、1行目の形式が若干変わり、 > FlatFileの自動認識で認識されなさそうだったので、それも修正しました。 > ただし、pslパーサ(Bio::Blat::Report)自体は、見たところデータ本体に > 本質的変更はなさそうなので、(メソッドの追加以外は)変更していません。 > 誰か、バージョンアップに伴ってどういうデータ形式の変更があったのか > 知っている人はいますか? > > -- > 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp > 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) > -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From k @ bioruby.org Mon Jun 26 00:12:09 2006 From: k @ bioruby.org (Toshiaki Katayama) Date: Mon, 26 Jun 2006 13:12:09 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?MS4xIBskQiVqJWohPCU5PWBIdxsoQg==?= In-Reply-To: References: Message-ID: <315907BE-0548-4B1E-9310-830EF4E13440@bioruby.org> 片山です On 2006/06/21, at 14:30, Toshiaki Katayama wrote: > 1.1 のリリースが遅れてお手数をおかけしております。 > FlatFile の問題が大きいので、 > できるだけ今週には次のリリースを出せるようにしたいと思います。 > コミットや修正などありましたら今のうちにお願いします。>開発の方々 週末に時間が取れず間に合いませんでしたが、 今日は午後が空きましたので作業を進めたいと思います。 IUBMB のあと後藤さんとミーティングをして TODO を考えていたのですが - Jan の map, locations のコミットの内容を確認する - fastacmd -D 1 - Trevor のコード (restriction enzyme) の先頭のゴチャゴチャをどうする? - ライセンス LGPL -> Ruby's - shell の新機能チェックしてコミット - ChangeLog 記述 - gem でいれた bioruby コマンドがちゃんと動かない - bioruby> web 機能がキレイではない - Bio::Command (open-uri, POST, メソッド名) - fork に変更 - errorlog 用のモジュールを作る - 引数を1つに整理して関連コードを直す - Rails (ActiveRecord) を使うコードをどう配置するか などがあります。 http://rubyforge.org/projects/bioruby/ の「タスク」管理にある ToDo に移行するのが良いのかなと思いますが、 使い方が分からなかったり。 片山 From ngoto @ gen-info.osaka-u.ac.jp Mon Jun 26 09:57:54 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Mon, 26 Jun 2006 22:57:54 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: References: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> Message-ID: <200606261357.k5QDvtFt008706@newportal.open-bio.org> 後藤です。 メソッド名は、GenomeDiagramを参考に、gc_contentでよいと思います。 A/T/G/C/U以外の、R,Y等のIUPAC標準の曖昧な塩基やその他の文字は、 今までと同じく、分母・分子の両方から無視する計算法でよさそうです。 さらに、ついでに、 def at_content; (略); return at.to_f / (at+gc).to_f; end def gc_skew; (略); return (g - c).to_f / (g + c).to_f def at_skew; (略); return (a - t).to_f / (a + t).to_f も追加したいと思うのですが、どうでしょうか? gc_skewおよびat_skewは-1以上1以下の範囲の数になります。 (ちなみに、GenomeDiagramやG-languageには、スライディングウインドウで ゲノム全体の値を計算してグラフを描く機能が付くようですが、それは全く別の話。) それともう一点。 現状では、空の配列に対して Bio::Sequence::NA#gc_percent を実行すると、 s = Bio::Sequence::NA.new('') p s.gc_percent 例外 ZeroDivisionError: divided by 0 が発生します。しかし、gc_percentの定義は、配列中にGとCがどれくらい含まれ ているかの割合であり、長さ0の配列ではGC含有量は0なのだから、例外を出さず 0を返したほうがよいと思うのですが、いかがでしょうか? -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From k @ bioruby.org Mon Jun 26 11:58:33 2006 From: k @ bioruby.org (Toshiaki Katayama) Date: Tue, 27 Jun 2006 00:58:33 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: <200606261357.k5QDvtFt008706@newportal.open-bio.org> References: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> <200606261357.k5QDvtFt008706@newportal.open-bio.org> Message-ID: 後藤さん 全部 OK だと思います。コミットしてくださいませ。 片山 On 2006/06/26, at 22:57, GOTO Naohisa wrote: > 後藤です。 > > メソッド名は、GenomeDiagramを参考に、gc_contentでよいと思います。 > A/T/G/C/U以外の、R,Y等のIUPAC標準の曖昧な塩基やその他の文字は、 > 今までと同じく、分母・分子の両方から無視する計算法でよさそうです。 > > さらに、ついでに、 > def at_content; (略); return at.to_f / (at+gc).to_f; end > def gc_skew; (略); return (g - c).to_f / (g + c).to_f > def at_skew; (略); return (a - t).to_f / (a + t).to_f > も追加したいと思うのですが、どうでしょうか? > gc_skewおよびat_skewは-1以上1以下の範囲の数になります。 > > (ちなみに、GenomeDiagramやG-languageには、スライディングウインドウで > ゲノム全体の値を計算してグラフを描く機能が付くようですが、それは全く別の話。) > > それともう一点。 > 現状では、空の配列に対して Bio::Sequence::NA#gc_percent を実行すると、 > s = Bio::Sequence::NA.new('') > p s.gc_percent > 例外 ZeroDivisionError: divided by 0 > が発生します。しかし、gc_percentの定義は、配列中にGとCがどれくらい含まれ > ているかの割合であり、長さ0の配列ではGC含有量は0なのだから、例外を出さず > 0を返したほうがよいと思うのですが、いかがでしょうか? > > -- > 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp > 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From dritoshi @ gmail.com Mon Jun 26 12:34:03 2006 From: dritoshi @ gmail.com (Itoshi NIKAIDO) Date: Tue, 27 Jun 2006 01:34:03 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?Z2NfcGVyY2VudBskQiRyGyhCZmxvYXQ=?= =?iso-2022-jp?b?GyRCJEsbKEI=?= In-Reply-To: <200606261357.k5QDvtFt008706@newportal.open-bio.org> References: <200606201001.k5KA1HaR017419@idns103.gen-info.osaka-u.ac.jp> <200606261357.k5QDvtFt008706@newportal.open-bio.org> Message-ID: にかいどうです。 おつかれさまです。僕も以下に賛成です。 On 6/26/06, GOTO Naohisa wrote: > 後藤です。 > > メソッド名は、GenomeDiagramを参考に、gc_contentでよいと思います。 > A/T/G/C/U以外の、R,Y等のIUPAC標準の曖昧な塩基やその他の文字は、 > 今までと同じく、分母・分子の両方から無視する計算法でよさそうです。 > > さらに、ついでに、 > def at_content; (略); return at.to_f / (at+gc).to_f; end > def gc_skew; (略); return (g - c).to_f / (g + c).to_f > def at_skew; (略); return (a - t).to_f / (a + t).to_f > も追加したいと思うのですが、どうでしょうか? > gc_skewおよびat_skewは-1以上1以下の範囲の数になります。 > > (ちなみに、GenomeDiagramやG-languageには、スライディングウインドウで > ゲノム全体の値を計算してグラフを描く機能が付くようですが、それは全く別の話。) > > それともう一点。 > 現状では、空の配列に対して Bio::Sequence::NA#gc_percent を実行すると、 > s = Bio::Sequence::NA.new('') > p s.gc_percent > 例外 ZeroDivisionError: divided by 0 > が発生します。しかし、gc_percentの定義は、配列中にGとCがどれくらい含まれ > ているかの割合であり、長さ0の配列ではGC含有量は0なのだから、例外を出さず > 0を返したほうがよいと思うのですが、いかがでしょうか? > > -- > 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp > 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) > -- Itoshi NIKAIDO, Ph.D. FF20 8296 ED6F D9E5 7D05 8A0F 65D8 C2F5 C8D7 2CE2 From kawaji @ unza.org Wed Jun 28 12:54:57 2006 From: kawaji @ unza.org (Hideya KAWAJI) Date: Thu, 29 Jun 2006 01:54:57 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?QmlvOjpGbGF0RmlsZS5vcGVuGyRCJE4bKEI=?= =?iso-2022-jp?b?GyRCTXhNUUp9SyEbKEI=?= Message-ID: <63567d60606280954o5bf6be2dvc9e5d318ab7b7d61@mail.gmail.com> Bioruby-jaのみなさま 川路です 一つ、質問させてください。 Bio::FlatFileを利用して、BLATのPSLファイル等を 扱ってみようとしています。ヘッダがきちんとついている 場合は扱うことができているのですが、ヘッダが無いPSLファイル を扱うことができていません。 具体的には、 Bio::FlatFile.open(Bio::Blat::Report,"file_with_no_header.psl") として、Bio::Blat::Reportを明示的に指定してopenしてやると、 ヘッダの無いPSLファイルでも扱えるかと期待してみたのですが 1.8/gems/bio-1.0.0/lib/bio/io/flatfile.rb:571:in `next_entry': undefined method `skip_leader' for nil:NilClass (NoMethodError) from ~/ruby/1.8/gems/bio-1.0.0/lib/bio/io/flatfile.rb:609:in `each' というエラーでこけてしまいました。 どのように対処するのが正しいのでしょうか? From ngoto @ gen-info.osaka-u.ac.jp Thu Jun 29 07:55:23 2006 From: ngoto @ gen-info.osaka-u.ac.jp (GOTO Naohisa) Date: Thu, 29 Jun 2006 20:55:23 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?QmlvOjpGbGF0RmlsZS5vcGVuGyRCJE4bKEI=?= =?iso-2022-jp?b?GyRCTXhNUUp9SyEbKEI=?= In-Reply-To: <63567d60606280954o5bf6be2dvc9e5d318ab7b7d61@mail.gmail.com> References: <63567d60606280954o5bf6be2dvc9e5d318ab7b7d61@mail.gmail.com> Message-ID: <200606291155.k5TBtO1s014645@newportal.open-bio.org> 後藤です。 On Thu, 29 Jun 2006 01:54:57 +0900 "Hideya KAWAJI" wrote: > Bio::FlatFileを利用して、BLATのPSLファイル等を > 扱ってみようとしています。ヘッダがきちんとついている > 場合は扱うことができているのですが、ヘッダが無いPSLファイル > を扱うことができていません。 > > 具体的には、 > > Bio::FlatFile.open(Bio::Blat::Report,"file_with_no_header.psl") > > として、Bio::Blat::Reportを明示的に指定してopenしてやると、 > ヘッダの無いPSLファイルでも扱えるかと期待してみたのですが > > 1.8/gems/bio-1.0.0/lib/bio/io/flatfile.rb:571:in `next_entry': > undefined method `skip_leader' for nil:NilClass (NoMethodError) > from ~/ruby/1.8/gems/bio-1.0.0/lib/bio/io/flatfile.rb:609:in `each' > > というエラーでこけてしまいました。 このエラーの直接の原因は、bioruby-1.0.0のバグです。 これを解決するには、CVS HEADにバージョンアップするか、 http://lists.open-bio.org/pipermail/bioruby-ja/attachments/20060620/e718c389/attachment.pl のパッチを当てれば、とりあえず凌ぐことはできると思います。 (ただし、このパッチは不完全なので、上記エラーは解決しますが、かわりに br_bioflat.rbによるFlatFileのインデックス作成がうまくいかなくなる と思います。インデックスの検索は大丈夫です。) もちろん、次のリリースでは解決します。 これが解決しても、Bio::Blat::Report の現在の作りでは、ヘッダ無しの データには対応していませんでした。幸い、簡単に対応できそうだったので、 対応するように先ほど変更してcvs ciしました。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研)