From ngoto @ gen-info.osaka-u.ac.jp Tue Apr 1 02:09:19 2008 From: ngoto @ gen-info.osaka-u.ac.jp (Naohisa GOTO) Date: Tue, 1 Apr 2008 15:09:19 +0900 Subject: [BioRuby-ja] BLAST format0 parser fails header parsing output of specific databases In-Reply-To: <7FB373D9-CA6F-4DD5-8537-587F50FB3190@kenroku.kanazawa-u.ac.jp> References: <7FB373D9-CA6F-4DD5-8537-587F50FB3190@kenroku.kanazawa-u.ac.jp> Message-ID: <20080401060921.292961CBC5BA@idnmail.gen-info.osaka-u.ac.jp> 後藤です。 かなり遅くなってしまいました。すみません。 On Fri, 14 Mar 2008 11:44:43 +0900 Tomoaki NISHIYAMA wrote: > Bioruby開発者の皆様 > (後藤さん担当でしょうか) > > NCBI Blastの出力で、データベースのdescriptionのつけ方に依 > 存して、 > Database: ...と > ... sequences; ... total letters > の間に空行があく事があり、 どういう条件でこういうことが起こるのか確かめてみたところ、 % formatdb -p F -i test.fst -t 'veryveryveryveryveryveryveryveryveryveryveryveryveryverylong' のように、60 + 70 * n 文字 (n = 0, 1, 2, ...)のスペース無しの文字列を formatdbの -t オプションで指定したところ、再現しました。 気が付きませんでした。 > このようなデータベースに対して検索した結果をformat0で読もうとすると > /usr/local/lib/ruby/site_ruby/1.8/bio/appl/blast/format0.rb:197:in > `each_hit': undefined method `each' for nil:NilClass (NoMethodError) > のようなエラーが発生していました。 > > f0databaseに...sequences; ... total letters > が含まれずに次のdata chunkにある時はそこまでつなぐようにし > たら > とりあえずhitの方のparseは出来るようになったようです。 > > patchは以下のようにしてみました。 「if @f0database != / [0-9,]+ sequences; [0-9,]+ total letters/ and」 の部分は文字列 != 正規表現なので常にtrueになるとは思いますが、 それはともかく、内容的には取り込みました。 ありがとうございました。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From dendoh @ rakuno.ac.jp Wed Apr 16 02:41:39 2008 From: dendoh @ rakuno.ac.jp (=?ISO-2022-JP?B?GyRCMXNGI0JnRnMbKEI=?=) Date: Wed, 16 Apr 2008 15:41:39 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuayAbJEIlQCUmJXMlbSE8JUkbKEI=?= Message-ID: <2bf88bba0804152341w3df3ef54p250225b838f64033@mail.gmail.com> 遠藤といいます。 いつもお世話になっています。 遺伝子配列のダウンロードについて教えてください。 GenBankでは大きなファイルもダウンロードが許可されていましたが、今回800件程度の遺伝子をダウンロードしようとしたところ、ServerErrorが帰ってきました。 これはGenBankがダウンロード規制を始めたことによるのでしょうか。それとも単純な設定の問題でしょうか。 また、もし、GenBankからのダウンロードが少数の件数に限定された場合、どのようにしてまとまった配列データを入手すればよいのでしょうか。 お知恵を頂ければ幸いです。 よろしくお願いします。 From ngoto @ gen-info.osaka-u.ac.jp Tue Apr 1 06:09:19 2008 From: ngoto @ gen-info.osaka-u.ac.jp (Naohisa GOTO) Date: Tue, 1 Apr 2008 15:09:19 +0900 Subject: [BioRuby-ja] BLAST format0 parser fails header parsing output of specific databases In-Reply-To: <7FB373D9-CA6F-4DD5-8537-587F50FB3190@kenroku.kanazawa-u.ac.jp> References: <7FB373D9-CA6F-4DD5-8537-587F50FB3190@kenroku.kanazawa-u.ac.jp> Message-ID: <20080401060921.292961CBC5BA@idnmail.gen-info.osaka-u.ac.jp> 後藤です。 かなり遅くなってしまいました。すみません。 On Fri, 14 Mar 2008 11:44:43 +0900 Tomoaki NISHIYAMA wrote: > Bioruby開発者の皆様 > (後藤さん担当でしょうか) > > NCBI Blastの出力で、データベースのdescriptionのつけ方に依 > 存して、 > Database: ...と > ... sequences; ... total letters > の間に空行があく事があり、 どういう条件でこういうことが起こるのか確かめてみたところ、 % formatdb -p F -i test.fst -t 'veryveryveryveryveryveryveryveryveryveryveryveryveryverylong' のように、60 + 70 * n 文字 (n = 0, 1, 2, ...)のスペース無しの文字列を formatdbの -t オプションで指定したところ、再現しました。 気が付きませんでした。 > このようなデータベースに対して検索した結果をformat0で読もうとすると > /usr/local/lib/ruby/site_ruby/1.8/bio/appl/blast/format0.rb:197:in > `each_hit': undefined method `each' for nil:NilClass (NoMethodError) > のようなエラーが発生していました。 > > f0databaseに...sequences; ... total letters > が含まれずに次のdata chunkにある時はそこまでつなぐようにし > たら > とりあえずhitの方のparseは出来るようになったようです。 > > patchは以下のようにしてみました。 「if @f0database != / [0-9,]+ sequences; [0-9,]+ total letters/ and」 の部分は文字列 != 正規表現なので常にtrueになるとは思いますが、 それはともかく、内容的には取り込みました。 ありがとうございました。 -- 後藤 直久 ngoto @ gen-info.osaka-u.ac.jp 大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研) From dendoh @ rakuno.ac.jp Wed Apr 16 06:41:39 2008 From: dendoh @ rakuno.ac.jp (=?ISO-2022-JP?B?GyRCMXNGI0JnRnMbKEI=?=) Date: Wed, 16 Apr 2008 15:41:39 +0900 Subject: [BioRuby-ja] =?iso-2022-jp?b?R2VuQmFuayAbJEIlQCUmJXMlbSE8JUkbKEI=?= Message-ID: <2bf88bba0804152341w3df3ef54p250225b838f64033@mail.gmail.com> 遠藤といいます。 いつもお世話になっています。 遺伝子配列のダウンロードについて教えてください。 GenBankでは大きなファイルもダウンロードが許可されていましたが、今回800件程度の遺伝子をダウンロードしようとしたところ、ServerErrorが帰ってきました。 これはGenBankがダウンロード規制を始めたことによるのでしょうか。それとも単純な設定の問題でしょうか。 また、もし、GenBankからのダウンロードが少数の件数に限定された場合、どのようにしてまとまった配列データを入手すればよいのでしょうか。 お知恵を頂ければ幸いです。 よろしくお願いします。