From uehara @ cbo.mss.co.jp Mon Jul 19 22:14:23 2004 From: uehara @ cbo.mss.co.jp (UEHARA Keizou) Date: Mon Jul 19 22:20:00 2004 Subject: [BioRuby-ja] =?ISO-2022-JP?B?U3dpc3NQcm90LFRyZW1ibGUbJEIkTiVVGyhK?= =?ISO-2022-JP?B?GyRCJSkhPCVeJUMlSEpROTkbKEI=?= In-Reply-To: References: Message-ID: <200407200214.AA00521@C1623.cbo.mss.co.jp>  BioRubyの皆様、いつもお世話になっております。 上原慶三と申します。 7月11日のftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase/uniprot_sprot.dat.gzをBioRubyでパースしたところ、 Invalid format in R lines,[RG INTERNATIONAL PSEUDOMONAS AERUGINOSA TYPING STUDY GROUP;] /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:184:in `ref' /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:180:in `each' /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:180:in `ref' /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:176:in `each' /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:176:in `ref' のようなエラーが発生しました。 SwissProtのフォーマットが変更されたようです。 CVSをのぞいた限りではまだ対応されていないようです。 こちらでembl.rbを変更して対応しましたが、もしよろしければ正式に対応していただけないでしょうか。 お忙しいところ申し訳ありませんが、よろしくお願いします。 ------------------------------------------------------------  発信者:上原 慶三  三菱スペースソフトウェア株式会社  関西事業部 バイオインフォマティクス部 第1技術課課 TEL:(06)4961-8862 661-0001 兵庫県尼崎市塚口本町5-4-36 FAX:(06)4961-8820 E-Mail:uehara@cbo.mss.co.jp From n @ bioruby.org Wed Jul 21 00:39:02 2004 From: n @ bioruby.org (n@bioruby.org) Date: Wed Jul 21 00:40:54 2004 Subject: [BioRuby-ja] =?iso-2022-jp?B?U3dpc3NQcm90LFRyZW1ibGUbJEIkTiVVJSkhPCVeJUMlSEpROTkbKEI=?= In-Reply-To: <200407200214.AA00521@C1623.cbo.mss.co.jp> References: <200407200214.AA00521@C1623.cbo.mss.co.jp> Message-ID: <20040721.133902.71108323.nakao-mitsuteru@aist.go.jp> 上原さん なかおです。 From: UEHARA Keizou Subject: [BioRuby-ja] SwissProt,Trembleのフォーマット変更 Date: Tue, 20 Jul 2004 11:14:23 +0900 >  BioRubyの皆様、いつもお世話になっております。 > 上原慶三と申します。 > > 7月11日のftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase/uniprot_sprot.dat.gzをBioRubyでパースしたところ、 > > Invalid format in R lines,[RG INTERNATIONAL PSEUDOMONAS AERUGINOSA TYPING STUDY GROUP;] > > /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:184:in `ref' > /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:180:in `each' > /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:180:in `ref' > /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:176:in `each' > /.../lib/ruby/site_ruby/1.8/bio/db/embl.rb:176:in `ref' > > のようなエラーが発生しました。 > SwissProtのフォーマットが変更されたようです。 以下の16エントリにおいて、 Bio::SPTR#ref で RuntimeError が発生する ことを確認いたしました。これらは最近更新されたエントリであたらしいフォー マットが利用されています。 FMK7_PSEAE FMPA_PSEAE GK10_HUMAN GK14_HUMAN NNS3_HUMAN OR1_ANOGA OR2_ANOGA REC9_HUMAN TR35_MOUSE TR36_MOUSE TR37_MOUSE TR38_MOUSE TR39_MOUSE TR40_MOUSE TR43_MOUSE 指摘されたとおり、bio/db/embl.rb では UniProt release 1.12 of 21-Jun-2004 であらたに追加された RG 行に対応していませんでした。 参考サイト: > CVSをのぞいた限りではまだ対応されていないようです。 > こちらでembl.rbを変更して対応しましたが、もしよろしければ正式に対応していただけないでしょうか。 embl.rb の GN 行対応はできたので、テストが終りしだい CVS にコミットします。 ありがとうございます。 - 中尾 光輝 独立行政法人 産業技術総合研究所 生命情報科学研究センター 遺伝子情報系 配列解析チーム Tel: 03-3599-8058 Fax: 03-3599-8081 From uehara @ cbo.mss.co.jp Fri Jul 30 02:37:32 2004 From: uehara @ cbo.mss.co.jp (UEHARA Keizou) Date: Fri Jul 30 02:43:06 2004 Subject: [BioRuby-ja] =?ISO-2022-JP?B?U3dpc3NQcm90LFRyZW1i?= =?ISO-2022-JP?B?bGUbJEIkTiVVJSkhPCVeJUMlSEpROTkbKEI=?= In-Reply-To: <20040721.133902.71108323.nakao-mitsuteru@aist.go.jp> References: <20040721.133902.71108323.nakao-mitsuteru@aist.go.jp> Message-ID: <200407300637.AA00531@C1623.cbo.mss.co.jp> お世話になっております。上原慶三です。 >指摘されたとおり、bio/db/embl.rb では UniProt release 1.12 of 21-Jun-2004 >であらたに追加された RG 行に対応していませんでした。 > >参考サイト: > >> CVSをのぞいた限りではまだ対応されていないようです。 >> こちらでembl.rbを変更して対応しましたが、もしよろしければ正式に対応していただけないでしょうか。 > >embl.rb の GN 行対応はできたので、テストが終りしだい CVS にコミットします。 >ありがとうございます。 すばやい対応ありがとうございました。 CVSの最新版をチェックアウトして確認したところ、TremblのエントリO88927をパースすると以下のようなエラーが発生してしまいます。 ---ここから--- Invalid FT Lines(FT W (in isoform CL3AC and isoform CL3BC). /.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:492:in `ft' /.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `each' /.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `ft' ..... ) in O88927:, 'FT SIGNAL 1 ? POTENTIAL. FT CHAIN ? 1527 CALCIUM-INDEPENDENT ALPHA-LATROTOXIN FT RECEPTOR 3. FT DOMAIN ? 948 EXTRACELLULAR (POTENTIAL). FT DOMAIN 88 179 CYS-RICH, LECTIN-LIKE. FT DOMAIN 180 457 OLFACTOMEDIN-LIKE. FT DOMAIN 361 491 PRO-RICH. FT DOMAIN 496 556 SER/THR-RICH. FT DOMAIN 559 835 BAI. FT DOMAIN 844 933 CYS-RICH. FT TRANSMEM 949 969 POTENTIAL. FT DOMAIN 970 977 CYTOPLASMIC (POTENTIAL). FT TRANSMEM 978 998 POTENTIAL. FT DOMAIN 999 1006 EXTRACELLULAR (POTENTIAL). FT TRANSMEM 1007 1027 POTENTIAL. FT DOMAIN 1028 1048 CYTOPLASMIC (POTENTIAL). FT TRANSMEM 1049 1069 POTENTIAL. FT DOMAIN 1070 1087 EXTRACELLULAR (POTENTIAL). FT TRANSMEM 1088 1108 POTENTIAL. FT DOMAIN 1109 1132 CYTOPLASMIC (POTENTIAL). FT TRANSMEM 1133 1153 POTENTIAL. FT DOMAIN 1154 1159 EXTRACELLULAR (POTENTIAL). FT TRANSMEM 1160 1180 POTENTIAL. FT DOMAIN 1181 1527 CYTOPLASMIC (POTENTIAL). FT DOMAIN 1460 1463 POLY-ALA. FT SITE 922 923 CLEAVAGE (POTENTIAL). FT VARSPLIC 19 86 Missing (in isoform CL3AA, isoform CL3AB FT and isoform CL3AC). FT /FTId=VSP_050431. FT VARSPLIC 1263 1298 GLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNC -> P FT YRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTEW (in FT isoform CL3BB and isoform CL3AB). FT /FTId=VSP_050432. FT VARSPLIC 1299 1527 Missing (in isoform CL3BB and isoform FT CL3AB). FT /FTId=VSP_050433. FT VARSPLIC 1262 1341 EGLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNCVQII FT DRGYNHNETALEKKILKELTSNYIPSYLNNHERSSEQNR - FT > GTMANHLMSNALLRPHGTNNPYNTLLGEPAVCNNPSIS FT MYNAQEPYRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTE FT W (in isoform CL3AC and isoform CL3BC). FT /FTId=VSP_050434. FT VARSPLIC 1342 1527 Missing (in isoform CL3AC and isoform FT CL3BC). FT /FTId=VSP_050435. ---ここまで--- これは FTの->の間に改行があるためだと考えられましたのでsptr.rbを以下のように変更しました。 482c482 < when /(\w[\w ]*\w*) - ?> (\w[\w ]*\w*)/ --- > when /(\w[\w ]*\w*) -> (\w[\w ]*\w*)/  この変更でとりあえずパースできるようになりました。 BioRubyをまだそれほど詳しく理解していないのですが、このような変更でよいのでしょうか。 もし何か不都合があれば、教えてもらいたいのですが。  たびたび申し訳ありませんがよろしくお願いします。 ------------------------------------------------------------  発信者:上原 慶三  三菱スペースソフトウェア株式会社  関西事業部 バイオインフォマティクス部 第1技術課課 TEL:(06)4961-8862 661-0001 兵庫県尼崎市塚口本町5-4-36 FAX:(06)4961-8820 E-Mail:uehara@cbo.mss.co.jp