From tanaka ＠ kuicr.kyoto-u.ac.jp  Thu Apr 15 13:29:07 2004
From: tanaka ＠ kuicr.kyoto-u.ac.jp (Nobuya Tanaka)
Date: Thu Apr 15 04:33:19 2004
Subject: [BioRuby-ja] Ruby Codes for Molecule
Message-ID: <m34qrlp2u4.wl@sunny>


BioRubyの皆様、はじめまして。

田中伸也と申します。4月から京都大学バイオインフォマティックセンター金
久研究室のポスドクとして御世話になっています。

BioRubyは半年程前から使わせていただいています。

わたしは、これまで情報化学の研究室にいた関係もあり、Chemoinformaticsの
ためのRuby スクリプトを書いてきました。

いまのところ、「KCF Compound, KCF Glycan, Molfile, CDX, CDXML,
Gaussian98 Log, chime xyz, Tinker xyz, Pov-Ray, SWF(Ming/Ruby),
Postscript」の読み(and/or)書きやTinkerのインターフェース、分子量や結合
推定、Gillespieのアルゴリズムを実装しています。

5/31-6/3 の``Bioinformatics and Systems Biology''までにリリースに耐え
る程度に整理/拡張して、発表しようと考えています。

作り始めた当初目的がBiologyよりはChemistryだったので``ChemRuby''とする
ことも考えたのですが、BioRubyのプロジェクトに取り込んでいただければと
も考えています。

どのような配布形態が望ましいと考えられますか?

コードも満足に示せない状態で申し訳ありません。

是非、御意見をお聞かせ下さい。

--------------------------
         田中伸也
tanaka@kuicr.kyoto-u.ac.jp
--------------------------
From ktym ＠ hgc.jp  Thu Apr 15 21:34:15 2004
From: ktym ＠ hgc.jp (Toshiaki Katayama)
Date: Thu Apr 15 21:39:00 2004
Subject: [BioRuby-ja] Ruby Codes for Molecule
In-Reply-To: <m34qrlp2u4.wl@sunny>
References: <m34qrlp2u4.wl@sunny>
Message-ID: <2BCD7B3B-8F46-11D8-BC57-000A95AE7AB4@hgc.jp>

On 2004/04/16, at 2:29, Nobuya Tanaka wrote:
> 田中伸也と申します。4月から京都大学バイオインフォマティックセンター金
> 久研究室のポスドクとして御世話になっています。

はじめまして。

> わたしは、これまで情報化学の研究室にいた関係もあり、Chemoinformaticsの
> ためのRuby スクリプトを書いてきました。
>
> いまのところ、「KCF Compound, KCF Glycan, Molfile, CDX, CDXML,
> Gaussian98 Log, chime xyz, Tinker xyz, Pov-Ray, SWF(Ming/Ruby),
> Postscript」の読み(and/or)書きやTinkerのインターフェース、分子量や結合
> 推定、Gillespieのアルゴリズムを実装しています。
>
> 5/31-6/3 の``Bioinformatics and Systems Biology''までにリリースに耐え
> る程度に整理/拡張して、発表しようと考えています。
>
> 作り始めた当初目的がBiologyよりはChemistryだったので``ChemRuby''とする
> ことも考えたのですが、BioRubyのプロジェクトに取り込んでいただければと
> も考えています。
>
> どのような配布形態が望ましいと考えられますか?
>
> コードも満足に示せない状態で申し訳ありません。

基本的に歓迎なのですが、どうしたらいいのかすぐには結論が出せないでいます。
ネームスペース、ライセンス、ドキュメントなどはどうなりますか？

BioRuby に取り込むとすれば

取り込むメリット、デメリット
LGPL (open souce) で問題ないか
Bio:: でいいのか (Chem:: ?)
ディレクトリ構成はどうするか (lib/bio <-> lib/chem?)
他のライブラリの依存関係はどうなってるか
ドキュメントはあるのか
同じ CVS レポジトリを使うかどうか（アカウントを取ってもらうかどうか）
BioRuby/BioRuby-ja でサポートするのか別でするのか
ウェブはどうするか

などなどを検討して頂けますか。

今はまだ取り込まずとりあえず ChemRuby でリリースして、相互依存というか
共有出来るコードが多いなどマージするメリットが大きくなれば擦り合わせします？
サーバ管理は一本化できますが、マージは結構大変な作業になる？

取り込んでしまうメリットとしてはプロジェクト管理を（BioRuby の
スタッフがするので）一人でしなくてよい、ユーザとしてはインストールが
一度ですむので少し楽かも、chem と bio あわせた色々なことがシームレスに？
できるようになりそう、などがあるのかな。

すでに BioRuby もお使いになってるということですので
まずはうまいこと連携が取れるようにして頂ければ一番いいと思います。

モノを見ないとイメージがわかない所もありますが、
他の方もご意見お願いします。

ではでは～。

片山

From tanaka ＠ kuicr.kyoto-u.ac.jp  Fri Apr 16 01:20:05 2004
From: tanaka ＠ kuicr.kyoto-u.ac.jp (Nobuya Tanaka)
Date: Fri Apr 16 01:22:26 2004
Subject: [BioRuby-ja] Ruby Codes for Molecule
In-Reply-To: <2BCD7B3B-8F46-11D8-BC57-000A95AE7AB4@hgc.jp>
References: <m34qrlp2u4.wl@sunny> <2BCD7B3B-8F46-11D8-BC57-000A95AE7AB4@hgc.jp>
Message-ID: <m3wu4gfqii.wl@sunny>


片山 様
お忙しい中コメントありがとうございます。

At Fri, 16 Apr 2004 10:34:15 +0900,
Toshiaki Katayama wrote:
> 
> On 2004/04/16, at 2:29, Nobuya Tanaka wrote:
> > 田中伸也と申します。4月から京都大学バイオインフォマティックセンター金
> > 久研究室のポスドクとして御世話になっています。
> 
> はじめまして。

はじめまして、よろしくお願いします。

> 基本的に歓迎なのですが、どうしたらいいのかすぐには結論が出せないでいます。
> ネームスペース、ライセンス、ドキュメントなどはどうなりますか？
> 
> BioRuby に取り込むとすれば
> 
> 取り込むメリット、デメリット
> LGPL (open souce) で問題ないか

もちろん問題ありません。

> Bio:: でいいのか (Chem:: ?)

現在はChem::としていますが、もし取り込んでいただけそうなレベルになったら
Bio::にしていただければと思います。

> ディレクトリ構成はどうするか (lib/bio <-> lib/chem?)

ディレクトリ構成はBioRubyをお手本にしています。
現在は下記のフォルダがあります。かえってややこしいことになるでしょうか?

 chem/appl
 chem/db
 chem/data
 chem/tests

> 他のライブラリの依存関係はどうなってるか
> ドキュメントはあるのか

REXMLなど1.8.1で標準になっている以上のライブラリは使っていません。
残念ながらドキュメントはまだありません。

> 同じ CVS レポジトリを使うかどうか（アカウントを取ってもらうかどうか）
> BioRuby/BioRuby-ja でサポートするのか別でするのか
> ウェブはどうするか
> 
> などなどを検討して頂けますか。
> 
> 今はまだ取り込まずとりあえず ChemRuby でリリースして、相互依存というか
> 共有出来るコードが多いなどマージするメリットが大きくなれば擦り合わせします？
> サーバ管理は一本化できますが、マージは結構大変な作業になる？

一方的にChemRuby(?)がBioRubyの機能を使っているのでマージの作業は、ほと
んどないと思います。

とりあえず見ていただける形にしてChemRubyとしてこのMLでひっそりアナウン
スさせていただければ幸いです。

> 取り込んでしまうメリットとしてはプロジェクト管理を（BioRuby の
> スタッフがするので）一人でしなくてよい、ユーザとしてはインストールが
> 一度ですむので少し楽かも、chem と bio あわせた色々なことがシームレスに？
> できるようになりそう、などがあるのかな。

すでにchemのなかではbioを使わせていただいています。BioRubyにpdb.rbが入
る前には独自にpdb.rbを開発していました。chemからはとてもメリットがある
のですが、逆はというと。。。

--------------------------
         田中伸也
tanaka@kuicr.kyoto-u.ac.jp
--------------------------
From ngoto ＠ gen-info.osaka-u.ac.jp  Fri Apr 16 03:41:03 2004
From: ngoto ＠ gen-info.osaka-u.ac.jp (GOTO Naohisa)
Date: Fri Apr 16 03:45:43 2004
Subject: [BioRuby-ja] Ruby Codes for Molecule
In-Reply-To: <m34qrlp2u4.wl@sunny>
References: <m34qrlp2u4.wl@sunny>
Message-ID: <E1BENyC-0005CZ-00@lng.gen-info.osaka-u.ac.jp>

後藤@阪大遺伝情報です。

On Thu, 15 Apr 2004 17:29:07 +0000
Nobuya Tanaka <tanaka@kuicr.kyoto-u.ac.jp> wrote:

> いまのところ、「KCF Compound, KCF Glycan, Molfile, CDX, CDXML,
> Gaussian98 Log, chime xyz, Tinker xyz, Pov-Ray, SWF(Ming/Ruby),
> Postscript」の読み(and/or)書きやTinkerのインターフェース、分子量や結合
> 推定、Gillespieのアルゴリズムを実装しています。

よく知らないファイル形式が多いのでなんとも言えませんが、XML以外の
ファイルの読み込みは、Bio::FlatFileの枠組みを使えば統合できると思います。
ただし、Bio::FlatFileはいったん1エントリーを全部メモリ上に文字列として
読み込むという富豪的な手法を取っているので、xyzのような、ひたすら座標の
数値が書き込まれた巨大なファイルを読み込むのに最適かどうかはわかりません。

ちなみに、ファイルの書き出しに関しては、BioRubyには統一的な枠組みがまだ
存在しません。今回の件とは直接関係ありませんが、私は、ある程度は統一した
枠組みが必要だなあと感じているところです(が、具体案はまだない)。

> > Bio:: でいいのか (Chem:: ?)
> 
> 現在はChem::としていますが、もし取り込んでいただけそうなレベルになったら
> Bio::にしていただければと思います。

他には、Bio::Chem:: にするという手も考えられます。
基本的に中身次第ですが、モノによっては Chem のままの残した方がいい機能も
あるかもしれません。たとえば周期律表や分子量計算など、Bioと関係ない分野
にも応用ができる機能はChemのままでもいいような気が私はします。

> すでにchemのなかではbioを使わせていただいています。BioRubyにpdb.rbが入
> る前には独自にpdb.rbを開発していました。chemからはとてもメリットがある
> のですが、逆はというと。。。

つくっていたんですね...
現 pdb.rb の改善すべき点などありましたら、ぜひ教えてください。

-- 
後藤 直久  ngoto@gen-info.osaka-u.ac.jp
大阪大学 遺伝情報実験センター  ゲノム情報解析分野 (安永研究室)
         (理学研究科 生物科学専攻 D3)
From tanaka ＠ kuicr.kyoto-u.ac.jp  Fri Apr 16 04:58:00 2004
From: tanaka ＠ kuicr.kyoto-u.ac.jp (Nobuya Tanaka)
Date: Fri Apr 16 05:00:20 2004
Subject: [BioRuby-ja] Ruby Codes for Molecule
In-Reply-To: <E1BENyC-0005CZ-00@lng.gen-info.osaka-u.ac.jp>
References: <m34qrlp2u4.wl@sunny>
	<E1BENyC-0005CZ-00@lng.gen-info.osaka-u.ac.jp>
Message-ID: <m3smf4fgfb.wl@sunny>


後藤様

コメントありがとうございます。

At Fri, 16 Apr 2004 16:41:03 +0900,
GOTO Naohisa wrote:
> 
> 後藤@阪大遺伝情報です。
> 
> On Thu, 15 Apr 2004 17:29:07 +0000
> Nobuya Tanaka <tanaka@kuicr.kyoto-u.ac.jp> wrote:
> 
> > いまのところ、「KCF Compound, KCF Glycan, Molfile, CDX, CDXML,
> > Gaussian98 Log, chime xyz, Tinker xyz, Pov-Ray, SWF(Ming/Ruby),
> > Postscript」の読み(and/or)書きやTinkerのインターフェース、分子量や結合
> > 推定、Gillespieのアルゴリズムを実装しています。
> 
> よく知らないファイル形式が多いのでなんとも言えませんが、XML以外の
> ファイルの読み込みは、Bio::FlatFileの枠組みを使えば統合できると思います。
> ただし、Bio::FlatFileはいったん1エントリーを全部メモリ上に文字列として
> 読み込むという富豪的な手法を取っているので、xyzのような、ひたすら座標の
> 数値が書き込まれた巨大なファイルを読み込むのに最適かどうかはわかりません。

なるほどBio::FlatFileを使えばもっときれいに実装できそうですね。さっそ
くためしてみます。

ただ、Gaussian98 Logは信じられないくらい大きなファイルになることがある
のでSAX式に必要な部分だけを取り出すようになっています。これはFlatFile 
には不向きかもしれません。CDXはバイナリファイルなのでこれも難しそうで
す。

> ちなみに、ファイルの書き出しに関しては、BioRubyには統一的な枠組みがまだ
> 存在しません。今回の件とは直接関係ありませんが、私は、ある程度は統一した
> 枠組みが必要だなあと感じているところです(が、具体案はまだない)。

よくわかっていないのですが、SOAPでもFlatFileでも同様に出力できるという
ことですか?

> > > Bio:: でいいのか (Chem:: ?)
> > 
> > 現在はChem::としていますが、もし取り込んでいただけそうなレベルになったら
> > Bio::にしていただければと思います。
> 
> 他には、Bio::Chem:: にするという手も考えられます。
> 基本的に中身次第ですが、モノによっては Chem のままの残した方がいい機能も
> あるかもしれません。たとえば周期律表や分子量計算など、Bioと関係ない分野
> にも応用ができる機能はChemのままでもいいような気が私はします。

もともとは情報化学を念頭に置いていたので、Bioと関係のない機能もあると
思います。Computer Chemistryだけしかしない人には、Bioの名前空間に入っ
ているよりもアピールするかもしれないという気はします。でも名前空間を別
けることによる「繁雑さ」というデメリットがメリットを上回りそうです。

> > すでにchemのなかではbioを使わせていただいています。BioRubyにpdb.rbが入
> > る前には独自にpdb.rbを開発していました。chemからはとてもメリットがある
> > のですが、逆はというと。。。
> 
> つくっていたんですね...
> 現 pdb.rb の改善すべき点などありましたら、ぜひ教えてください。

pdb.rbのアナウンスがあったときにはびっくりしました。とてもきれいに実装
されているので関心した覚えがあります。