<!doctype html public "-//w3c//dtd html 4.0 transitional//en">
<html>
To all,
<br>We installed Emboss 2.5.1 and indexed genbank 131 with the GB format
option using the new dbiflat that corrected the error of incorrect entry
retrieval.&nbsp; We tried the new REFSEQ option in dbiflat to index refseq,
however, the error that was fixed in the dbiflat GB option does not seem
to be fixed in the REFSEQ format option.&nbsp; Seqret retrieves the entry
NM_066922.1 instead of NM_066918.
<br>Has anyone else experienced this error with the REFSEQ format option?
<p>Shay
<br>&nbsp;
<blockquote TYPE=CITE>&nbsp;
<br>Date: Tue, 10 Sep 2002 13:03:42 +0100 (BST)
<br>From: ableasby@hgmp.mrc.ac.uk
<br>To: emboss@hgmp.mrc.ac.uk
<br>Subject: EMBOSS 2.5.1 released
<p>This release fixes problems associated with non-unique identifiers
<br>in some databases (e.g. REFSEQ). Note that there is now a specific
<br>indexing option for that database in dbiflat.
<p>Alan
<br>&nbsp;
<p>Date: Tue, 10 Sep 2002 12:33:53 +0900
<br>From: "[ISO-2022-JP] 河合宏紀" &lt;hkawai@venus.dti.ne.jp>
<br>To: emboss@embnet.org
<br>Subject: GenBank indexing Trouble
<p>Hello
<p>&nbsp;I'm using EMBOSS package. I appreciate developers' efforts.
<br>&nbsp;Unfortunately, I found a trouble when I indexed GenBank 130 and
<br>called it with entret/seqret.
<p>&nbsp;First of all, I made index for all files of GenBank 130 (except
<br>&nbsp;EST,GSS,HTG) described below.
<br>&nbsp;--------------------------------------
<br>&nbsp;% /usr/local/EMBOSS/2.5.0/bin/dbiflat
<br>&nbsp;Index a flat file database
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; EMBL : EMBL
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SWISS : Swiss-Prot, SpTrEMBL, TrEMBLnew
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; GB : Genbank, DDBJ
<br>&nbsp;Entry format [SWISS]: GB
<br>&nbsp;Database directory [.]:
<br>&nbsp;Wildcard database filename [*.dat]: *.seq
<br>&nbsp;Database name: GB
<br>&nbsp;Release number [0.0]:
<br>&nbsp;Index date [00/00/00]:
<br>&nbsp;Warning: Duplicate ID skipped: 'AY071141'
<br>&nbsp;--------------------------------------
<p>&nbsp;When I called L11995 with "entret gb:L11995", I got the incorrect
entry
<br>whose accession is M20152. And I tried to get gb:M20152, I got M20153.
<br>These three entries exist on the gbrod3.seq file sequentially. This
<br>trouble does not occur when I called entries whose 'LOCUS' and
<br>'ACCESSION' fields are identical (e.g.BC003860). Because this trouble
<br>occurs with dbiflat in version 2.4.1 or 2.5.0 but does not in 2.3.1,
I'm
<br>now using EMBOSS 2.3.1 for only dbiflat/dbifasta, and 2.4.1 for other
<br>programs (entret/seqret and so on).
<p>&nbsp;My hypothesis of this trouble is described below.
<br>&nbsp;I focused on the duplicate ID AY071141 and I removed one AY071141entry
<br>&nbsp;(from gbinv4.seq file).
<br>&nbsp;In this case, I could get correct entries.
<br>&nbsp;When dbiflat finds duplicate ID to be skipped, I guess, the index
counter
<br>&nbsp;of LOCUS and ACCESSION should be increased (or decreased). But
in this
<br>&nbsp;version, ONLY LOCUS counter would be increased (or decreased)
and
<br>&nbsp;ACCESSION's one would not be increased (or decreased).
<p>I hope my report will be helpfull for developers.
<p>Best regards
<p>Kawai</blockquote>

<pre>--&nbsp;
Shayanthan Parameswaran&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Bioinformatics Supercomputing Centre
Programmer (416) 813-8030&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 555 University Avenue
email: shay@bioinfo.sickkids.on.ca&nbsp;&nbsp;&nbsp;&nbsp; The Hospital for Sick Children
http:&nbsp; www.bioinfo.sickkids.on.ca&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Toronto, ON, M5G 1X8, CANADA.</pre>
&nbsp;</html>