<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">Jason,<div><br></div><div>Attached is a minimal script that illustrates my problem - I am expecting to get a print of an UPDATE line with a nucleotide sequence.</div><div><br></div><div>I must be missing some BioPerl subtlety because this is happening with every one of some hundred gi numbers that I try.</div><div><br></div><div>Thanks for looking at this - I am sure that I have a blind spot here somewhere.</div><div><br></div><div>Warren</div><div><br><div><div>On Apr 15, 2014, at 3:55 PM, Jason Stajich &lt;<a href="mailto:jason@bioperl.org">jason@bioperl.org</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div dir="ltr">Warren -<div><br></div><div>Can you provide a specific accession as an example, there shouldn't be any call to the translation function the way this code is running for the object so I am guessing the accession number you are pointing to is protein (though Bio::DB::GenBank would complain if that were so, so I'm a little confused how this would be happening).<div>

<br></div><div>Jason</div></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Jason Stajich<br><a href="mailto:jason@bioperl.org" target="_blank">jason@bioperl.org</a><br><a href="http://bioperl.org/wiki/User:Jason" target="_blank">http://bioperl.org/wiki/User:Jason</a><br>

<a href="http://twitter.com/hyphaltip" target="_blank">http://twitter.com/hyphaltip</a></div></div>
<br><br><div class="gmail_quote">On Tue, Apr 15, 2014 at 2:23 PM, Warren Gallin <span dir="ltr">&lt;<a href="mailto:wgallin@ualberta.ca" target="_blank">wgallin@ualberta.ca</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Jason,<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; Works almost perfectly, except I am getting back the protein sequence rather than the underlying nucleotide sequence.<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; My specific code fragment is:<br>
<br>
<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; my $gb_db = Bio::DB::GenBank-&gt;new();<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; &lt;...Bunch of code that retrieves a protein GenBank formatted file and walks through the features until...&gt;<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; my $feature = $feature_object-&gt;primary_tag;<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; if ( $feature ne "CDS" ) { next; }<br>
&nbsp; &nbsp; &nbsp; &nbsp; else {<br>
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; $spliced_cds = $feature_object-&gt;spliced_seq($gb_db);<br>
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; $na_seq &nbsp; &nbsp; &nbsp;= $spliced_cds-&gt;seq;<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; }<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; &lt; More code, that leads to printing the value for $na_seq …&gt;<br>
<br>
&nbsp; &nbsp; &nbsp; &nbsp; So somehow the nucleotide sequence is being translated into protein sequence - is there some option that needs setting to prevent translation?<br>
<span class="HOEnZb"><font color="#888888"><br>
Warren<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
<br>
On Apr 15, 2014, at 1:11 PM, Jason Stajich &lt;<a href="mailto:jason@bioperl.org">jason@bioperl.org</a>&gt; wrote:<br>
<br>
&gt; This is supported in bioperl with the feature objects and the Bio::SeqFeatureI method spliced_seq -<br>
&gt; You would just have &nbsp;Bio::DB::GenBank object which you provide to the function;<br>
&gt;<br>
&gt; my $db = Bio::DB::Genbank-&gt;new();<br>
&gt; my $spliced_cds = $feature_with_remote_locations-&gt;spliced_seq($db);<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Jason Stajich<br>
&gt; <a href="mailto:jason@bioperl.org">jason@bioperl.org</a><br>
&gt; <a href="http://bioperl.org/wiki/User:Jason" target="_blank">http://bioperl.org/wiki/User:Jason</a><br>
&gt; <a href="http://twitter.com/hyphaltip" target="_blank">http://twitter.com/hyphaltip</a><br>
&gt;<br>
&gt;<br>
&gt; On Tue, Apr 15, 2014 at 11:39 AM, Warren Gallin &lt;<a href="mailto:wgallin@ualberta.ca">wgallin@ualberta.ca</a>&gt; wrote:<br>
&gt; I am having a problem finding a general method of recovering the nucleotide coding sequence for a protein sequence record.<br>
&gt;<br>
&gt; Generally tracking the CDS annotation back to the nucleotide sequence record using the accession number of the nucleotide sequence is working.<br>
&gt;<br>
&gt; One problem arises when the underlying coding sequence is spliced from multiple nucleotide records. &nbsp;Is there a general approach to automatically track down and joint the different sequence fragments from different sequence entries? &nbsp;An example of the problem can be seen if you start from the protein record with GI number 7715882. &nbsp;It is annotated as coming from three different nucleotide records. &nbsp;Is there an approach in Bioperl that will detect and download these three records and splice together the appropriate parts to get the coding sequence?<br>


&gt;<br>
&gt; The other problem that I am having is the ongoing issue of protein records annotated as highly redundant sequences , with WP-XXXXXX accession numbers. &nbsp;Has anyone found a way to retrieve the set of different nucleotide sequences that all encode a single AP-annotated protein sequence?<br>


&gt;<br>
&gt; Any help would be appreciated,<br>
&gt;<br>
&gt; Warren Gallin<br>
&gt; _______________________________________________<br>
&gt; Bioperl-l mailing list<br>
&gt; <a href="mailto:Bioperl-l@lists.open-bio.org">Bioperl-l@lists.open-bio.org</a><br>
&gt; <a href="http://lists.open-bio.org/mailman/listinfo/bioperl-l" target="_blank">http://lists.open-bio.org/mailman/listinfo/bioperl-l</a><br>
&gt;<br>
<br>
</div></div></blockquote></div><br></div>
</blockquote></div><br></div><div><br></div><div></div></body></html>