[BioPython] Translation issues

Mon Jan 28 09:42:22 EST 2008

Hi,
Please see:
http://en.wikipedia.org/wiki/Start_codon
"In addition to AUG, alternative start codons, mainly GUG and UUG are
used in prokaryotes. For example E. coli uses 77% ATG (AUG), 14% GTG
(GUG), 8% TTG (UUG) and a few others."

Really the only way is to compare the sequences after the first
position (a[1:]==b[1:]) assuming you expect an exact match.
Alternatively you need to perform some type of alignment and flag
unexpected differences.

Regards
Bruce

On Jan 28, 2008 3:58 AM, Renato Alves <rjalves at igc.gulbenkian.pt> wrote:
> Hi.
>
> I'm trying to automate and validate the process of translation in
> sequences downloaded from NCBI.
>
> Basically I fetch a GenBank file, extract the DNA sequences and use the
> Translation module of BioPython to check if it matches. The problem is
> that the starting aminoacid in NCBI is always M but with the Translation
> module isn't, even if the codon is marked as "starting" in the
> corresponding codon table.
>
> So for instance, the sequence :
>
> "TTGGATTATTTAATAGAGGGTTTAAGTTATAATCCTGTAGACCACACAGCTACATCTGGACCAACTGTAATGGAAGCTGCACTGATTGCTAA
> ACATGTTTATTCAGGGGAAAAAGGAGATGAATTACCCGGTGGATGGAAAATGCTTGAAGATCCATATATGGTTGGAGGTCTTCGAATGGGC
> GTATATGGGAGAAAAGGTGAGGATGGAGAGATGGAATATGTAATTGCAAATGCAGGAACAGAACCTACTAGTTTGATAGATTGGGAGAATA
> ATTTGAAACAACCTTTTGGGAAATCAGAAGATATGAAAAATTCTTTAGCTTTTGTTGAAGAGTTTATGAAAAACAATCCAAGTATTAATGTAA
> CATTTGTTGGACATTCAAAAGGTGGGGCTGAAGCAGCTGCAAATGCGGTACTTACAAATAGGAATGCAATACTATTTAATCCTGCCACAGTG
> AACTTAGAATCATATTTAAAGCCATATGGTGTGAACAAGTCAAATTATACTGCTGAGATGACGGCATTTATTGTAGAAGACGAAATTTTGAATA
> ATATCTTTGGATTTATATCAACGCCGATAGACAAGGTAGTTTATTTACCCAGACAGCATTCTTTTTTCATATCGATTCCACTTATAGATATGGTA
> AATTCGATTCGAAATCATTCGATGGATGCAACGATAAAGGCAATAGAAGAATGGGAGGAAAATAGACAATGA"
>
> with codon table 11 will translate to:
>
> a="LDYLIEGLSYNPVDHTATSGPTVMEAALIAKHVYSGEKGDELPGGWKMLEDPYMVGGLRMGVYGRKGEDGEMEYVIANAGTEPTSLIDWENN
> LKQPFGKSEDMKNSLAFVEEFMKNNPSINVTFVGHSKGGAEAAANAVLTNRNAILFNPATVNLESYLKPYGVNKSNYTAEMTAFIVEDEILNNIFG
> FISTPIDKVVYLPRQHSFFISIPLIDMVNSIRNHSMDATIKAIEEWEENRQ"
>
> while the translation on the GenBank file is:
>
> b="MDYLIEGLSYNPVDHTATSGPTVMEAALIAKHVYSGEKGDELPGGWKMLEDPYMVGGLRMGVYGRKGEDGEMEYVIANAGTEPTSLIDWENN
> LKQPFGKSEDMKNSLAFVEEFMKNNPSINVTFVGHSKGGAEAAANAVLTNRNAILFNPATVNLESYLKPYGVNKSNYTAEMTAFIVEDEILNNIFG
> FISTPIDKVVYLPRQHSFFISIPLIDMVNSIRNHSMDATIKAIEEWEENRQ"
>
> causing the test a == b to fail. The sequences are exactly the same with
> the exception of the initial aminoacid
>
> I could do the test in other ways and remove the initial letter, but
> that wouldn't work globally.
>
> So, is this the right behavior or am I missing something?
>
> Any other suggestions to do this test will also help.
>
> Thanks
> --
> Renato Alves
> _______________________________________________
> BioPython mailing list  -  BioPython at lists.open-bio.org
> http://lists.open-bio.org/mailman/listinfo/biopython
>