<!-- START OF HEADER -->
<HTML><HEAD>
<TITLE> EMBOSS: ProgramNameToBeReplaced documentation. </TITLE>
</HEAD>
<BODY BGCOLOR="#FFFFFF" text="#000000">
<H2> ProgramNameToBeReplaced documentation </H2>
<!-- END OF HEADER -->





<!-- CONTENTS
     This always includes the sections below.
     Other subsections can be added for individual applications.
-->
<br><H2>CONTENTS </H2>
<b> <a href="#1.0">1.0     SUMMARY                   </a></b><br>
<b> <a href="#2.0">2.0     INPUTS & OUTPUTS          </a></b><br>
<b> <a href="#3.0">3.0     INPUT FILE FORMAT         </a></b><br>
<b> <a href="#4.0">4.0     OUTPUT FILE FORMAT        </a></b><br>
<b> <a href="#5.0">5.0     DATA FILES                </a></b><br>
<b> <a href="#6.0">6.0     USAGE                     </a></b><br>    
<b> <a href="#7.0">7.0     KNOWN BUGS & WARNINGS     </a></b><br>    
<b> <a href="#8.0">8.0     NOTES                     </a></b><br>
<b> <a href="#9.0">9.0     DESCRIPTION               </a></b><br>
<b> <a href="#10.0">10.0   ALGORITHM                 </a></b><br>
<b> <a href="#11.0">11.0   RELATED APPLICATIONS      </a></b><br>
<b> <a href="#12.0">12.0   DIAGNOSTIC ERROR MESSAGES </a></b><br>
<b> <a href="#13.0">13.0   AUTHORS                   </a></b><br>
<b> <a href="#14.0">14.0   REFERENCES                </a></b><br>

<!-- SUMMARY
     Succint description of the application, particularly its inputs, outputs
     and what it does.  The same text is given at the top of the source (.c)
     file and in the <documentation> attribute of the <application definition>
     of the ACD file.
-->
<a name="1.0"></a>
<br><br><br><H2> 1.0   SUMMARY  </H2>
<-- INSERT SUMMARY TEXT HERE -->





<!-- INPUTS & OUTPUTS
     Short summary of the application inputs and outputs in its different 
     modes of usage (if appropriate). More detail than the summary.
-->
<a name="2.0"></a>
<br><br><br><H2> 2.0   INPUTS & OUTPUTS          </H2>
<-- INSERT TEXT HERE -->





<!-- INPUT FILE FORMAT 
     Description and example(s) of input file formats.  Should provide enough
     information to write and parse the file.  Should describe the format in 
     unusual cases - null input, etc.

     Cannot use the test data files because they might be empty or need 
     hand-editing 

     Use "<b>ProgramNameToBeReplaced</b> reads any normal sequence USAs." if
     appropriate.
-->
<a name="3.0"></a>
<br><br><br><H2> 3.0   INPUT FILE FORMAT         </H2>
<-- INSERT TEXT HERE --><br>

<br><b>Figure XXX   Excerpt from a XXX (input) file </b>
<table><td bgcolor="#CFCCFF">
<pre>
<-- INSERT EXAMPLE INPUT FILE FORMAT HERE -->
</pre>
</table>




<!-- OUTPUT FILE FORMAT 
     Description and example(s) of output file formats.  Should provide enough
     information to write and parse the file.  Should describe the format in 
     unusual cases - null input, etc.  
     If the standard description of the avalable report formats is required, 
     use:   #include file="inc/reportformats.ihtml"
     Use "Outputs a graph to the specified graphics device."
     or  "outputs a report format file. The default format is ..."
     if appropriate.
-->
<a name="4.0"></a>
<br><br><br><H2> 4.0   OUTPUT FILE FORMAT         </H2>
<-- INSERT TEXT HERE -->

<br><br><b>Figure XXX   Excerpt from a XXX (output) file </b>
<table><td bgcolor="#CFCCFF">
<pre>
<-- INSERT EXAMPLE OUTPUT FILE FORMAT HERE -->
</pre>
</table>




<!-- DATA FILES         
     Any data files used (e.g. translation table file, substitution matrix 
     etc.  This includes example data file formats if they are not obvious.
     For a standard description of what data files are and how embossdata can
     be used to inspect and retrieve them, use:
     #include file="inc/localfiles.ihtml" 
-->

<a name="5.0"></a>
<br><br><br><H2> 5.0   DATA FILES                </H2>
<-- INSERT TEXT HERE -->







<!-- USAGE
     Example usage, as run from the command-line.
     Many examples illustrating different behaviours is good.
-->
<a name="6.0"></a>
<br><br><br><H2> 6.0   USAGE                     </H2>
<H3> 6.1   COMMAND LINE ARGUMENTS </H3>
<table><td bgcolor="#FFCCFF">
<pre>
<!-- Paste in results of "acdtable application_name" here -->
</pre>
</td></table>

<H3> 6.2 EXAMPLE SESSION </H3>
An example of interactive use of ProgramNameToBeReplaced is shown below.
<table><td bgcolor="#FFCCFF">
<pre>
<-- INSERT EXAMPLE SESSION TEXT HERE --><br>
</pre>
</table>


<br> 
<br>The following command line would achieve the same result.
<br>
<table><td bgcolor="#FFCCFF">
<pre> 
<-- INSERT COMMAND LINE TEXT HERE --><br>
</pre> 
</table>

<!-- KNOWN BUGS & WARNINGS
     Bugs that have not yet been fixed, easily missued features, problems
     and caveats etc. Potentially stupid things the program will let you do.
-->
<a name="7.0"></a>
<br><br><br><H2> 7.0   KNOWN BUGS & WARNINGS     </H2>
<-- INSERT TEXT HERE -->





<!-- NOTES
     Important general remarks, including:
       Restrictions.
       Interesting behaviour.
       Useful things you can do with this program.
       Future plans.
       etc.
-->
<a name="8.0"></a>
<br><br><br><H2> 8.0   NOTES                     </H2>
<-- INSERT TEXT HERE -->


<H3> 8.1   GLOSSARY OF FILE TYPES    </H3>
<table BORDER CELLSPACING=5 CELLPADDING=5 BGCOLOR="#f5f5ff" >
<tr>
<td><b>FILE TYPE</b></td>
<td><b>FORMAT</b></td>
<td><b>DESCRIPTION</b></td>
<td><b>CREATED BY <b></td>
<td><b>SEE ALSO</b></td>
</tr>
<tr>
<td><b> Domain classification file (for SCOP)</b></td>
<td> DCF format (EMBL-like). </td>
<td> Classification and other data for domains from SCOP.  </td>
<td> <a href="scopparse.html">SCOPPARSE</a> </td>
<td> Domain sequence information can be added to the file by using DOMAINSEQS.  </td>
</tr>
<tr>
<td><b> Domain classification file (for CATH)</b></td>
<td> DCF format (EMBL-like). </td>
<td> Classification and other data for domains from CATH.  </td>
<td> <a href="cathparse.html">CATHPARSE</a> </td>
<td> Domain sequence information can be added to the file by using DOMAINSEQS.  </td>
</tr>
<tr>
<td><b> Clean coordinate file (for protein) </b></td>
<td> CCF format (EMBL-like).</td>
<td> Protein coordinate and derived data for a single PDB file.  The data are 'cleaned-up': self-consistent and error-corrected.  </td>
<td> <a href="pdbparse.html">PDBPARSE</a> </td>
<td> Records for residue solvent accessibility and secondary structure are added to the file by using PDBPLUS. </td>
</tr>
<tr>
<td><b> Clean coordinate file (for domain)</b></td>
<td> CCF format (EMBL-like).</td>
<td> Protein coordinate and derived data for a single domain from SCOP or CATH. The data are 'cleaned-up': self-consistent and error-corrected. </td>
<td> <a href="domainer.html">DOMAINER</a></td>
<td> Records for residue solvent accessibility and secondary structure are added to the file by using PDBPLUS.</td>
</tr>
<tr>
<td><b>Domain PDB file </b></td>
<td> PDB format. </td>
<td> Protein coordinate data for a single domain from SCOP or CATH. </td>
<td> <a href="domainer.html">DOMAINER</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Contact file (intra-chain residue-residue contacts)</b></td>
<td> CON format (EMBL-like.) </td>
<td> Intra-chain residue-residue contact data for a protein or a domain from SCOP or CATH.  </td>
<td> <a href="contacts.html">CONTACTS</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Contact file (inter-chain residue-residue contacts)</b></td>
<td> CON format (EMBL-like.) </td>
<td> Inter-chain residue-residue contact data for a protein or a domain from SCOP or CATH.  </td>
<td> <a href="interface.html">INTERFACE</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Contact file (residue-ligand contacts)</b></td>
<td> CON format (EMBL-like.) </td>
<td> Residue-ligand contact data for a protein or a domain from SCOP or CATH. </td>
<td> <a href="funky.html">FUNKY</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Domain hits file </b></td>
<td> DHF format (FASTA-like). </td>
<td> Database hits (sequences) with domain classification information.  The hits are relatives to a SCOP or CATH family (or other node in the structural hierarchies) and are found from a search of a sequence database. </td>
<td> <a href="seqsearch.html">SEQSEARCH</a> (hits retrieved by PSIBLAST)</td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Domain alignment file </b></td>
<td> DAF format (CLUSTAL-like). </td>
<td> Sequence alignment of domains belonging to the same SCOP or CATH family (or other node in the structural hierarchies).  The file is annotated with domain family classification information.</td>
<td> <a href="domainalign.html">DOMAINALIGN</a> (structure-based sequence alignment of domains of known structure). </td>
<td> DOMAINALIGN alignments can be extended with sequence relatives (of unknown structure) to the family in question by using SEQALIGN. </td>
</tr>
<tr>
<td><b> Hits file</b></td>
<td> Text file of classified hits </td>
<td> A list of hits (e.g. from a prediction method) that are classified and rank-ordered on the basis of score, p-value, E-value etc.  </td>
<td> <a href="sigscan.html">SIGSCAN</a> and <a href="libscan.html">LIBSCAN</a> (hits from searches of a discriminating element (hidden Markov model, profile or signature) against a sequence database).   </td>
<td> ROCPLOT is run on the files to perform Receiver Operator Characteristic (ROC) analysis on the hits.  </td>
</tr>



<tr>
<td><b>Signature file </b></td>
<td> Contains a sparse sequence signature. </td>
<td> <a href="siggen.html">SIGGEN</a>, <a href="libgen.html">LIBGEN</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Signature hits file </b></td>
<td> Contains the results of a search of a discriminating element (e.g. a protein signature, hidden Markov model, simple frequency matrix, Gribskov profile or Hennikoff profile) against a sequence database. </td>
<td> <a href="sigscan.html">SIGSCAN</a> and <a href="libscan.html">LIBSCAN</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Signature alignment file</b></td>
<td> Contains the alignments resulting from a search of a sparse protein signature against a sequence database. </td>
<td> <a href="sigscan.html">SIGSCAN</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Domain families & ambiguities file </b></td>
<td> DHF format (FASTA-like). </td>
<td> Contains sequence relatives (hits) for each of a number of different SCOP or CATH families found from PSIBLAST searches of a sequence database.  The file contains the collated search results for the indvidual families; only those hits of unambiguous family assignment are included.  Hits of ambiguous family assignment are assigned as relatives to a SCOP or CATH superfamily or fold instead and are collated into a 'domain ambiguities file'. </td>
<td> <a href="seqsort.html">SEQSORT</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Domain validation file </b></td>
<td> Contains sequence relatives (hits) for each of a number of different SCOP or CATH families, superfamilies and folds.  The file contains the collated results from PSIBLAST searches of a sequence database for the indvidual families; hits of unambiguous family assignment are listed under their respective family, otherwise a hit is assigned as relatives to a superfamily or fold instead.   </td>
<td> The domain validation file is generated by using SEQNR and is in clean format. </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Library scan file</b></td>
<td> Contains the results of a search of a sequence against a library of discriminating elements for SCOP or CATH families (one directory for each type of element, e.g. sparse sequence signatures, profiles or HMMs).  The library scan file contains, for each invividual type of discriminating element and for the combination of the elements, classification and other data for each of a user-defined number of top-scoring families (discriminators) from SCOP or CATH. </td>
<td> LIBSCAN </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Hidden Markov models</b></td>
<td> A file containing a hidden Markov model. </td>
<td> Can be generated for SCOP or CATH families by using LIBGEN which uses the HMMER & SAM-T2K packages. </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> Simple frequency matrices, Gribskov profiles, Hennikoff profiles & position-specific scoring matrices</b></td>
<td> A file containing a simple frequency matrix, Gribskov profile, Hennikoff profile or position-specific scoring matrix.  </td>
<td> Can be generated for SCOP or CATH families by using LIBGEN, which uses the BLAST package. </td>
<td> N.A. </td>
</tr>
<tr>
<td><b> swissprot:PDB equivalence file</b></td>
<td> EMBL-like format. </td>
<td> A file containing swissprot identifiers for PDB codes. </td>
<td> Included in the EMBOSS distribution</td>
<td> N.A. </td>
</tr>
<tr>
<td><b>Dictionary of heterogen groups  </b></td>
<td> A file of the dictionary of heterogen groups in PDB. </td>
<td> <a href="hetparse.html">HETPARSE</a> </td>
<td> N.A. </td>
</tr>
<tr>
<td><b>van der Waals radii  </b></td>
<td> A file of van der Waals radii for atoms in amino acid residues. Part of the emboss distribution.</td>
<td> N.A. </td>
<td> N.A. </td>
</tr>
</table>





<!-- DESCRIPTION
     A complete, non-technical, user-level description of the application.
-->
<a name="9.0"></a>
<br><br><br><H2> 9.0   DESCRIPTION               </H2>
<-- INSERT TEXT HERE -->





<!-- ALGORITHM
     A technical description of algorithmic aspects, describing exactly how
     the key aspects of the application work.
-->
<a name="10.0"></a>
<br><br><br><H2> 10.0  ALGORITHM                 </H2>
<-- INSERT TEXT HERE -->





<!-- RELATED APPLICATIONS
     Other applications that either generate the input, use the output or 
     are in some other way related to the application are described here. 
     (Take this from "Sister applications" in the old documentation)
-->
<a name="11.0"></a>
<br><br><br><H2> 11.0  RELATED APPLICATIONS      </H2>
<table BORDER CELLSPACING=5 CELLPADDING=5 BGCOLOR="#f5f5ff" >
<tr>
<td><b>APPLICATION</b></td>
<td><b>DESCRIPTION</b></td>
</tr>
<tr>
<td><b><a href="pdbparse.html">PDBPARSE</a> </b></td>
<td> Parses PDB files and writes CCF files (clean coordinate files) for proteins.</td>
</tr>
<tr>
<td><b><a href="pdbplus.html">PDBPLUS</a> </b></td>
<td> Add residue solvent accessibility and secondary structure data to
     a CCF file (clean coordinate file) for a protein or domain. </td>
</tr>
<tr>
<td><b><a href="domainer.html">DOMAINER</a> </b></td>
<td> Reads CCF files (clean coordinate files) for proteins and writes CCF files for domains in a DCF file (domain classification file).</td>
</tr>
<tr>
<td><b><a href="contacts.html">CONTACTS</a> </b></td>
<td> Reads CCF files (clean coordinate files) and writes CON files (contact files) of intra-chain residue-residue contact data. </td>
</tr>
<tr>
<td><b><a href="interface.html">INTERFACE</a> </b></td>
<td> Reads CCF files (clean coordinate files) and writes CON files (contact files) of inter-chain residue-residue contact data. </td>
</tr>
<tr>
<td><b><a href="funky.html">FUNKY</a> </b></td>
<td> Reads CCF files (clean coordinate files) and writes CON files (contact files) of residue-ligand contact data for domains in a DCF file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="scopparse.html">SCOPPARSE</a> </b></td>
<td> Reads raw SCOP classification files and writes a DCF file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="cathparse.html">CATHPARSE</a> </b></td>
<td> Reads raw CATH classification files and writes DCF file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="domainreso.html">DOMAINRESO</a> </b></td>
<td> Removes low resolution domains from a DCF file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="domainseqs.html">DOMAINSEQS</a> </b></td>
<td> Adds sequence records to a DCF file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="domainnr.html">DOMAINNR</a> </b></td>
<td> Removes redundant domains from a DCF file (domain classification file).  The file must contain domain sequence information, 
which can be added by using DOMAINSEQS. </td>
</tr>
<tr>
<td><b><a href="domainrep.html">DOMAINREP</a> </b></td>
<td> Reorder DCF file (domain classification file) so that the representative structure of each
      user-specified node is given first. </td>
</tr>
<tr>
<td><b><a href="domainalign.html">DOMAINALIGN</a> </b></td>
<td> Generates structure-based sequence alignments for nodes in a DCF
      file (domain classification file). </td>
</tr>
<tr>
<td><b><a href="seqsearch.html">SEQSEARCH</a> </b></td>
<td> Generate DHF files (domain hits files) of database hits (sequences) from a DAF file (domain alignment file) or other sequences by using PSI-BLAST.</td>
</tr>
<tr>
<td><b><a href="seqwords.html">SEQWORDS</a> </b></td>
<td>Generates DHF files (domain hits files) of database hits (sequences) for nodes in a DCF file (domain classification file) by keyword search of UniProt.</td>
</tr>
<tr>
<td><b><a href="seqfraggle.html">SEQFRAGGLE</a> </b></td>
<td> Removes fragments from DHF files (domain hits files) or other files of sequences. </td>
</tr>
<tr>
<td><b><a href="seqsort.html">SEQSORT</a> </b></td>
<td>  Reads DHF files (domain hits files) of database hits (sequences) and removes hits of ambiguous classification. </td>
</tr>
<tr>
<td><b><a href="seqnr.html">SEQNR</a> </b></td>
<td>  Removes redundancy from files of database hits (sequences). </td>
</tr>
<tr>
<td><b><a href="seqalign.html">SEQALIGN</a> </b></td>
<td> Reads a DAF file (domain alignment file) and a DHF (domain hits file) and writes a DAF file extended with the hits.</td>
</tr>
<tr>
<td><b><a href="libgen.html">LIBGEN</a> </b></td>
<td>Generates various type of discriminator for each alignment in a
      directory.  </td>
</tr>
<tr>
<td><b><a href="libscan.html">LIBSCAN</a> </b></td>
<td> Generates hits (sequences) from searches of various types of
      discriminator (HMMs, profiles etc) against a sequence database.  
      Or generates hits from screening sequences against a library of 
      such discriminators. </td>
</tr>
<tr>
<td><b><a href="siggen.html">SIGGEN</a> </b></td>
<td>Generates a sparse protein signature from an alignment and residue
     contact data.  </td>
</tr>
<tr>
<td><b><a href="sigscan.html">SIGSCAN</a> </b></td>
<td>  Generates hits (sequences) from scanning a signature against a
     sequence database. </td>
</tr>
<tr>
<td><b><a href="sigplot.html">SIGPLOT</a> </b></td>
<td>Reads a signature hits file and a validation file and generates
     gnuplot data files of signature performance.  </td>
</tr>
<tr>
<td><b><a href=".html">ROCPLOT</a> </b></td>
<td> Provides interpretation and graphical display of the 
                  performance of discriminating elements (e.g. profiles for
                  protein families).  rocplot reads file(s) of hits from 
                  discriminator-database search(es), performs ROC analysis 
                  on the hits, and writes graphs illustrating the diagnostic 
                  performance of the discriminating elements. </td>
</tr>
<tr>
<td><b><a href="hetparse.html">HETPARSE</a> </b></td>
<td> Converts raw dictionary of heterogen groups to a file in clean
     format. </td>
</tr>
</table>





<!-- DIAGNOSTIC ERROR MESSAGES
     Description of error messages or log file, if one is written.
-->
<a name="12.0"></a>
<br><br><br><H2> 12.0  DIAGNOSTIC ERROR MESSAGES </H2>
<-- INSERT TEXT HERE -->






<!-- AUTHORS -->
<a name="13.0"><br><br><br><H2> 13.0  AUTHORS                   </H2></a>
Jon Ison <a href="mailto:jison@rfcgr.mrc.ac.uk">(jison@rfcgr.mrc.ac.uk)</a>
<br>
MRC Rosalind Franklin Centre for Genomics Research
Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SB, UK




<!-- REFERENCES
     Quote the paper where the application was first published, described, used etc. 
-->
<a name="14.0"></a>
<br><br><br><H2> 14.0  REFERENCES                </H2>
Please cite the authors and EMBOSS.
<br><br>
<i>Rice P, Bleasby A.J.  2000.  EMBOSS - The European Molecular Biology Open Software Suite.  Trends in Genetics, 15:276-278.  See also http://www.uk.embnet.org/Software/EMBOSS</i>

<H3>14.1 Other useful references  </H3>

<br>

</BODY>
</HTML>