Versions for pftools - 19 package(s) known merci Sebsauvage pour la découverte de repology
qui permet de rechercher des packages dans TOUS les dépôts existants (Debian, Ubuntu, LinuxMint, Fedora, Gentoo, Arch, Manjaro, Raspbian, OpenSUSE…)
Pftools contient tous les logiciels nécessaires pour établir des profils généralisés de protéines et d'ADN et les utiliser pour scanner et aligner les séquences, et pour effectuer des recherches dans les bases de données.
Licence GPL pour pftools
Construction d'une banque de données de promoteurs bactériens.
« une séquence d'ADN (un élément cis-régulateur) présente au niveau de la séquence promotrice d'une partie des gènes des eucaryotes. Cette séquence d'ADN codée TATA se situe à environ 25 nucléotides en amont du premier nucléotide transcrit (N+1). Cette séquence sert en partie de lieu de reconnaissance à l'ARN polymérase chez les eucaryotes. » Boite TATA, wikipedia
Itshack Pe`er (1999-02-03), expose le problème de la détection des promoteurs bactériens1) :
Promoter regions in DNA sequences do not follow a strict pattern. This makes the identification of promoter regions more difficult. Althoughpromoter regions vary, it is usually possible to find a DNA sequence(called the consensus sequence) to which all the of them are verysimilar. For example, the consensus in the bacterium E.coli, based on thestudy of 263 promoters, is TTGACA followed by 17 uncorrelated base pairs,followed by TATAAT, with the latter, called TATA box, located about 10bases upstream of the transcription start site. None of the 263 promoterregions exactly match the above consensus sequence. Nevertheless, theconsensus sequence is representative: nearly all of E.coli's promotersterminate with 2 of the 3 specified letters of the sequence TAxyzT,80-90% have all 3, and xyz is TAA in approximately 50% of the promoterregions. Due to the high variability, exact methods cannot be used foridentifying promoter regions by the TATA box.
Escherichia coli O157:H7 str. Sakai DNA, complete genome.
<chemin>/…/GCF_000008865.2_ASM886v2_genomic.gbff
bioinfo/<chemin>∕…/ecoli.gbff
, si le choix est pris de renommer le fichier.« *_genomic.gbff.gz (Genomic GenBank format). GenBank flat file format of the genomic sequence(s) in the assembly. This file includes both the genomic sequence and the CONTIG description (for CON records), hence, it replaces both the.gbk
.gbs
format files that were provided in the old genomes FTP directories. » source Faq NBCI
ATTENTION 2 : Ne choisissez pas les 30 premiers gènes, préférer prendre en un peu au hasard dans les 4,5 Mb du génome, de façon à ce que chaque binome ait un échantillonage différent. Rendez-vous dans la partie Séquence du génome de E. coli et, en vous aidant de la numérotation du fichier .gbff, extrayez la zone 0 à -15 de chaque promoteur. Veillez à identifier le consensus TATAAT
se trouvant environ à -10 et centrez la zone sur ce consensus.
« The Pribnow box (also known as the Pribnow-Schaller box) is the sequence TATAAT of six nucleotides (thymine, adenine, thymine, etc.) that is an essential part of a promoter site on DNA for transcription to occur in bacteria » source Pribnow_box
Sauvegardez ces 30 régions promotrices dans un fichier au format fasta. Toutes les séquences doivent avoir un nom différent pour être lisibles par clustalw dans ce qui est proposé ensuite.
Objectifs:
.msf
. Quittez Clustal.
Le programme de création de profil est pfmake
. Il nécessite 2 arguments obligatoires. Le fichier d'alignement msf
et un fichier de matrice de score qui donne la distance entre résidus. Pour les acides nucléiques, la matrice à utiliser se trouve dans ~bioinfo/<chemin>/…/dna.cmp
Lancez pfmake
sans aucun argument de façon à voir la liste et l'ordre des arguments.
--> pfmake pfmake 2.3 revision 4 Usage: pfmake [ -0123abcehlsEFGHILMSTX ] [ msf-file | - ] score-matrix [ profile-file ] [ parameters ] options: -0: global alignment mode. -1: domain global alignment mode. -2: semi-global alignment mode. -3: local alignment mode. -a: asymmetrical gap weighting. -b: block profile mode. -c: circular profile. -e: enable endgap-weighting mode. -h: print usage help text. -m: input sequences in MSA format. -l: do not impose limit on line length. -s: symmetrical gap weighting. -E<value>: gap extension penalty (default: 0.2). -F<value>: output score multiplier (default: 100) -G<value>: gap opening penalty (default: 2.1) -H<value>: high cost initiation/termination score (default: *) -I<value>: gap penalty multiplier increment (default: 0.1) -L<value>: low cost initiation/termination score (default: 0). -M<value>: maximum gap penalty multiplier (default: 0.333). -S<value>: score matrix multiplier (default: 0.1) -T<value>: gap region threshold (default: 0.01) -X<value>: gap excision threshold (default: 0.5) valid (but deprecated) parameters are: [E=gap-extension-weight] use option -E instead [F=output-score-multiplier] use option -F instead [G=gap-weigth] use option -G instead [H=high-cost-init-term-score] use option -H instead [I=Ginc-multiplier] use option -I instead [L=low-cost-init-term-score] use option -L instead [M=Gmax-multiplier] use option -M instead [S=score-matrix-multiplier] use option -S instead [T=gap-region-threshhold] use option -T instead [X=gap-excision-threshold] use option -X instead
Lancez pfmake
avec les bons arguments. Le profil doit s'afficher à l'écran. Tentez d'y retrouver les colonnes pour TAxxxT. Sauvegardez le profil dans un fichier. (copier/coller).
pfsearch
recherche des occurence d'un profil dans une banque de séquences. Pfmake requiert deux arguments: le profil et la banque de séquences. Lancez pfsearch sans argument pourvoir la liste et l'ordre des arguments.--> pfsearch pfsearch 2.3 revision 4 Usage: pfsearch [ -abCdfhlLmMkrsuvWxyz ] [ profile-file | - ] [ seq-library-file | - ] [ parameters ] options: -a: report optimal alignment for all sequences. -b: search complementary strand of DNA sequences. -f: input sequence file is in FASTA format. -h: print usage help text. -l: indicate highest cut-off level (number). -L: indicate highest cut-off level (text). -m: report individual matches for circular profiles. -r: use raw score. -u: force profile disjointness to UNIQUE. -C<value>: cut-off value. An integer value forces -r. Same as parameter C. -M<value>: set the normalization mode to use for the score computation. Overrides the profile PRIORITY parameter. output modifiers: -d: impose length limit on sequence description. -k: output using the xPSA header (using keyword=value pairs). -s: list sequences of the matched regions. -v: suppress warnings on stderr. -x: list alignments in PSA format. -y: list alignments in human readable form. -z: indicate profile start and stop positions. -W<value>: specifies the output width. Same as parameter W. valid (but deprecated) parameters are: [C=cut-off-value] use option -C instead [W=output-width] use option -W instead
pfsearch
sur le génome de coli.
Recherchez de la même façon des promoteurs dans une séquencealéatoire ~infobio/Data/coli.rnd (séquence de même longueur etmême composition en A,T,G,C
que le génome de E. coli). Voyez comment l'option de score-seuil C=
permet de réduire le nombre de solutions. Essayez différents scores-seuils C=2.0
, C=5.0
, etc. de façon à réduire à moins de 100 solutions dans le génome aléatoire.
Refaites une recherche avec ce même seuil dans votre banque de promoteurs créé préalablement (format fasta). Quelles conclusions entirez-vous sur la qualité des prédictions faites avec ce profil.
Lancez pfsearch
sur le génome de Mycoplasma genitalium. Le profil est-il efficace pour détecter des promoteurs dans un autre génome