====== Tests avec pftools ====== [[https://repology.org/project/pftools/versions|Versions for pftools - 19 package(s) known]] //merci Sebsauvage pour la découverte de ''repology'' qui permet de rechercher des packages dans TOUS les dépôts existants (Debian, Ubuntu, LinuxMint, Fedora, Gentoo, Arch, Manjaro, Raspbian, OpenSUSE...)// [[https://github.com/sib-swiss/pftools3|Pftools]] contient tous les logiciels nécessaires pour établir des profils généralisés de protéines et d'ADN et les utiliser pour scanner et aligner les séquences, et pour effectuer des recherches dans les bases de données. **Licence GPL pour pftools** ===== Exercice ===== ==== Rouages de l'analyse de séquenceg ==== Construction d'une banque de données de promoteurs bactériens. === Objectif === - Établir une collection de promoteurs de gènes bactériens dans la région 0 à -15 (autour de la [[wp>fr:Boîte_TATA|boite TATA]]). > « une séquence d'ADN (un élément cis-régulateur) présente au niveau de la séquence promotrice d'une partie des gènes des eucaryotes. Cette séquence d'ADN codée TATA se situe à environ 25 nucléotides en amont du premier nucléotide transcrit (N+1). Cette séquence sert en partie de lieu de reconnaissance à l'ARN polymérase chez les eucaryotes. » Boite TATA, wikipedia Itshack Pe`er (1999-02-03), expose le problème de la détection des promoteurs bactériens((https://www.cs.tau.ac.il/~rshamir/algmb/98/scribe/html/lec07/node7.html)) : > Promoter regions in DNA sequences do not follow a strict pattern. This makes the identification of promoter regions more difficult. Althoughpromoter regions vary, it is usually possible to find a DNA sequence(called the consensus sequence) to which all the of them are verysimilar. For example, the consensus in the bacterium E.coli, based on thestudy of 263 promoters, is TTGACA followed by 17 uncorrelated base pairs,followed by TATAAT, with the latter, called TATA box, located about 10bases upstream of the transcription start site. None of the 263 promoterregions exactly match the above consensus sequence. Nevertheless, theconsensus sequence is representative: nearly all of E.coli's promotersterminate with 2 of the 3 specified letters of the sequence TAxyzT,80-90% have all 3, and xyz is TAA in approximately 50% of the promoterregions. Due to the high variability, exact methods cannot be used foridentifying promoter regions by the TATA box. === Étapes ==== - Obtenir les fichiers du génome [[wp>fr:Escherichia_coli]] sur [[https://www.ncbi.nlm.nih.gov/nuccore/?term=E.+coli|genbank]], pour ''Escherichia coli O157:H7 str. Sakai DNA, complete genome.'' - Le dossier compressé ~13 Mo - On le trouve également sur un serveur ftp : ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2 - notre fichier cible sera ''/…/GCF_000008865.2_ASM886v2_genomic.gbff'' - Ouvrir avec éditeur de texte le fichier Genbank du génome de E. coli, par exemple dans ''bioinfo/∕…/ecoli.gbff'', si le choix est pris de renommer le fichier. - Noter les positions d'une trentaine de "plus un de transcription". C'est à dire des positions de début de transcription identifiées par "promoter .... predicted +1" ou "promoter ... documented +1" se trouvant juste avant une séquence codante (CDS). {{e-coli_vscodium.png}} {{e-coli_vscodium_2.png}} > « *_genomic.gbff.gz (Genomic GenBank format). GenBank flat file format of the genomic sequence(s) in the assembly. This file includes both the genomic sequence and the CONTIG description (for CON records), hence, it replaces both the ''.gbk'' ''.gbs'' format files that were provided in the old genomes FTP directories. » source [[https://www.ncbi.nlm.nih.gov/genome/doc/ftpfaq/|Faq NBCI]] __**ATTENTION 1**__ : si vous prenez un gène se trouvant sur le brin opposé (marqué "complement"), le promoteur se trouve après le CDS, et surla séquence complémentaire à celle que l'on peut voir: plus compliqué. __**ATTENTION 2**__ : Ne choisissez pas les 30 premiers gènes, préférer prendre en un peu au hasard dans les 4,5 Mb du génome, de façon à ce que chaque binome ait un échantillonage différent. Rendez-vous dans la partie Séquence du génome de E. coli et, en vous aidant de la numérotation du fichier .gbff, extrayez la zone 0 à -15 de chaque promoteur. Veillez à identifier le consensus ''TATAAT'' se trouvant environ à -10 et centrez la zone sur ce consensus. > « The Pribnow box (also known as the Pribnow-Schaller box) is the sequence TATAAT of six nucleotides (thymine, adenine, thymine, etc.) that is an essential part of a promoter site on DNA for transcription to occur in bacteria » source [[wp>Pribnow_box]] Sauvegardez ces 30 régions promotrices dans un fichier au format [[wp>fr:FASTA_(format_de_fichier)|fasta]]. Toutes les séquences doivent avoir un nom différent pour être lisibles par [[https://repology.org/project/clustalw/versions|clustalw]] dans ce qui est proposé ensuite. ==== Création d'un profil de boite TATA bactérienne avec pftools ==== Objectifs: - Construire un profil (ou matrice score-position) synthétisant les informations contenues dans les promoteurs bactériens, dans la région 0à -15. Les séquences promotrices dans votre fichier Fasta sont centrées sur la boite TATA et peuvent donc être considérées comme alignées.La suite de programmes de construction de profil PFTOOL requiertun alignement au format MSF. Nous allons utiliser clustalw pourconvertir le fichier fasta en MSF. Lancez clustalw. chargez l'alignement fasta (option 1). Passez au menu "Multiple alignments",puis "Output format Options". Choisissez "Toggle GCG/MSF formatoutput", puis "create alignment output file now". Clustalw doit creer un fichier dont l'extension est ''.msf''. Quittez Clustal. Le programme de création de profil est ''pfmake''. Il nécessite 2 arguments obligatoires. Le fichier d'alignement ''msf'' et un fichier de matrice de score qui donne la distance entre résidus. Pour les acides nucléiques, la matrice à utiliser se trouve dans ''~bioinfo//…/dna.cmp'' Lancez ''pfmake'' sans aucun argument de façon à voir la liste et l'ordre des arguments. --> pfmake pfmake 2.3 revision 4 Usage: pfmake [ -0123abcehlsEFGHILMSTX ] [ msf-file | - ] score-matrix [ profile-file ] [ parameters ] options: -0: global alignment mode. -1: domain global alignment mode. -2: semi-global alignment mode. -3: local alignment mode. -a: asymmetrical gap weighting. -b: block profile mode. -c: circular profile. -e: enable endgap-weighting mode. -h: print usage help text. -m: input sequences in MSA format. -l: do not impose limit on line length. -s: symmetrical gap weighting. -E: gap extension penalty (default: 0.2). -F: output score multiplier (default: 100) -G: gap opening penalty (default: 2.1) -H: high cost initiation/termination score (default: *) -I: gap penalty multiplier increment (default: 0.1) -L: low cost initiation/termination score (default: 0). -M: maximum gap penalty multiplier (default: 0.333). -S: score matrix multiplier (default: 0.1) -T: gap region threshold (default: 0.01) -X: gap excision threshold (default: 0.5) valid (but deprecated) parameters are: [E=gap-extension-weight] use option -E instead [F=output-score-multiplier] use option -F instead [G=gap-weigth] use option -G instead [H=high-cost-init-term-score] use option -H instead [I=Ginc-multiplier] use option -I instead [L=low-cost-init-term-score] use option -L instead [M=Gmax-multiplier] use option -M instead [S=score-matrix-multiplier] use option -S instead [T=gap-region-threshhold] use option -T instead [X=gap-excision-threshold] use option -X instead Lancez ''pfmake'' avec les bons arguments. Le profil doit s'afficher à l'écran. Tentez d'y retrouver les colonnes pour TAxxxT. Sauvegardez le profil dans un fichier. (copier/coller). ==== Recherche de promoteurs bactériens avec pftools ==== === Objectif === * Utiliser le profil créé à l'exercice précédent pour identifier lespromoteurs dans d'autres génomes. === Étapes === * Le programme ''pfsearch'' recherche des occurence d'un profil dans une banque de séquences. Pfmake requiert deux arguments: le profil et la banque de séquences. Lancez pfsearch sans argument pourvoir la liste et l'ordre des arguments. --> pfsearch pfsearch 2.3 revision 4 Usage: pfsearch [ -abCdfhlLmMkrsuvWxyz ] [ profile-file | - ] [ seq-library-file | - ] [ parameters ] options: -a: report optimal alignment for all sequences. -b: search complementary strand of DNA sequences. -f: input sequence file is in FASTA format. -h: print usage help text. -l: indicate highest cut-off level (number). -L: indicate highest cut-off level (text). -m: report individual matches for circular profiles. -r: use raw score. -u: force profile disjointness to UNIQUE. -C: cut-off value. An integer value forces -r. Same as parameter C. -M: set the normalization mode to use for the score computation. Overrides the profile PRIORITY parameter. output modifiers: -d: impose length limit on sequence description. -k: output using the xPSA header (using keyword=value pairs). -s: list sequences of the matched regions. -v: suppress warnings on stderr. -x: list alignments in PSA format. -y: list alignments in human readable form. -z: indicate profile start and stop positions. -W: specifies the output width. Same as parameter W. valid (but deprecated) parameters are: [C=cut-off-value] use option -C instead [W=output-width] use option -W instead * Lancez ''pfsearch'' sur le génome de coli. * L'option -f est indispensable pour lire les fichiers fasta.Combien de solutions trouvez-vous. Comparez au nombre de gènesse trouvant sur le brin direct (non complémentaire) du génome E. coli ==== Conclusion ==== Recherchez de la même façon des promoteurs dans une séquencealéatoire ~infobio/Data/coli.rnd (séquence de même longueur etmême composition en ''A,T,G,C'' que le génome de E. coli). Voyez comment l'option de score-seuil ''C='' permet de réduire le nombre de solutions. Essayez différents scores-seuils ''C=2.0'', ''C=5.0'', etc. de façon à réduire à moins de 100 solutions dans le génome aléatoire. Refaites une recherche avec ce même seuil dans votre banque de promoteurs créé préalablement (format fasta). Quelles conclusions entirez-vous sur la qualité des prédictions faites avec ce profil. Lancez ''pfsearch'' sur le génome de Mycoplasma genitalium. Le profil est-il efficace pour détecter des promoteurs dans un autre génome ====== Bilbio et ressources ====== * {{data_user_0_com.qwant.liberty_app_tmpdir_tpesil2avance.2000.html-1.pdf|Cours de bioinfo 2ème année}} * [[https://python.sdv.univ-paris-diderot.fr/22_mini_projets|22 Mini-projets]] , Dans ce chapitre, nous vous proposons quelques scénarios pour développer vos compétences en Python et mettre en œuvre les concepts que vous avez rencontrés dans les chapitres précédents.