Pfam

bază de date a familiilor de proteine
Pentru uniunea muncii din fotbalul din Malaezia care a folosit acronimul PFAM, vedeți Asociația Fotbaliștilor Profesioniști din Malaezia.

Pfam este o bază de date a proteine care include adnotările și alinierea secvențelor multiple generate utilizând modelul Markov ascuns.[1][2][3] Cea mai recentă versiune, Pfam 33.1, a fost lansată în mai 2020 și conține 18.259 de familii.[4]

Pfam
Content
DescriptionBaza de date Pfam oferă aliniamente și modele Markov ascunse pentru domenii de proteine.
Data types
captured
Familii de proteine
Organismstoate
Contact
Research centerEBI
Primary citationPubMed
Access
Data formatStockholm format
Websitepfam.xfam.org
Download URLFTP 1 FTP 2
Miscellaneous
LicenseGNU Lesser General Public License
Version33.1
Bookmarkable
entities
yes

Utilizări

modificare

Scopul general al bazei de date Pfam este de a oferi o clasificare completă și precisă a familiilor și domeniilor de proteine.[5] Inițial, raționamentul din spatele creării bazei de date a fost de a avea o metodă semiautomată de curățare a informațiilor privind familiile de proteine cunoscute pentru a îmbunătăți eficiența adnotării genomurilor.[6] Clasificarea Pfam a familiilor de proteine a fost adoptată pe scară largă de biologi datorită acoperirii largi a proteine și convenții de denumire sensibile.[7]

Acesta este utilizată de biologii experimentali care cercetează proteine specifice, de biologii structurali pentru a identifica noi obiective pentru determinarea structurii, de biologii computaționali pentru a organiza secvențe și de biologii evoluționiști care urmăresc originile proteinelor.[8] Proiectele genomului timpuriu, ar fi umane și utilizate pe scară largă de Pfam pentru adnotarea funcțională a datelor genomice.[9][10][11]

Site-ul Pfam permite utilizatorilor să prezinte secvențe de proteine sau ADN pentru a căuta potriviri familiilor din baza de date. Dacă ADN-ul este prezentat, se efectuează un cadru cu șase cadre transtrație, apoi fiecare cadru este căutat.[12] În loc să efectueze o căutare tipică BLAST, Pfam folosește profilul modelele Markov ascunse, care acordă o greutate mai mare potrivirilor la conservată site-uri, permițând o mai bună detectare a homologiei de la distanță, făcându-le mai potrivite pentru adnotarea genomurilor organismelor fără rude apropiate bine adnotate.[13]

Pfam a fost, de asemenea, utilizat în crearea altor resurse, cum ar fi iPfam, care cataloghează interacțiunile domeniu-domeniu în interiorul și între proteine, pe baza informațiilor din bazele de date de structură și cartografierea domeniilor Pfam pe aceste structuri.[14]

Caracteristici

modificare

Pentru fiecare familie din Pfam se poate:

  • Vedea o descriere a familiei
  • Verificarea mai multor aliniamente
  • Vedea arhitecturi de domeniu de proteine
  • Examinarea distribuției speciilor
  • Urmați link-uri către alte baze de date
  • Vedea structurile cunoscute de proteine

Intrările pot fi de mai multe tipuri: familie, domeniu, repetări sau motive. Familia este clasa implicită, ceea ce indică pur și simplu că membrii sunt înrudiți. Domeniile sunt definite ca o unitate structurală autonomă sau o unitate secvențială reutilizabilă care poate fi găsită în mai multe contexte proteice. Repetările nu sunt de obicei stabile în mod izolat, ci mai degrabă sunt de obicei necesare pentru a forma repetă tandem în scopul de a forma un domeniu sau o structură extinsă. Motivele sunt, de obicei, unități de secvență mai scurte găsite în afara domeniilor globulare.[9]

Descrierile familiilor Pfam sunt gestionate de publicul larg folosind Wikipedia (a se vedea Istoric).

La eliberarea variantei 29.0, 76.1% din secvențele de proteine în UniprotKB s-a potrivit cu cel puțin un domeniu Pfam.[15]

Referințe

modificare
  1. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (). „The Pfam protein families database”. Nucleic Acids Res. 36 (Database issue): D281–8. doi:10.1093/nar/gkm960. PMC 2238907 . PMID 18039703. 
  2. ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (). „Pfam: clans, web tools and services” (Free full text). Nucleic Acids Research. 34 (Database issue): D247–D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511 . PMID 16381856. 
  3. ^ Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; Eddy, S. R. (). „The Pfam protein families database”. Nucleic Acids Research. 32 (Database issue): 138D–1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855 . PMID 14681378.   
  4. ^ Finn, Rob; Mistry, Jaina (). „Pfam 31.0 is released”. Xfam Blog. Accesat în . 
  5. ^ Sammut, Stephen; Finn, Robert D.; Bateman, Alex (). „Pfam 10 years on: 10 000 families and still growing”. Briefings in Bioinformatics. 9 (3): 210–219. doi:10.1093/bib/bbn010 . PMID 18344544. 
  6. ^ Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (). „Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments”. Proteins. 28 (3): 405–420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186. 
  7. ^ Xu, Qifang; Dunbrack, Roland L. (). „Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics. 28 (21): 2763–2772. doi:10.1093/bioinformatics/bts533. PMC 3476341 . PMID 22942020. 
  8. ^ Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A. (). „The Pfam protein families database”. Nucleic Acids Research. 38 (Database): D211–D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889 . PMID 19920124. 
  9. ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (). „The Pfam protein families database”. Nucleic Acids Res. 30 (1): 276–80. doi:10.1093/nar/30.1.276. PMC 99071 . PMID 11752314. 
  10. ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, et al. (). „The genome sequence of Drosophila melanogaster”. Science. 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi:10.1126/science.287.5461.2185. PMID 10731132. 
  11. ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (). „Initial sequencing and analysis of the human genome”. Nature. 409 (6822): 860–921. doi:10.1038/35057062 . ISSN 0028-0836. PMID 11237011. 
  12. ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik L. L.; Tate, John; Punta, Marco (). „Pfam: the protein families database”. Nucleic Acids Research. 42 (D1): D222–D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110 . PMID 24288371. 
  13. ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (). „Pfam: multiple sequence alignments and HMM-profiles of protein domains”. Nucleic Acids Res. 26 (1): 320–2. doi:10.1093/nar/26.1.320. PMC 147209 . PMID 9399864. 
  14. ^ Finn, R. D.; Marshall, M.; Bateman, A. (). „iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”. Bioinformatics. 21 (3): 410–412. doi:10.1093/bioinformatics/bti011 . ISSN 1367-4803. PMID 15353450. 
  15. ^ Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (). „The Pfam protein families database: towards a more sustainable future”. Nucleic Acids Research. 44 (D1): D279–D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930 . PMID 26673716. 

Legături externe

modificare