Bioinformatica e Web 2.0

Inside Bioinfo

18 settembre 2008 - 09:00

Banche Dati

Esistono 2 grandi laboratori internazionali di bioinformatica l’EMBL-EBI (Europeo) e l’NCBI (Americano). Questi due centri hanno dato vita a vari progetti e banche dati (database). Dalloliogm mi segnala (grazie!) anche Genome.jp, un altro laboratorio internazionale di bioinformatica (Giapponese), che fornisce database interessanti.

Le banche dati sono dei grandi archivi riguardanti un determinato argomento, ovviamente nel nostro caso riguardano argomenti biologici. Le banche dati oggi esistenti (in campo biologico) saranno un migliaio, e viene catalogato praticamente di tutto, dal genoma umano alle malattie, passando per geni, Rna, polimorfismi e chi più ne ha più ne metta.

Alcune di queste banche dati sono state sviluppate dall’EMBL-EBI, altre dall’NCBI, contengono milioni di voci, e sono utilissime. Le banche dati possono essere mantenute e controllate da persone, queste di solito risultano molto ben curate e poco ridondanti. Altre invece possono essere mantenute da software, quindi sono aggiornate molto velocemente ma molto ridondanti (per ridondante si intende che la stessa informazione è contenuta più volte)

Esistono 3 banche dati che sono dette primarie, poichè contengono le informazioni riguardanti il Dna. Tutte le altre banche dati (proteiche, di polimorfismi, di malattie) sono collegate a queste. Due di queste sono EMBL datalibrary e la GenBank. Fra queste due banche dati c’è un continuo scambio di dati, per cui tutte le informazioni che potete trovare su una, le trovate anche sull’altra.

Esistono poi database secondari, che contengono sequenze proteiche: Swiss-prot, TrEMBL e PIR. Swiss-prot è curata manualmente, per cui è poco ridondante ed è ricca di informazioni (ed è un database che adoro!!! :D ). TrEMBL nasce grazie alla traduzione automatica dei geni presenti in EMBL datalibrary, per cui alcune delle proteine predette possono non esistere nella realtà. PIR è l’equivalente nato dal laboratorio americano. Nel 2002 nasce un database integrato fra Swiss-prot, TrEMBL e PIR chiamato UniProt.

Allo stesso di UniProt, varie banche dati riguardanti famiglie proteiche, domini proteici, motivi sono state raccolte in InterPro. In particolare Pfam (famiglie e domini proteici), PRINTS (motivi proteici), PROSITE (famiglie, domini e motivi proteici curati dagli stessi di Swiss-prot).

Infine esistono banche dati delle strutture tridimensionali delle proteine come PDB, le cui coordinate di tutti gli atomi di una proteina sono ricavate sperimentalmente, oppure come ModBase invece, le cui strutture tridimensionali sono solo previsioni…ma possono essere utili lo stesso…

Fra i progetti avviati da Genome.jp c’è KEGG, un insieme di Database riguardanti genomi e pathway enzimatici. Fra questi database indico appunto KEGG Pathway, un database di tutte le vie metaboliche della cellula.

Spero di riuscire ad entrare nel dettaglio di tutti questi database

Infine ho per voi un’immagine riassuntiva di tutti i database:

Alla prossima…

Related Posts

  1. Sono solo dati, stupido! (i limiti di OpenSocial)
Tags: bioinformatica, Database

 

RSS feed per i commenti di questo post | TrackBack URI