Bioinformatica e Web 2.0

Inside Bioinfo

25 marzo 2009 - 10:57

Database Vettori

Dove cercate le mappe dei vostri vettori? Su Google? Su Pubmed?

Io mi sono trovato molto bene con questo Database di Vettori gestito da AddGene.

Fornisce molte informazioni sui plasmidi: sequenza, mappa, enzimi di restizione, proteine trascritte e tradotte. Si possono depositare (gratuitamente) i plasmidi che sono stati utilizzati (ad esempio) in un lavoro, e questi possono essere acquistati da altri ricercatori.

Addgene è un organizzazione no profit, ovviamente i guadagni vengono usati per mantenere il servizio. Insomma…è una sorta di banca/database di vettori per aiutare i Ricercatori….

Link: MyBioinformatica

Tags: bioinformatica, Database
24 marzo 2009 - 19:59

Disegnare velocemente Primer con CLC…

A seconda del tipo di PCR che si deve fare (Real Time Pcr o no, da genomico o da plasmide) si devono costruire primer più o meno “accurati”. Se si deve fare una Pcr da genomico ad esempio bisogna stare attenti che i primer non vadano anche ad annilare in altri punti del genoma, oltre a quello di interesse…

Nel mio caso faccio molte PCR da plasmidi. In questo caso le coppie di basi non sono molte, quindi è altamente improbabile che primer lunghi 15-20 nucleotidi vadano ad annilare in più punti.

In questo caso disegnare dei primer è molto semplice…Ma troppe volte vedo persone che disegnano su carta i primer, sia forward che reverse (perdendo tempo e rischiando di fare errori).

La cosa è molto più semplice con CLC Sequence Viewer:

  • (Ovviamente) Importare la sequenza del gene su cui fare la PCR in CLC Sequence Viewer
  • Selezionare lo spaziamento ogni 3 nucleotidi scegliendo il frame appropiato (Potete anche salvare questa opzione in modo da non selezionarla ogni volta).

schermata-clc-sequence-viewer-save-setting1

  • Selezionare i 15-20 nucleotidi che formeranno il primer FW (tenendo conto del frame e che devono terminare con una C o G), poi tasto dx -> Open Selection in new view
  • Tasto dx sul primer appena creato -> Select Sequence, di nuovo tasto dx -> Edit. In questo modo potete modificare la sequenza, aggiungere codoni di start, enzimi di restrizione.
  • Tornando sulla sequenza del gene selezionate il segmento che andrà a formare il primer Reverse. In questo caso non c’è bisogno di tenere conto del frame. Fate in modo che cominci con una G o una C (l’inizio che selezionate diventerà il 3?, quindi rappresenta la fine del primer). Al solito, fate tasto dx -> Open Selection in new view. Poi modificate il primer a vostro piacere aggiungendo codone di STOP o siti di restrizione.
  • A questo punto nella toolbox “Reverse Complemente Sequence” e avrete il vostro primer Reverse pronto.

schermata-clc-sequence-viewer-toolbox

I primer possono essere copiati-incollati sul sito dove ordinate i primer (evitate errori di battitura), possono essere stampati o salvati in una cartella. Vi ricordo che se si deve fare una Pcr da genomico bisogna stare attenti che i primer non vadano anche ad annilare in altri punti del genoma, quindi questo metodo non va bene (in questo caso c’è il sistema descritto da Nico).

Spero però sia utile a qualcuno!!

Alla prossima…

Link: MyBioinformatica

Tags: bioinformatica, how-to
16 dicembre 2008 - 20:04

Editor di sequenze: CLC Sequence Viewer

Un editor di sequenze è un programma in grado di manipolare con facilità sequenze nucleotidiche e proteiche. Il primo dei programmi che ho intenzione di presentarvi è CLC Sequence Viewer che è arrivato alla versione 5.1.1

Il programma è creato dalla CLC bio, che permette il download e l’utilizzo gratis, indubbiamente presenta una grafica molto curata, ed una facilità d’uso impressionante, adatto anche a chi non sa bene usare il computer.
Questo programma presenta tante limitazioni rispetto agli altri programmi (a pagamento) della CLC bio.
Le operazioni possibili sono (e le limitazioni relative sono):

  • effettuare ricerche direttamente su NCBI, anche se a causa delle limitazioni non è possibile effettuare ricerche su altri database, bisogna comprare le altre versioni.
  • creare allineamenti multipli e relativi alberi, con vari algoritmi: Clustal, T-coffe, ecc…
  • varie operazioni con i nucleotidi: convertire Dna <-> Rna, vedere filamento complementare di una sequenza, tradurla in proteina, Cercare ORF, ecc…
  • Cercare enzimi di restrizione presenti in una sequenza ed elencarli in una lista.

Quando si effettua una ricerca su NCBI, o si importa una sequenza, CLC Sequence Viewer è in grado di leggere le annotazioni e visualizzarle graficamente, indicando ad esempio promotori, la sequenza codificante in un cDna, domini e così via…Una grossa limitazione che ho trovato è non poter modificare le annotazioni riguardanti le sequenze. Quindi non è possibile selezionare una serie di nucleotidi/amminoacidi e aggiungere un’annotazione ad esse (ad es. questo è un promotore, qui c’è un sito di fosforilazione, ecc). Questa forte limitazione (e il fatto che secondo me i programmi dovrebbero essere liberi) mi ha spinto a cercare un altro editor di testo.

Qui è presente l’elenco completo delle limitazioni, paragonate ai relativi software a pagamento.

Il programma è disponibile per Windows, Mac, Linux (sia file .rpm che .sh), ed è molto semplice da installare.

9 dicembre 2008 - 09:00

Scaricare articoli da casa

Capita di stare a casa, e di dover scaricare un articolo da PubMed…spessissimo però c’è bisogno di un abbonamento alla rivista per poter scaricare il giornale. Le università hanno questi abbonamenti, per cui l’articolo può essere scaricato da un computer dell’università…ma non da casa.

Molte università danno la possibilità di scaricare gli articoli da casa utilizzando un programma proxy. Senza entrare in inutili termini informatici…il proxy è un programma che (nel nostro caso) fa sembrare il pc di casa un pc dell’università.

Vediamo un po’ come fare:

Per prima cosa dovete controllare se la vostra università vi permette di accedere via proxy (altrimenti inutile continuare), per controllare cercate sul sito della vostra università, o chiedete a San Google :D . L’università che frequento io (Federico II di Napoli) ha introdotto questa possibilità nel 2004. Dovreste trovare anche le informazioni per usare il proxy, cioè l’indirizzo e la porta del proxy, l’username e la password (di solito si richiede la registrazione ad un servizio/mail della facoltà). Ora, se non l’avete ancora fatto, scaricate Firefox, che è un programma per navigare su internet…simile a Internet Explorer…ma molto meglio :D . Firefox permette di essere personalizzato grazie a tanti piccoli programmi aggiuntivi, chiamati “componenti aggiuntivi”, “estensioni” o “add-on”. Nel nostro caso è molto utile un’estensione chiamata FoxyProxy, che permette velocemente di impostare, attivare e disattivare il Proxy. Installatela.

Al primo avvio vi verrà chiesto se volete usare un proxy Tor. A noi non interessa, quindi cliccate no.

Ora andate in Strumenti -> FoxyProxy -> Generali. Cliccate su nuovo proxy, inserite un nome e una eventuale nota. Andate sulla scheda dettagli dei proxy

schermata-foxyproxy-impostazioni-dei-proxy

Inserite come nome del server l’indirizzo del proxy della vostra università (nel mio caso proxy.unina.it), il numero della porta (nel mio caso 3128) e date ok. Ora, andando di nuovo su Strumenti -> FoxyProxy potrete scegliere il Proxy della vostra università. A questo punto potete inserire username e password (nel caso della mia università, compreso di @studenti.unina.it). Ora potete andare su PubMed e scaricare tutti gli articoli che volete (ammesso che la vostra università abbia i rispettivi abbonamenti).

Se volete potete aggiungere nei commenti un link alla pagina con le istruzioni del proxy della vostra università in modo da avere tutte le informazioni raccolte in un unico sito.

Un’ultima cosa: usare un programma Proxy rallenta di molto la velocità di navigazione sul web, per cui usate il proxy solo quando serve.

Alla prossima…

Tags: bioinformatica, how-to
23 novembre 2008 - 18:11

BioPython 1.50 e GenomeDiagram

La versione 1.49 di BioPython é stata rilasciata ufficialmente alcuni giorni fa, ed é piena di cambiamenti interessanti: uno di questi é l’introduzione del modulo doctest per la documentazione di alcune classi, cosa che avevo proposto io qualche tempo fa :) .

Comunque, credo che siano in arrivo novità ancora migliori nella 1.50. Una delle mie favorite é l’inclusione di un modulo chiamato GenomeDiagrams, che finalmente permetterà di generare diagrammi di sequenze e genomi direttamente da biopython.

Ecco un esempio di immagine generata con questa libreria:

Circular diagram of Erwinia carotovora ssp. atroseptica comparison against 229 bacterial genomes, constructed using GenomeDiagram

Credo che a biopython avesse veramente bisogno di integrazione con una libreria grafica come questa, visto che altri progetti Bio::* lo possiedono già.

Per esempio, é veramente semplice disegnare un diagramma di sequenze con bioperl:

A plot of sequence features with bioperl
A plot of sequence features with bioperl

Immagino che un diagramma equivalente, generato con il nuovo modulo di biopython, apparirà così:

A linear genome diagram created with the new biopython module
A linear genome diagram created with the new GenomeDiagram module

Devo ancora studiare a fondo il modulo, e non sono sicuro di quanto sia flessibile e facile da utilizzare. In ogni caso, siamo solo alla prima release :) .

Il modulo GenomeDiagram é stato scritto da Leighton Pritchard, e descritto in questo articolo:

Dovrebbe essere veramente ringraziato per questo contributo. Qui potete trovare la home page del module, e qui la proposta sul bug tracker di biopython.

Tags: bioinformatica, biopython, diagrammi, librerie grafiche, programmazione, python
18 settembre 2008 - 09:00

Banche Dati

Esistono 2 grandi laboratori internazionali di bioinformatica l’EMBL-EBI (Europeo) e l’NCBI (Americano). Questi due centri hanno dato vita a vari progetti e banche dati (database). Dalloliogm mi segnala (grazie!) anche Genome.jp, un altro laboratorio internazionale di bioinformatica (Giapponese), che fornisce database interessanti.

Le banche dati sono dei grandi archivi riguardanti un determinato argomento, ovviamente nel nostro caso riguardano argomenti biologici. Le banche dati oggi esistenti (in campo biologico) saranno un migliaio, e viene catalogato praticamente di tutto, dal genoma umano alle malattie, passando per geni, Rna, polimorfismi e chi più ne ha più ne metta.

Alcune di queste banche dati sono state sviluppate dall’EMBL-EBI, altre dall’NCBI, contengono milioni di voci, e sono utilissime. Le banche dati possono essere mantenute e controllate da persone, queste di solito risultano molto ben curate e poco ridondanti. Altre invece possono essere mantenute da software, quindi sono aggiornate molto velocemente ma molto ridondanti (per ridondante si intende che la stessa informazione è contenuta più volte)

Esistono 3 banche dati che sono dette primarie, poichè contengono le informazioni riguardanti il Dna. Tutte le altre banche dati (proteiche, di polimorfismi, di malattie) sono collegate a queste. Due di queste sono EMBL datalibrary e la GenBank. Fra queste due banche dati c’è un continuo scambio di dati, per cui tutte le informazioni che potete trovare su una, le trovate anche sull’altra.

Esistono poi database secondari, che contengono sequenze proteiche: Swiss-prot, TrEMBL e PIR. Swiss-prot è curata manualmente, per cui è poco ridondante ed è ricca di informazioni (ed è un database che adoro!!! :D ). TrEMBL nasce grazie alla traduzione automatica dei geni presenti in EMBL datalibrary, per cui alcune delle proteine predette possono non esistere nella realtà. PIR è l’equivalente nato dal laboratorio americano. Nel 2002 nasce un database integrato fra Swiss-prot, TrEMBL e PIR chiamato UniProt.

Allo stesso di UniProt, varie banche dati riguardanti famiglie proteiche, domini proteici, motivi sono state raccolte in InterPro. In particolare Pfam (famiglie e domini proteici), PRINTS (motivi proteici), PROSITE (famiglie, domini e motivi proteici curati dagli stessi di Swiss-prot).

Infine esistono banche dati delle strutture tridimensionali delle proteine come PDB, le cui coordinate di tutti gli atomi di una proteina sono ricavate sperimentalmente, oppure come ModBase invece, le cui strutture tridimensionali sono solo previsioni…ma possono essere utili lo stesso…

Fra i progetti avviati da Genome.jp c’è KEGG, un insieme di Database riguardanti genomi e pathway enzimatici. Fra questi database indico appunto KEGG Pathway, un database di tutte le vie metaboliche della cellula.

Spero di riuscire ad entrare nel dettaglio di tutti questi database

Infine ho per voi un’immagine riassuntiva di tutti i database:

Alla prossima…

Tags: bioinformatica, Database
17 settembre 2008 - 19:13

Nuovo autore in InsideBioinfo…

Ciao a tutti,

da oggi InsideBioinfo ha un nuovo autore…me :D

Sono Domenico, sto frequentando la Specialistica in Biotecnologie Mediche, e ho una passione per l’informatica e (ovviamente) per la Biologia…inutile dire quindi della mia passione per la BioInformatica, alla quale però mi sono avvicinato relativamente da poco. Devo dire che sono un po’ emozionato a scrivere su un blog di questa portata…

Gli argomenti di cui scriverò sono cose scontante per ogni bioinformatico…ma possono essere utili a tutti quelli che lavorano in un laboratorio, e vogliono risparmiare un po’ di lavoro al banco.

Bè…cominciamo… :D

Tags: Bibliografia, bioinformatica
5 marzo 2008 - 15:46

Bio-Linux Live DVD

Letto l’articolo su Programmazione.it su Bio-Linux, una distribuzione per bioinformatici, e presa l’occasione di dover rasare il Dell di mio padre, ho sostituito un dolce Ubuntu che stava andando ininterrottamente senza problemi da 132 giorni con BioLinux, ovvero una distribuzione base Debian per Bioinformatici.
Per saperne di più vi rimando all’articolo di Francesco Corsentino sopra citato. Le mie prime impressioni dopo un uso non molto intensivo?

Innanzi tutto guardiamo la lista dei packages che vengono messi a disposizione: oltre sessanta. Certo, un compendio completo, ma forse un po’ troppo articolato, io avrei messo molta roba che fa parte del pacchetto di default tra gli additional, per rendere il sistema meno pesante (l’ISO è di quasi 2 G).
Noto inoltre con gratitudine che la communità Post Genomics and Proteomics (PGP) ha contribuito alla realizzazione della distro, e grazie ad essa abbiamo un sistema che non è esclusivamente genome oriented, anche se qualcosa che io reputo essential per l’analisi proteomica manca :-(

Questo test mi ha fatto render conto che alla fine per sviluppare un progetto bioinformatico, che sia piccolo o grande, uso un numero ristretto di applicativi, tra quelli messi a disposizione, per invece andare a sviluppare/customizzare quanto serve volta per volta. E naturalmente l’uso intensivo della rete! Che non si limita alla consultazione di documentazione ufficiale, quanto alla ricerca di problem solving experiences. L’idea di avere un SO solido e autosufficiente da poter essere usato anche quando non si ha a disposizione un accesso alle risorse on line, è quindi, IMHO, poco produttiva.

Rimane il grande vantaggio di potersi portar dietro la propria live version, con cui emulare senza necessità di installazione un ambiente dotato di un alto numero di applicativi bioinformatici.

Tags: bio-linux, bioinformatica
21 febbraio 2008 - 10:58

Nuova uscita per Bio::Blogs #18

Su Bioinformaticszen con Febbraio è arrivato il numero 18 di Bio::Blogs!

Questo numero, dichiaratamente, punta l’attenzione sull’evoluzione naturale dell’Open Source Science, almeno dal mio punto di vista, ovvero l’Open Notebook Science: la condivisione del lavoro dei ricercatori mentre viene svolto. E’ sempre più in uso condividere su blog e wiki veri e propri “quaderni di laboratorio”, a cui tutti possono dare il proprio contributo.

This issue has a particular focus on Open Notebook Science – researchers sharing their work as they produce it.

Per quanti sono curiosi di sapere cosa è stato HOT nella blogsfera del mese scorso.

Tags: Bio::Blogs, bioinformatica
15 febbraio 2008 - 11:09

Gene Characterization Index (CGI? what’s up!)

“Uno score per indicizzare il livello di caratterizzazione dei geni”

Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.

Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).

By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.

Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!

Tags: bioinformatica, CGI, Letteratura scientifica, Network