Bioinformatica e Web 2.0

Inside Bioinfo

17 ottobre 2007 - 10:16

Protein ID mapping (come passar da una nomenclatura ad un’altra in due facili click)

Chiunque abbia lavorato con le proteine in silico non può che rendersi conto di quanto sia un pandemonio gestirne la nomenclatura.
La loro complessità disperde la ricerca in mille rivoli; la varietà dei progetti che nascono e i database che ne derivano hanno un tratto in comune: non avere un gran che in comune. Tanto che esistono progetti di integrazione che servono proprio per collezionare e linkare quante più informazioni possibili da diverse fonti.
Spesso risulta necessario fare del “ID Mapping“. Un esempio qualsiasi? Si ha tra le mani una bellissima lista di proteine che si vorrebbe correlare con una lista complementare scaricata dalla rete. E ti ritrovi a non poterlo fare perchè la loro nomenclatura non è compatibile!
Il bio-metodo più puro credo sia mettersi a giocare un po’ con SRS, fare qualche query intelligente con getz e quindi estrarre le corrispondenze. Qualcosa che possa partire da:

#
# SRS query
#
my $query="getz -e \'[database -acc:\"nomeproteina\"]\' |";
open (HANDLE, "$query")or die "can't open $query: $!\n";
while ($line=<HANDLE>) {
if ($line=~/^campo_di_interesse/gi) {
# qualunque operazione ti possa servire
next;
}
}

Naturalmente in questo caso non si è tenuto conto della pigrizia del bioinformatico :-)

SRS è un potente mezzo, e consiglio a tutti quanti di perderci un po’ di tempo, ma non tutti hanno sempre bisogno (o voglia) di lavorar per linea di comando. Magari l’ID mapping non è una attività così comune all’interno del vostro progetto. O gli elementi da convertire non sono poi così tanti. In questo caso vi voglio suggerire tre strumenti on line che possono fare per voi:

Ecco fatto! Certo, non è come farselo da sè, ma d’altra parte, se c’è tanta gente così gentile da lavorare per facilitarci la vita…

Related Posts

  1. Librerie di oggetti bioinformatici Python (metalinguaggi da laboratorio da condividere)
  2. Scaricare articoli da casa
  3. Genome Commons (Farsi il genoma da soli)
  4. Openhelix (una risorsa importante per il bioinformatico)
  5. L’integrazione della complessità. Una interessante analisi
  • dalloliogm - 17 ottobre 2007 # 1

    mmm l’ultimo non lo conoscevo (quello del CBIB, l’istituto di Bordeaux).

    A dire la verità non ho mai avuto la fortuna di lavorare con tutte queste nomenclature, però sembra interessante.

    p.s.: bellissimo il link alla guida su srs!! :)

 

RSS feed per i commenti di questo post | TrackBack URI