Bioinformatica e Web 2.0

Inside Bioinfo

15 febbraio 2008 - 11:09

Gene Characterization Index (CGI? what’s up!)

“Uno score per indicizzare il livello di caratterizzazione dei geni”

Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.

Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).

By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.

Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!

Other Posts

  1. Genome Commons (Farsi il genoma da soli)
  2. Disegnare velocemente Primer con CLC…
  3. Protein ID mapping (come passar da una nomenclatura ad un’altra in due facili click)
  4. La proprietà transitiva della Bioinformatica
  5. Openhelix (una risorsa importante per il bioinformatico)
  6. PCR song (La ricerca va a braccetto con la musica)
  7. blast su DB – una nuova proposta (progetti utili o disutili?)
  8. La proprietà transitiva della Bioinformatica
  9. Sono solo dati, stupido! (i limiti di OpenSocial)
Tags: bioinformatica, CGI, Letteratura scientifica, Network

 

RSS feed per i commenti di questo post | TrackBack URI