15 febbraio 2008 - 11:09
“Uno score per indicizzare il livello di caratterizzazione dei geni”
Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.
Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).
By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.
Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!
Tags:
bioinformatica,
CGI,
Letteratura scientifica,
Network
13 febbraio 2008 - 11:45
Fabrizio Capuani mi segnala “Papers“, interessante software, per mantenere e gestire le proprie collezioni di articoli.
Essendo solo disponibile per Mekentosjani, non l’ho potuto testare, quindi spero in qualche altra opinione. Personalmente, come fervente utilizzatore di Windows, ho sempre fatto ricorso ad Endnote. Endnote si differenzia da Papers per la capacità di integrarsi con Word e facilita non poco la scrittura delle citazioni bibliografiche. Però non è pensato per gestire una collezione di pdf, ma solo per collezionare i metadati necessari per creare un database bibliografico.
Naturalmente è possibile inserire il pdf stesso dell’articolo in un folder e linkarlo adeguatamente in Endnote, ma non è un’operazione così immediata, e questo non permette comunque di fare ricerche nei contenuti dei file.
Paper, anch’esso si connette al web e scarica le reference (autore, titolo, giornale, anno di pubblicazione), ma li associa allo stesso pdf. Citando la descrizione originale del software:
Papers contains everything you need to get your favorite articles in your personal library. Importing PDFs that you already downloaded before is easy, you match them using your favorite online article repository like PubMed, Google Scholar, Web of Science, etc. and all the metadata is automatically added. You might as well skip this altogether and start from scratch, the completely integrated search engines is the number one thing you are really going to like. Three clicks is all you need to find a paper and add it to your library.
Fabrizio sintetizza la cosa in “Praticamente e’ iTunes per articoli scientifici. Unico neo e’ che non e’ gratis… si puo’ pero’ provare per 30 giorni“. Paper puo’ esportare una collezione (tipo playlist) in formato Endnote, ma anche in formato bibtex!
L’alternativa è quella di sfruttare l’opzione “Adobe Catalog“. Con esso è possibile indicizzare TUTTO il documento pdf e creare quindi un database cercabile per qualsiasi parola anche nel testo o nei materiali e metodi. E’ possibile inoltre fare
diversi database di articoli per argomenti o gruppi.
Tags:
Bibliografia,
bioinformatica,
Letteratura scientifica,
Mac,
Pdf
30 gennaio 2008 - 17:37
La bioinformatica ha speso negli anni molti sforzi intorno il pattern detection, per ovvii motivi. Il pattern matching è infatti una delle grandi anime della bioinformatica; è usato, dove più dove meno, ovunque, negli allineamenti multipli, nel homology modeling, per classificazioni e per predizioni, in proteomica come in genomica.
Non è una notizia nuova che IBM stia applicando con successo alcune tecniche usate in bioinformatica per la ricerca di pattern nel DNA nel campo dell’identificazione dello spam (l’algoritmo Teiresias sviluppato da Chung-Kwei). Daltronde lo stesso George Harik, uno dei primi dieci ingegneri di Google, e che collabora a sistemi “intelligenti” come Adsense e Gmail anti-spam, ha un background che coinvolge algoritmi genetici.
Tutto questo per dimostrare come grandi vantaggi possono venirne dal sapere far tesoro dell’interazione di settori scientifici anche distanti (apparentemente). Naturalmente sarebbe auspicabile una relatione tra bioinformatica e altre scienze che non sia intransitiva.
Un interessante articolo su openHelix circa le difficoltà di navigare, attraverso metodi intelligenti, nel mare magnum
della letteratura scientifica, mette l’accento (anche) su questo aspetto:
we pointed out that all or most of the demonstrably useful biomedical text mining systemshave been built not by text mining specialists, but by computational biologists. Why might this be? Although this has not been systematically investigated, we speculate that it is related to cultural differences between the two groups.
[...] a combination of computational biologists and text mining specialists will be optimum.
Text mining specialists continue to excel at building system components and designing datasets for evaluation; computational biologists currently appear to be much better at producing useful task definitions. Perhaps the most fruitful approaches are characterized by combined efforts that leverage the abilities of each type of scientist.
Vi consiglio l’articolo da cui partono, o almeno leggere il post su openHelix; tra le altre cose fa il punto sulle risorse web disponibili al momento per “navigare la letteratura”. Devo ammettere che il grafico che disegna il tasso di crescita del numero di abstract è spaventevole, più ancora della crescita del numero di database catalogati nelle tabelle dell’ultimo NAR.
Tags:
bioinformatica,
Data-mining,
Letteratura scientifica,
Scienza