Bioinformatica e Web 2.0

Inside Bioinfo

5 marzo 2008 - 15:46

Bio-Linux Live DVD

Letto l’articolo su Programmazione.it su Bio-Linux, una distribuzione per bioinformatici, e presa l’occasione di dover rasare il Dell di mio padre, ho sostituito un dolce Ubuntu che stava andando ininterrottamente senza problemi da 132 giorni con BioLinux, ovvero una distribuzione base Debian per Bioinformatici.
Per saperne di più vi rimando all’articolo di Francesco Corsentino sopra citato. Le mie prime impressioni dopo un uso non molto intensivo?

Innanzi tutto guardiamo la lista dei packages che vengono messi a disposizione: oltre sessanta. Certo, un compendio completo, ma forse un po’ troppo articolato, io avrei messo molta roba che fa parte del pacchetto di default tra gli additional, per rendere il sistema meno pesante (l’ISO è di quasi 2 G).
Noto inoltre con gratitudine che la communità Post Genomics and Proteomics (PGP) ha contribuito alla realizzazione della distro, e grazie ad essa abbiamo un sistema che non è esclusivamente genome oriented, anche se qualcosa che io reputo essential per l’analisi proteomica manca :-(

Questo test mi ha fatto render conto che alla fine per sviluppare un progetto bioinformatico, che sia piccolo o grande, uso un numero ristretto di applicativi, tra quelli messi a disposizione, per invece andare a sviluppare/customizzare quanto serve volta per volta. E naturalmente l’uso intensivo della rete! Che non si limita alla consultazione di documentazione ufficiale, quanto alla ricerca di problem solving experiences. L’idea di avere un SO solido e autosufficiente da poter essere usato anche quando non si ha a disposizione un accesso alle risorse on line, è quindi, IMHO, poco produttiva.

Rimane il grande vantaggio di potersi portar dietro la propria live version, con cui emulare senza necessità di installazione un ambiente dotato di un alto numero di applicativi bioinformatici.

Tags: bio-linux, bioinformatica
21 febbraio 2008 - 10:58

Nuova uscita per Bio::Blogs #18

Su Bioinformaticszen con Febbraio è arrivato il numero 18 di Bio::Blogs!

Questo numero, dichiaratamente, punta l’attenzione sull’evoluzione naturale dell’Open Source Science, almeno dal mio punto di vista, ovvero l’Open Notebook Science: la condivisione del lavoro dei ricercatori mentre viene svolto. E’ sempre più in uso condividere su blog e wiki veri e propri “quaderni di laboratorio”, a cui tutti possono dare il proprio contributo.

This issue has a particular focus on Open Notebook Science – researchers sharing their work as they produce it.

Per quanti sono curiosi di sapere cosa è stato HOT nella blogsfera del mese scorso.

Tags: Bio::Blogs, bioinformatica
15 febbraio 2008 - 11:09

Gene Characterization Index (CGI? what’s up!)

“Uno score per indicizzare il livello di caratterizzazione dei geni”

Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.

Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).

By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.

Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!

Tags: bioinformatica, CGI, Letteratura scientifica, Network
13 febbraio 2008 - 11:45

Una biblioteca di PDF scientifici (per Mac ma non solo)

Fabrizio Capuani mi segnala Papers, interessante software, per mantenere e gestire le proprie collezioni di articoli.

Essendo solo disponibile per Mekentosjani, non l’ho potuto testare, quindi spero in qualche altra opinione. Personalmente, come fervente utilizzatore di Windows, ho sempre fatto ricorso ad Endnote. Endnote si differenzia da Papers per la capacità di integrarsi con Word e facilita non poco la scrittura delle citazioni bibliografiche. Però non è pensato per gestire una collezione di pdf, ma solo per collezionare i metadati necessari per creare un database bibliografico.
Naturalmente è possibile inserire il pdf stesso dell’articolo in un folder e linkarlo adeguatamente in Endnote, ma non è un’operazione così immediata, e questo non permette comunque di fare ricerche nei contenuti dei file.

Paper, anch’esso si connette al web e scarica le reference (autore, titolo, giornale, anno di pubblicazione), ma li associa allo stesso pdf. Citando la descrizione originale del software:

Papers contains everything you need to get your favorite articles in your personal library. Importing PDFs that you already downloaded before is easy, you match them using your favorite online article repository like PubMed, Google Scholar, Web of Science, etc. and all the metadata is automatically added. You might as well skip this altogether and start from scratch, the completely integrated search engines is the number one thing you are really going to like. Three clicks is all you need to find a paper and add it to your library.

Fabrizio sintetizza la cosa in “Praticamente e’ iTunes per articoli scientifici. Unico neo e’ che non e’ gratis… si puo’ pero’ provare per 30 giorni“. Paper puo’ esportare una collezione (tipo playlist) in formato Endnote, ma anche in formato bibtex!

L’alternativa è quella di sfruttare l’opzione “Adobe Catalog“. Con esso è possibile indicizzare TUTTO il documento pdf e creare quindi un database cercabile per qualsiasi parola anche nel testo o nei materiali e metodi. E’ possibile inoltre fare
diversi database di articoli per argomenti o gruppi.

Tags: Bibliografia, bioinformatica, Letteratura scientifica, Mac, Pdf
8 febbraio 2008 - 14:59

Il pessimismo cosmico del bioinformatico (just for fun)

Visto chi mi si accusa ingiustamente di essere una persona molto competente e sicuramente seria, oggi, in attesa di postarvi qualcosa di dirompente e innovativo, volevo farvi partecipi dell’opinione che, sotto gli effetti di una stretta dieta a base di statistiche errate, un noto ricercatore dell’Ifom, Giovanni D’ario mi disse nel tentativo di definire cosa fosse un bioinformatico: “e’ qualcuno che a forza di cercar di curare il cancro, gli viene il cancro (o alle volte il mal di denti)”. Tra parentesi la variante di Barbara Felice. :-)

Mi raccomando, non prendete la scienza seriamente!

Tags: bioinformatica, Fun, pessimismo
30 gennaio 2008 - 17:37

La proprietà transitiva della Bioinformatica

La bioinformatica ha speso negli anni molti sforzi intorno il pattern detection, per ovvii motivi. Il pattern matching è infatti una delle grandi anime della bioinformatica; è usato, dove più dove meno, ovunque, negli allineamenti multipli, nel homology modeling, per classificazioni e per predizioni, in proteomica come in genomica.
Non è una notizia nuova che IBM stia applicando con successo alcune tecniche usate in bioinformatica per la ricerca di pattern nel DNA nel campo dell’identificazione dello spam (l’algoritmo Teiresias sviluppato da Chung-Kwei). Daltronde lo stesso George Harik, uno dei primi dieci ingegneri di Google, e che collabora a sistemi “intelligenti” come Adsense e Gmail anti-spam, ha un background che coinvolge algoritmi genetici.

Tutto questo per dimostrare come grandi vantaggi possono venirne dal sapere far tesoro dell’interazione di settori scientifici anche distanti (apparentemente). Naturalmente sarebbe auspicabile una relatione tra bioinformatica e altre scienze che non sia intransitiva.
Un interessante articolo su openHelix circa le difficoltà di navigare, attraverso metodi intelligenti, nel mare magnum
della letteratura scientifica
, mette l’accento (anche) su questo aspetto:

we pointed out that all or most of the demonstrably useful biomedical text mining systemshave been built not by text mining specialists, but by computational biologists. Why might this be? Although this has not been systematically investigated, we speculate that it is related to cultural differences between the two groups.
[...] a combination of computational biologists and text mining specialists will be optimum.
Text mining specialists continue to excel at building system components and designing datasets for evaluation; computational biologists currently appear to be much better at producing useful task definitions. Perhaps the most fruitful approaches are characterized by combined efforts that leverage the abilities of each type of scientist.

Vi consiglio l’articolo da cui partono, o almeno leggere il post su openHelix; tra le altre cose fa il punto sulle risorse web disponibili al momento per “navigare la letteratura”. Devo ammettere che il grafico che disegna il tasso di crescita del numero di abstract è spaventevole, più ancora della crescita del numero di database catalogati nelle tabelle dell’ultimo NAR.

Tags: bioinformatica, Data-mining, Letteratura scientifica, Scienza
25 gennaio 2008 - 11:50

Mille e piu’ genomi (o della poca fantasia dei mega consorzi scientifici)

Leggo or ora su Cordis la notizia della partenza di un nuovo progetto chiamato “1000 Genomes”, e mi chiedo se ce ne fosse veramente bisogno. ;-)
Non metto in dubbio la validità scientifica del progetto in se’; il suo scopo è la compilazione di un catalogo di varianti presenti per lo meno nell’1% della popolazione umana.
Mi lascia pero’ un po’ perplesso lo scollamento che percepisco tra possibilità tecnologiche che si hanno oggi (e che vengono pienamente sfruttate, forse anche per motivazioni prettamente commerciali), e l’utilità pratica dell’operazione.
L’articolo è interessante, ma voglio citarvi solo una frase:

«Con seimila miliardi di banche dati di DNA, nel corso del triennio della sua durata il progetto 1000 Genomes genererà una quantità di dati di sequenziamento pari a 60 volte quelli depositati nelle banche dati pubbliche del DNA negli ultimi 25 anni.»

Wow! A parte il fatto che sequenziare almeno 1000 genomi ormai non pare un obiettivo cosi’ scientificamente intenso, tenendo in conto quanto si è detto ultimamente riguardo progetti come Genomecommons e 23andme, quel che mi domando è se la creazione di tale banca dati possa fornire un effettivo beneficio, o se rimarrà solo un’immensa mole di dati senza valore interpretativo. Catalogare varianti geniche con un ordine di grandezza superiore, in effetti POTREBBE cambiare il modo in cui si effettueranno gli studi delle malattie genetiche, ma lo farà veramente? Lo sforzo interpretativo necessario, quando compiuto, avrà veramente un effetto sensibile in ambito clinico?

(sicuramente lo avrà sui bioinformatici che dovranno analizzare i dati :-| )


Tags: 1000 Genomes, genoma, Sequenziamento
24 gennaio 2008 - 18:48

Linkedin e il futuro della bioinformatica

Correndo up and down per il mio network preferito del momento, Linkedin , ho scoperto che oltre alle classiche opzioni di ricerca lavoro e di ricerca persone (per incrementare il tuo network di conoscenze), vi è anche un’opzione ANSWER. Ovvero vi è la possibilità di porre domande e ricercare risposte postate da altri utenti registrati.

Questo ha l’enorme vantaggio di ottenere spesso risposte estremamente competenti (proprio per la natura stessa su cui è costruito Linkedin). Si possono infatti mappare in questo modo le opinioni di altri esperti appartenti al proprio campo di competenza. Naturalmente ho testato questa opzione con la parola chiave BIOINFORMATICS.

Ovviamente, non tutte le domande sottoposte hanno un carattere generale, che possano essere di interesse comune.
Una discussione però è meritevole d’essere letta: Is bioinformatics still a viable career choice or a business model?
Per quanti non hanno un’utenza Linkedin (affrettatevi! Che aspettate!) vi riporto qui la questione sollevata da Jake Chen (Informatics/Computer Science Professor and Entrepreneur di Indianapolis):

Bioinformatics was pretty hot in the mid- to late- ’90s, when biological data management and data integration was largely a new topic for most Academic institutions, biotech companies, and Pharma. Similar to the IT and financial service industries, bioinformatics was also initially perceived as a “good business model” to serve the biotech/pharma industry by providing discovery-oriented services. However, with the open-source “free software” spirits in the field, the complex scientific marketing challenges, the long discovery process, the generally high-risk nature of biotech, the booming of bioinformatics seemed to be “short-lived” as a business practice or an independent practice in the industry, except for in the Academia (correct me if this is not the case in your company). As an educator, technologist, and an entrepreneur, I’d like to poll expert opinions on the future of this field. Is Bioinformatics still a viable career choice for many aspiring students who expect a rewarding career returns after BS/MS/PhD trainings?
Would the future of bioinformatics exist only as a service to the biotech/pharma industry where continued integration of biological sciences/applications may take place, or as a brand-new industry (e.g., Bloomberg/morningstar in financial services) to be developed in the future era of “personalized medicine”?”

Mi piacerebbe sentire qualche opinione italiana. A margine vi consiglio di dare un’occhiata anche ad un’altra opinione presente nella blogsfera a riguardo, che faccio per lo più mia: sul blog microarray.

The future is there [...] There are a wide variety of companies trying to commercialize bioinformatics.
Some of these businesses have been around for many years, but a lot of them are just jumping in with nothing but hype to sell, trying and gain some market share and position themselves as “leaders” in the new area of genomics, hoping to become profitable or get bought out before the venture capital funds dry up (fonte della citazione).


Tags: bioinformatica, Linkedin, Network, Prospettive future
22 gennaio 2008 - 13:02

23andMe sbarca in Europa (Il mio genoma e’ più bello del tuo!)

Avevo già parlato (qui) di come sia ormai alla portata di tutti ottenere il proprio genoma sequenziato. Pare che questa possibilità attraversi l’oceano per sbarcare in 49 paesi europei. BusinessWire pubblica la notizia.

La società che fornisce questo servizio è la 23andme(TM) .

Citando il loro website:

Welcome to 23andMe, a web-based service that helps you read and understand your DNA. After providing a saliva sample using an at-home kit, you can use our interactive tools to shed new light on your distant ancestors, your close family and most of all, yourself.

Personalmente sono affascinato dalla semplicità con cui fanno questo miracolo. E’ veramente il sogno proibito di Watson e Crick quando pensarono alla doppia elica!

Pensate un po’:

  • ricercare ed esplorare i geni che contribuiscono alle loro caratteristiche personali, per esempio intolleranza al lattosio, capacità atletiche e preferenze alimentari;
  • scoprire come le ultime ricerche sono collegate al loro genoma;
  • raffrontare il proprio profilo con quello di parenti e amici che partecipano all’iniziativa di 23andMe e scoprire il percorso ereditario dei geni associati a tratti specifici;
  • scoprire le proprie radici genetiche, conoscere come e quando hanno vissuto i loro antenati, e gli eventi preistorici cui hanno preso parte;
  • partecipare attivamente a una nuova tecnica di ricerca e contribuire al progresso della genetica.

Ogni bioinformatico, non può non voler far parte di questa selezionata elite di essere umani! Immaginatelo: fornire il materiale il biologico, produrre i dati genomici, analizzarsi, interpretarsi e pure pubblicarsi! All by yourself! :-)

Per una sbirciatina veloce a come funzionano i loro servizi vi rimando all’articolo di Businesswire e agli altri articoli relativi che potete trovare su google news.

Tags: Bioiniformatica, genoma, Società
22 gennaio 2008 - 11:56

Openhelix (una risorsa importante per il bioinformatico)

La Newsletter del Bioforum mi fa notare l’apertura di un nuovo blog : OPENHELIX focalizzato su genomica e risorse bioinformatiche.
Secondo le intenzioni degli autori il blog dovrebbe essere uno strumento per rimanere aggiornati riguardo i cambiamenti delle risorse presenti in rete e i vari database genomici. MA NON SOLO. Il blog è strutturato in modo che, insieme ai post quotidiani, viene messo a disposizione, di solito al mercoledì, un “TIP of the WEEK“, ovvero un breve video di circa 4 minuti che descriva, all’uso pratico, come ottenere il meglio dai database disponibili, sottolineando nuove funzioni, o metodologie per estrarre informazioni “nascoste“.

Certo è che, nei Tips vi sono dei tutorial ottimamente fatti. La qualità è veramente elevata!
Ma non è tutto: insieme ai Tips, settimanalmente verra’ proposto un’area “What’s Your Problem?”, dove il lettore potrà proporre quesiti e aspettarsi quindi risposte competenti riguardo per esempio come poter estrarre le informazioni che gli servono da una specifica risorsa. Una specie di help desk personalizzato.
Vi lascio infine immaginare il contenuto di un’ultima sessione, chiamata “Guest Post:-)

Personalmente seguo con avidità questa nuova risorsa, e non mancherò di sottoporvi alcuni loro Tips che reputo di particolare interesse. Eccovi intanto il loro feed principale. Sono sicuro che questo nuovo blog – se mantiene le promesse – diventerà sempre più una risorsa indispensabile!

Tags: bioinformatica, Blog, Database, Genomica, Openhelix