Bioinformatica e Web 2.0

Inside Bioinfo

8 febbraio 2008 - 14:59

Il pessimismo cosmico del bioinformatico (just for fun)

Visto chi mi si accusa ingiustamente di essere una persona molto competente e sicuramente seria, oggi, in attesa di postarvi qualcosa di dirompente e innovativo, volevo farvi partecipi dell’opinione che, sotto gli effetti di una stretta dieta a base di statistiche errate, un noto ricercatore dell’Ifom, Giovanni D’ario mi disse nel tentativo di definire cosa fosse un bioinformatico: “e’ qualcuno che a forza di cercar di curare il cancro, gli viene il cancro (o alle volte il mal di denti)”. Tra parentesi la variante di Barbara Felice. :-)

Mi raccomando, non prendete la scienza seriamente!

Tags: bioinformatica, Fun, pessimismo
30 gennaio 2008 - 17:37

La proprietà transitiva della Bioinformatica

La bioinformatica ha speso negli anni molti sforzi intorno il pattern detection, per ovvii motivi. Il pattern matching è infatti una delle grandi anime della bioinformatica; è usato, dove più dove meno, ovunque, negli allineamenti multipli, nel homology modeling, per classificazioni e per predizioni, in proteomica come in genomica.
Non è una notizia nuova che IBM stia applicando con successo alcune tecniche usate in bioinformatica per la ricerca di pattern nel DNA nel campo dell’identificazione dello spam (l’algoritmo Teiresias sviluppato da Chung-Kwei). Daltronde lo stesso George Harik, uno dei primi dieci ingegneri di Google, e che collabora a sistemi “intelligenti” come Adsense e Gmail anti-spam, ha un background che coinvolge algoritmi genetici.

Tutto questo per dimostrare come grandi vantaggi possono venirne dal sapere far tesoro dell’interazione di settori scientifici anche distanti (apparentemente). Naturalmente sarebbe auspicabile una relatione tra bioinformatica e altre scienze che non sia intransitiva.
Un interessante articolo su openHelix circa le difficoltà di navigare, attraverso metodi intelligenti, nel mare magnum
della letteratura scientifica
, mette l’accento (anche) su questo aspetto:

we pointed out that all or most of the demonstrably useful biomedical text mining systemshave been built not by text mining specialists, but by computational biologists. Why might this be? Although this has not been systematically investigated, we speculate that it is related to cultural differences between the two groups.
[...] a combination of computational biologists and text mining specialists will be optimum.
Text mining specialists continue to excel at building system components and designing datasets for evaluation; computational biologists currently appear to be much better at producing useful task definitions. Perhaps the most fruitful approaches are characterized by combined efforts that leverage the abilities of each type of scientist.

Vi consiglio l’articolo da cui partono, o almeno leggere il post su openHelix; tra le altre cose fa il punto sulle risorse web disponibili al momento per “navigare la letteratura”. Devo ammettere che il grafico che disegna il tasso di crescita del numero di abstract è spaventevole, più ancora della crescita del numero di database catalogati nelle tabelle dell’ultimo NAR.

Tags: bioinformatica, Data-mining, Letteratura scientifica, Scienza
24 gennaio 2008 - 18:48

Linkedin e il futuro della bioinformatica

Correndo up and down per il mio network preferito del momento, Linkedin , ho scoperto che oltre alle classiche opzioni di ricerca lavoro e di ricerca persone (per incrementare il tuo network di conoscenze), vi è anche un’opzione ANSWER. Ovvero vi è la possibilità di porre domande e ricercare risposte postate da altri utenti registrati.

Questo ha l’enorme vantaggio di ottenere spesso risposte estremamente competenti (proprio per la natura stessa su cui è costruito Linkedin). Si possono infatti mappare in questo modo le opinioni di altri esperti appartenti al proprio campo di competenza. Naturalmente ho testato questa opzione con la parola chiave BIOINFORMATICS.

Ovviamente, non tutte le domande sottoposte hanno un carattere generale, che possano essere di interesse comune.
Una discussione però è meritevole d’essere letta: Is bioinformatics still a viable career choice or a business model?
Per quanti non hanno un’utenza Linkedin (affrettatevi! Che aspettate!) vi riporto qui la questione sollevata da Jake Chen (Informatics/Computer Science Professor and Entrepreneur di Indianapolis):

Bioinformatics was pretty hot in the mid- to late- ’90s, when biological data management and data integration was largely a new topic for most Academic institutions, biotech companies, and Pharma. Similar to the IT and financial service industries, bioinformatics was also initially perceived as a “good business model” to serve the biotech/pharma industry by providing discovery-oriented services. However, with the open-source “free software” spirits in the field, the complex scientific marketing challenges, the long discovery process, the generally high-risk nature of biotech, the booming of bioinformatics seemed to be “short-lived” as a business practice or an independent practice in the industry, except for in the Academia (correct me if this is not the case in your company). As an educator, technologist, and an entrepreneur, I’d like to poll expert opinions on the future of this field. Is Bioinformatics still a viable career choice for many aspiring students who expect a rewarding career returns after BS/MS/PhD trainings?
Would the future of bioinformatics exist only as a service to the biotech/pharma industry where continued integration of biological sciences/applications may take place, or as a brand-new industry (e.g., Bloomberg/morningstar in financial services) to be developed in the future era of “personalized medicine”?”

Mi piacerebbe sentire qualche opinione italiana. A margine vi consiglio di dare un’occhiata anche ad un’altra opinione presente nella blogsfera a riguardo, che faccio per lo più mia: sul blog microarray.

The future is there [...] There are a wide variety of companies trying to commercialize bioinformatics.
Some of these businesses have been around for many years, but a lot of them are just jumping in with nothing but hype to sell, trying and gain some market share and position themselves as “leaders” in the new area of genomics, hoping to become profitable or get bought out before the venture capital funds dry up (fonte della citazione).


Tags: bioinformatica, Linkedin, Network, Prospettive future
22 gennaio 2008 - 11:56

Openhelix (una risorsa importante per il bioinformatico)

La Newsletter del Bioforum mi fa notare l’apertura di un nuovo blog : OPENHELIX focalizzato su genomica e risorse bioinformatiche.
Secondo le intenzioni degli autori il blog dovrebbe essere uno strumento per rimanere aggiornati riguardo i cambiamenti delle risorse presenti in rete e i vari database genomici. MA NON SOLO. Il blog è strutturato in modo che, insieme ai post quotidiani, viene messo a disposizione, di solito al mercoledì, un “TIP of the WEEK“, ovvero un breve video di circa 4 minuti che descriva, all’uso pratico, come ottenere il meglio dai database disponibili, sottolineando nuove funzioni, o metodologie per estrarre informazioni “nascoste“.

Certo è che, nei Tips vi sono dei tutorial ottimamente fatti. La qualità è veramente elevata!
Ma non è tutto: insieme ai Tips, settimanalmente verra’ proposto un’area “What’s Your Problem?”, dove il lettore potrà proporre quesiti e aspettarsi quindi risposte competenti riguardo per esempio come poter estrarre le informazioni che gli servono da una specifica risorsa. Una specie di help desk personalizzato.
Vi lascio infine immaginare il contenuto di un’ultima sessione, chiamata “Guest Post:-)

Personalmente seguo con avidità questa nuova risorsa, e non mancherò di sottoporvi alcuni loro Tips che reputo di particolare interesse. Eccovi intanto il loro feed principale. Sono sicuro che questo nuovo blog – se mantiene le promesse – diventerà sempre più una risorsa indispensabile!

Tags: bioinformatica, Blog, Database, Genomica, Openhelix
9 gennaio 2008 - 13:18

Aggregare e Organizzare l’informazione (Userscripts scientifici)

BMC Bioinformatics e’ sempre stata la mia lettura (bioinformatica) preferita. Free access, più vario negli argomenti trattati rispetto a Bioinformatics , ha pure un buon impact factor, il che non guasta.

Volevo portar alla vostra attenzione un articolo molto interessante che è stato pubblicato nel Dicembre scorso, sull’uso degli Userscripts in campo scientifico (DOI:10.1186/1471-2105-8-487 ). Come ben espresso già nell’abstract, la necessità di usare aggregatori è ormai cosa che più di tutti, il bioinformatico comprende. Si contano migliaia di risorse di biochimica ormai disponibili in rete, tra blog, database, pubblicazioni scientifiche, wiki e quant’altro. Risulta sempre più difficoltoso quindi linkare tutto in un modo centralizzato, anche utilizzando linguaggi come Resource Description Framework e Web Ontology Language.
Uno sviluppo interessante e’ l’uso di user script atti a modificare configurazione e contenuto delle pagine web. Questo permette di aggregare informazione o risultati di computazioni da diverse fonti web in un’unica pagina di risultati. Per capirsi, un tipico esempio può essere la comparazione dei prezzi di negozi online.

L’articolo descrive come script di tipo Greasemonkey possono essere usati per combinare informazioni derivanti da diverse fonti biologiche. Consiglio per quanti non siano avvezzi a questi argomenti di leggere almeno l’articolo relativo di wikipedia (e’ pure in italiano! ). Per poi guardare come questa tecnica può facilmente essere usata, sfruttando API e URL, per collezionare informazioni attraverso solo con poche righe di codice.

A dimostrazione del fatto che se una risorsa e’ resa disponibile usando gli identificatori adeguati, Schema Standard e quant’altro, essa acquisisce un valore aggiunto notevole.

Tags: Aggregatori, articolo, bioinformatica, Greasemonkey, Userscripts
10 dicembre 2007 - 16:50

Moleculat Mat (nuovo progettino didattico)

Oggi vorrei fare una mini dichiarazione d’intenti, e far partire una nuova iniziativa: un progetto un attimo più ambizioso, che sia in grado di dare un valore più duraturo ai post che scrivo.

Troppo spesso ci si dimentica degli aspetti più “teorici” su cui si fonda la bioinformatica. Essa sfrutta, nei vari settori, tanti altri interessantissimi approcci matematico-computazionali.
A dimostrazione si vada a leggere l’indice dell’ultimo numero di Bioinformatics (anche solo l’indice è galvanizzante): strategie predittive, algoritmi genetici, clustering, alberi gerarchici, support-vector-machine…
Non c’è solo la statistica! :-) La cristallografia, la system biology, la filogenetica si legano spesso indissolubilmente a questi argomenti! E alle volte non li sfruttano ancora a pieno, secondo la mia modesta opinione.

In effetti, le necessità di alte prestazioni computazionali, che distinguono molti aspetti della bioinformatica, comportano lo sviluppo di tool che hanno fondamenta teoriche di grande fascino.

In quest’ottica vorrei proporre delle piccole escursioni nelle basi di questi interessanti argomenti. Per quanto possa; e nel caso non avessi proprio competenza per introdurre un argomento, cercherò di coivolgere altri con piccole ma intense collaborazioni. Cercherò, inoltre di strutturare gli argomenti secondo diversi aspetti che andranno completandosi vicendevolmente. Nel blog vi proporrò i soliti post, descrizioni che diano una visione a grandi linee. Insieme ad esso metterò a disposizione su slideshare delle presentazioni powerpoint che siano più incisive e configurino l’argomento in modo più rigoroso.
Infine verrà proposto una relazione più completa che cerchi di ampliare ancor di più l’argomento, portare esempi pratici
e via dicendo…

In attesa di integrare tutti questi aspetti nel laboratorio di molecular lab, ho aperto un nuovo blog-collector a base wordpress: MOLECULAR MAT (inteso come “molecular material“).
Per iniziare ho realizzato una escursione “beta-version” sugli alberi dei suffissi, furteggiando di qui e di là in rete. :-)

Spero che lo sforzo possa essere gradito.

Ciao a tutti

Tags: bioinformatica, Collaborazione, Didattica, MolecularMat, Progetto
30 novembre 2007 - 11:54

Spettrometria di massa Natalizia (lista dei desideri dei big boss della proteomica)

Pare proprio che qualche redattore di Nature Method abbia anche un lato goliardico! Ad accesso gratuito è apparso -nel nuovo numero- un articolo tra il serio e il faceto sulle potenzialità della spettrometria di massa applicata alla proteomica: Mass spectrometry: playing catch up.

A parte la presenza delle opinioni dei maggiori protagonisti del settore, questo articolo natalizio è arricchito da una “lista dei desideri” nella quale ognuno di questi moderni signorotti della proteomica esprimono un desiderio riguardante la tecnologia prossima ventura.

Eccovene un’estratto, i desideri di due grandi competitors:

“I would like to see another 2–3 orders of magnitude increase in the sensitivity and scan speed.”
John Yates, The Scripps Research Institute

“If and when the vendors get the software right, which directs the instrument, then the same instrument will be able to do much more. So I am hoping and waiting for that to happen.”
Matthias Mann, Max Planck Institute of Biochemistry in Martinsried
© 2007 Nature Publishing Group

Un approccio completamente diverso: il primo è esclusivamente Hardware-Oriented, il secondo è più un approccio “uso la testa, visto che la tecnologia è già avanzatissima”. In Effetti, migliorare ulteriormente sensibilità/risoluzione/velocità degli spettrometri faciliterebbe la vita, permetterebbe, per esempio, la riduzione dei falsi positivi durante l’identificazione delle proteine; questo non toglie che certi limiti rimarrebbero invariati (bug compresi) se lo sviluppo dell’hardware non va di pari passo con l’evoluzione del software!

Ora ditemi, dove si respira una sana aria bioinformatica?? :-)

Tags: articolo, bioinformatica, Nature, Proteomica, Spettrometria di massa
22 novembre 2007 - 13:56

GALAXY (finalmente la genomica for dummies!)

Una nuova spettacolare piattaforma è ora disponibile per ogni bioinformatico pigro (categoria sempre piu’ corposa) :-)
Galaxy è un nuovo servizio che fa faville per comodità, portabilità e utilizzo.
Fate attenzione Galaxy da’ dipendenza. Non è semplicemente un altro tool, è invece un nuovo approccio vero e proprio all’analisi dei dati genomici.
Di cosa si tratta?
Come esplicitamente dichiarato nel wiki, Galaxy è una piattaforma disegnata per due comunità che raramente comunicano tra loro:
i biologi sperimentaliI really have no time to program but I want to do whole-genome analyses to find targets for experimental validation“, e i biologi computazionaliI develop algorithms but have no time to develop interfaces”.

L’idea di fondo è quella di sfruttare la sostanziale standardizzazione dei dati genomici che vengono prodotti negli angoli più
riposti del mondo e messi a disposizione in tabelle dell UCBS browser. Spesso le analisi genomiche, massive o finalizzate che siano, si possono condensare nell’applicazione di operazioni di filtraggio, conversione, data mining manipulation o analisi statistiche (più o meno adeguate). Naturalmente, le medesime operazioni su dati diversi generano risultati diversamente significativi, e necessitano successivamente una forte componente interpretativa.

Perchè allora non condividere tutti gli aspetti computazionali su un’unica piattaforma?

Ecco che allora Galaxy mette a disposizione un’interfaccia comodissima, per implementare l’upload dei propri dati, navigarci dentro, esaminarli, e quant’altro.

Ma questo non è tutto. Il sistema è costruito per permettere anche la customizzazione dei tools! Immaginate di aver realizzato uno spettacolare script in Perl in grado di fare l’analisi statistica piu’ raffinata al mondo.

>perl toolExample.pl $input $option1 $option2 $output

In pochi semplici passi potete inserirlo nella vostra directory personale “/myTools”, creando un file xml di configurazione
che vada ad indicare a Galaxy i dettagli di esecuzione:

<tool id=”chip-chip_analysis" name=”PeakPicker">
<description>Finding Peaks in a GFF Nimblegen File</description>
<command interpreter="perl">toolExample.pl $input $option1 $option2 $output</command>
<inputs>
<param format=”gff" name="input" type="data" label="Source file"/>
<param name=”option1" type=”integer” label=”Option 1" />
<param name=”option2" type="data_column" data_ref="input" numerical="True" label=”Option 2" />
</inputs>
<outputs>
<data format=”bed" name="output" />
</outputs>
</tool>

E a quel punto avrete a vostra disposizione nella colonna dei tools il vostro Script, integrato perfettamente all’interfaccia.
Magia!

Update: Ecco, grazie al bioamico Matteo Cesaroni una bella presentazione di Galaxy via slideshare, da cui avevo tratto ispirazione per il post. Lo trovate su Bioinfusion, grazie alle mille potenzialità di wordpress!

Tags: analisi dati, bioinformatica, Galaxy, Genomica
21 novembre 2007 - 17:11

The DNA Network (un occhio di sbieco sul mondo della science-blog-sphere)

Un problema notevole in un mondo dove la blogsfera è infinitamente in crescita, infinitamente veloce, è selezionare cosa leggere, e sapere dove trovare quanto di interessante c’è in un determinato settore. I semplici aggregatori feed possono aiutare, ma spesso sono dispersivi.
La mia pagina personale del google desktop, per esempio, ormai si dispone in 4 tag divisi per argomento, e ognuno di esso è stracolmo di feed a blog che desidererei seguire assiduamente.

 

Ormai sono tantissimi anche i blog di bioinformatica, e di scienza in genere, e seguirli tutti diventa troppo time-consuming.

Una delle soluzioni che ho adottato è stata quella di utilizzare un servizio ancora in beta che mette a disposizione feedburner, ovvero i FB Network. Network di blog. Nel mio caso seguo con piacere THE DNA NETWORK!

 

I blogger vengono invitati ad iscrivere il proprio blog ad un “gruppo tematico”, dopo di che i titoli e gli starter dei diversi post vengono proposti in una unica pagina online aggiornata in real time. E’ un’alternativa all’uso dei tag in technorati o tag bioinformatici di wordpress. Scorrendo questa pagina si riesce a selezionare velocemente articoli e notizie flash che ci possono essere sfuggite.
Naturalmente, non c’è tutto lo scibile d’interesse, però capita spesso che l’attenzione cada su un articolo o un tool che altrimenti non avremmo mai preso in considerazione, e il tempo speso è veramente poco.

Have Fun!

Tags: Aggregatori Feed, bioinformatica, BlogSfera, DNA Network
12 novembre 2007 - 18:20

Bioscreencast (1001 nuovi sharing tools)

Il successo di YouTube ha veramente rivoluzionato il web e la sua anima collaborativa. Oramai tutti i giorni si scoprono nuovi progetti che integrano web 2.0 con lo streaming e dintorni. Ci sono radio via web e portali per condividere slide e presentazioni, ci sono gruppi su social networks, ci sono sistemi televisivi personalizzabili, e mille altri.
In questo marasma, i bioinformatici ci si sono spesso buttati a pesce, navigando a vista tra queste nuove possibilità, disperdendosi ed evolvendo come qualunque altra razza primate.

Di tutte queste nuove proposte, l’intenzione sarebbe di introdurre qui sul blog quanti più nuovi servizi mi sia possibile, dando giusto un’idea di cosa si tratti, e poi, con più calma (e magari un po’ di collaborazione), creare dei mini-tutorial per l’area didattica che ne completino la documentazione.

Oggi volevo parlarvi di un appassionante servizio per bioinformatici pigri: Bioscreeencast ! Molti lo conosceranno di già, ma a me piace e quindi eccovelo!

Cosa è? Wikipedia ci dice che uno screencast è una registrazione digitale di quanto succede sul desktop del nostro computer, magari dotata di una narrazione audio.
A cosa può servire? Per evitare ad un bioinformatico pieno di impegni di spulciarsi 1000 pagine di documentazione per sapere come si usa una specifica funzione di genome browser, per esempio.
L’idea è creare una comunità per condividere video che spieghino, all’atto pratico, l’uso di un tool di interesse scientifico.

L’interfaccia è veramente intuitiva, e c’è un bel blog per approfondire. Forza biocosi, diamoci da fare!

Tags: bioinformatica, bioscreencast, condivisione dei dati, video