Bioinformatica e Web 2.0

Inside Bioinfo

4 settembre 2007 - 09:58

Il buon bioinformatico deve essere hacker dentro?

Devo tenere un breve corso di introduzione ad internet. Tra le altre cose, volevo dare un’idea scevra da pregiudizi della figura dell’hacker. Raccogliendo materiale mi sono inbattuto in questo link dove c’è una bella descrizione della forma mentis del vero hacker.
Mi chiedevo quindi se l’etica hacker possa coincidere con quella di un buon bioinformatico – e in generale di tutti gli scienziati.  

Seguendo la falsariga di quanto detto nella pagina linkata, se volessimo riassumere le capacità e gli atteggiamenti di un hacker, potremmo dire che essi risolvono i problemi e costruiscono le cose, credono nella libertà  e nel mutuo aiuto volontario.
I punti che seguono sono una sorta di breviario, e alcuni di essi mi paiono in pieno accordo con quanto il buon Dalloliogm scriveva in luglio circa i peccati capitali del bioinformatico.

  1. Il mondo è pieno di problemi affascinanti che aspettano di essere risolti. Essere un hacker è molto divertente, ma un tipo di divertimento che richiede molto sforzo. Lo sforzo di affilare le tue capacità ed esercitare la tua intelligenza (qualcuno ha detto FORMAZIONE?).
  2. Nessuno dovrebbe mai risolvere lo stesso problema una seconda volta. Le menti creative non dovrebbero essere sprecate nel reinventare la ruota quando ci sono cosìtanti e affascinanti problemi che aspettano là fuori (qualcuno ha detto BIOPERL?). E’ un dovere morale condividere informazioni, risolvere problemi e diffonderne la soluzione perchè altri non debbano riaffrontare problemi perpetuamente vecchi (qualcuno ha detto PIU’ BLOG E PUBBLICAZIONI BIOINFORMATICHE?).
  3. La noia e i lavori “da sgobboni” sono un male. Per comportarti come un hacker, devi voler automatizzare tutte le cianfrusaglie noiose il più possibile, non solo per te ma per qualsiasi altra persona.
  4. Per comportarti come un hacker, devi sviluppare un ostilità istintiva verso la censura, la segretezza [...](qui forse l’attitudine della comunità scientifica non si allinea molto, ma idealmente la scienza non dovrebbe essere una competizione all’articolo su Nature).
  5. Per diventare un hacker c’è bisogno dell’intelligenza, la pratica, di dedicarsi ed infine di lavorare sodo. Le competenze minime dovrebbero essere: – Imparare a programmare. Tuttavia non puoi essere considerato un hacker o nemmeno un mero programmatore se conosci un solo linguaggio – devi imparare a pensare circa i problemi di programmazione in generale, indipendentemente da qualsiasi linguaggio. – Ottenere un sistema operativo UNIX-like gratuti ed impara ad usarlo. – Imparare ad usare la World Wide Web (of course!!).

INOLTRE: Ci sono alcune cose che puoi fare quando non stai al computer che sembrano aiutare: Leggere riviste scientifiche. Andare a convegni scientifici. Studiare Zen, o praticare un arte marziale (la disciplina mentale sembra essere simile in maniera importante). Sviluppare un orecchio analitico per la musica. Apprezzare anagrammi e giochi di parole. Imparare a scrivere bene nel tuo linguaggio naturale.

Ora fate un raplace tra la parola hacker e bioinformatico. La cosa continua a funzionare?

31 agosto 2007 - 10:39

Lo strano caso degli standard scientifici (e dei bizzarri inglesi)

Ultimamente il mio lavoro bioinformatico si è spostato da una consistente ideazione di algoritmi e implementazione software ad una maggiore attenzione alla standardizzazione dei dati e dei risultati, vista l’approssimarsi della submission di un articolo. Mi sono guardato un po’ in giro e ho avuto un attacco di panico. Come è possibile che all’alba del 2008 ancora la comunità scientifica non riesce a darsi delle regole ben definite riguardo il trattamento dei dati?! E’ ormai una pratica comune usare nei laboratori tecnologie di tipo High-Throughput, ovvero che generano molto facilmente grandi quantità di dati e che debbono essere analizzati con tecniche automatiche e statistiche.
In proteomica (ve ne parlo perchè ci bazzico ancora un pochetto), la necessità di definire protocolli e standard è legato ad uno strano sentire. Da una parte il bioinformatico è alla ricerca spasmodica di tool per trattare i dati e quindi relativi standard di elaborazione (cosa non facile, visto che dispositivi diversi spesso generano raw data con strutture proprietarie e distinte); d’altra parte la propensione ad elaborare i dati nel modo che risulta più comodo e veloce possibile, dipendentemente dalle necessità del laboratorio, e dalla ricerca che si sta conducendo. Chi non ha mai sentito la spinta di archiviare dei dati in un bel formato TXT invece che un più adatto XML? Lo ammetto, signor giudice, sono colpevole!

Il problema è che lo stesso bioinformatico, che entra per la prima volta in un ambiente di ricerca, non viene istruito a questa necessità di rigore. Gli si chiedono risultati “tutto e subito”. E lui a volte si inventa formati dati, strutture di database albitrarie.
Per fortuna, questa tendenza, con la maturità di un settore scientifico, cerca di essere sedata (un caso a parte sono gli inglesi; a loro piace essere bizzarri, tanto da guidare dall’altra parte della strada, misurare la birra ancora in galloni e le distanze in piedi. Loro gli standard non sanno cosa siano). :-)

Già nel 2003 il W3C aveva pubblicato il Web Ontology Language (OWL). OWL è un linguaggio per definire ontologie strutturate basate sul Web che permettano maggiore integrazione ed interoperabilità di dati tra applicazioni. I primi ad adottare questi standard comprendevano bioinformatici e comunità mediche.
Un gruppo di volenterosi – PSI-MS: Mass Spectrometry Standards Working Group- nel 2006 già si poneva dinanzi queste necessità .

Insomma non è una novità. Ma fa comunque sempre notizia!

Su CORDIS trovate un nuovo articolo interessante a riguardo, e un medesimo articolo correlato qui.
Sebbene sembri un aspetto marginale, è invece un argomento fondamentale, che dovrebbe far parte di una corretta formazione del bioinformatico.
Ancora vengono pubblicati tanti risultati difficilmente replicabili proprio a causa di questa costante disparità di trattamento dati.

A quanti si interessano di Proteomica, poi consiglio di leggere le loro linee guida.

Have Fun, e buon ritorno l lavoro a tutti!

12 luglio 2007 - 17:23

Dove e’ il podcast (audio) bioinformatico?

Il nuovo fantasma nella macchina di internet è ormai un file avi. Sì, è un’immagine video sfuocata, amatoriale, che mostra i contorni sbiaditi di una cantina ipertecnologica. La mitologia di ogni studio televisivo pirata: il video che entra ovunque, con un click su you tube, magari per 20 secondi, azzanna un concetto e si spegne (forse dimenticato).
Ma prima che la mecca divenisse un video blog, c’è stato il breve regno dei podcast audio. Con i podcast si erano perse le 3 dimensioni spaziali, per trasmettere puro concetto, e prendere possesso della dimensione temporale. Una voce spettrale che dal profondo network ci faceva sentire meno soli di fronte al monitor. Internet acquisiva una voce.
E’ durato poco, il proliferare dei podcast. Ma forse è meglio così.
Ora la fuffa si riversa in video e i podcast audio può finalmente diventare lo strumento utile che dovrebbe essere. Un comodo, sintetico, strumento di informazione senza fronzoli. Podcast tecnologici, educativi, scientifici trovano spesso la loro perfetta collocazione integrati con portali, e altre iniziative. E’ esemplare il nuovo portale della wiley attento alle novità di proteomica GoProteomics, che è fornito di podcast il cui scopo dichiarato e’:

Our podcast show features top articles published in PROTEOMICS, including interviews with Authors and Editors.

Personalmente trovo irrinunciabili gli archivi mp3 delle lezioni informatiche dell’oilproject, le puntate radiofoniche di Attivissimo, e alcune puntate del podcast di Nature.

Ma per la bioinformatica? Qualcosa in inglese; ma praticamente nulla in italiano. Eppure penso ci sarebbero tante cose da raccontare, che potrebbero uscire dai confini del semplice blog. Interviste con insegnanti, raccolta di lezioni, novità da approfondire con gli esperti, i nuovi tools, le tendenze.

Comunque non tutto è perduto. Volevo proporvi un intervento che fa parte della trasmissione Sedna, sul server di Ulisse (nella rete della scienza). E’ un interessante intervento di qualche tempo fa, che si lascia ascoltare piacevolmente e racconta la bioinformatica ai non addetti in modo chiaro. Secondo me potrebbe essere preso ad esempio per far partire un piccolo progetto podcast italiano di bioinformatica (PIB project?? :-) ) Qualcuno se la sente?

Tags: bioinformatica, formazione, video
10 luglio 2007 - 16:21

Biomail è morto (o quasi), lunga vita a Biomail

Cosa è Biomail? BioMail è un programma sviluppato in Perl che semplifica e automatizza la ricerca della letteratura scientifica. BioMail in sostanza effettua ricerche su PubMed, la piu’ grande banca dati pubblicamente disponibile per riviste biomediche, attraverso l’uso di parole chiave definibili dall’utente. I risultati vengono poi inviati tramite posta elettronica con una cadenza settimanale, bisettimanale o mensile, a seconda delle impostazioni selezionate.

Questo servizio, che mi ha accompagnato negli ultimi 2 anni, nel tentativo di tenermi aggiornato sullo stato dell’arte della proteomica, ci abbandona. Alla fine del 2007 verrà chiuso il servizio in quanto tutte le sue funzionalità sono ormai state integrate in Pubmed stesso!

E’ infatti ormai possibile crearsi un proprio account personale su NCBI, chiamato My NCBI (viva la fantasia!).

My NCBI permette di personalizzare i servizi web di NCBI. Con esso potrete salvare le vostre ricerche, visualizzare link a risorse web esterne, selezionare filtri in grado di raggruppare i risultati delle ricerche e settare (proprio come in Biomail) l’invio di email di allerta per nuovi contenuti. Il sistema è naturalmente stato ottimizzato rispetto quanto era permesso fare con Biomail. Essendo un tool interno, esso è in grado di sfruttare a pieno le potenzialità della ricerca e filtraggio avanzata che Pubmed mette a disposizione.

Questo però mi lascia una piccola dose di nostalgia per un progetto che va esaurendosi, ma che essendo molto ben fatto, mi ha aiutato spesso.

2 luglio 2007 - 16:09

Meglio un bioinformatico biologo o un biologo bioinformatico?

(as Gene Myers suggested be really good computationalist, and even he says that computer scientists should learn science, too. And of course statistics! We all need to know statistics.)

Una questione non nuova, e che spesso si ripropone in varie forme, è quella che mette ai due angoli del ring le diverse anime del bioinformatico. Ovvero, quale formazione sia più appropriata per un bioinformatico; quali conoscienze debbono essere prominenti per facilitarne il lavoro scientifico.

Basta un input, per far rimbalzare per tutta la blogsfera focalizzata sulla bioinformatica, una serie di commenti e prese di posizioni, IMHO poco meditate.

Un articolo proposto da BioInform , qualche tempo fa, da fuoco alle polveri. Per citare Lincoln Stein:

I hope to see bioinformatics becoming a tool like molecular biology that everybody uses, and that the software we’re developing now will become as easy and as standard to use as a pipettor. You don’t read for the guy who knows how to run pipettors when you need to pipette something.You reach for the pipettor yourself….

Non sono poche le persone, anche di un certo calibro, a pensarla così. Per chi volesse leggere qualche commento, posso consigliare di spendere cinque minuti intorno il blog BBGM . Vi riporto qui sotto un paio di esclamazioni per tutte che mi ha fatto sorridere per la loro ingenuità:

It’s always been my opinion that if we treat bioinformatics as just another tool in the hands of a scientist, the field will always benefit from it.

[...] I get asked often about the type of bioinformatics training that students should get and whether it should be a special course or not. […] And I answer that I think teaching bioinformatics in the absence of biology is like teaching Microsoft Word in the absence of writing! So I was happy, to discover, that I’m not the only one who thinks this way.

Mi piacerebbe fare un po’ di chiarezza a riguardo. Inanzitutto, vorrei dire che trovo la questione un falso problema. Personalmente reputo che non esistano solo i due estremi bianco e nero: il biologo puro, tutto wet, e l’informatico, tutto keyboard oriented, come stati quantici ottimali su cio porsi. Esistono tutta una serie di toni di grigio in cui si dovrebbe ragionevolmente collocare il bioinformatico, dipendentemente dalle necessità, dalle collaborazioni che intraprende, il settore in cui si specializza e la propria naturale inclinazione.

La bioinformatica ha una origine biologica! E’ nata per trattare dati biologici, naturalmente, ma da questo suo terreno di coltura si è evoluta in qualcosa di più. E’ una scienza multi-disciplinare. E per sua stessa natura suppone che il bioinformatico ottimale sia colui che si trova ugualmente a conforto con biologia, computazione e statistica. Non credo che ci sia qualcuno che, cosciente delle dimensioni titaniche dei tre settori appena citati, possa onestamente pensare di padroneggiarli tutti pienamente.

E’ certamente vero che una certa percentuale dei task bioinformatici che vengono richiesti, potrebbero essere sviluppati con poca fatica da biologi con una competenza base di programmazione (“mi serve calcolare quanti peptidi in nr iniziano con la lisina, per favore”). Ma è ugualmente vero che una ugualmente elevata percentuale delle attività di un bioinformatico comporta un’alta specializzazione. Vi è anche da considerare la crescita del numero dei servizi che sono presenti on-line e che spesso non sono di immediato utilizzo. Conoscerli e saperli integrare con le proprie necessità richiede tempo e impegno. Inoltre, il prodotto bioinformatico deve essere caratterizzato da una sempre più alta qualità in fase di rilascio nella comunità scientifica. Questo comporta esperienza nello sviluppo di software complessi, capacità di gestire e debaggare server bioinformatici. Come saremmo arrivati altrimenti alla versione 162 del genome browser? Viceversa, un bioinformatico con un’ampio backgroud di biologia potrà porsi dinanzi alle domande biologico-chimiche con maggior facilità, sapere quali dati andare ad approfondire, e potrà programmare in autonomia gli esperimenti.

Non credo sia corretto considerare la bioinformatica solo come uno scalpello da usare per scavare più a fondo. Come tutte le scienze complesse, essa necessita tutta una serie di figure di grande professionalità, ma in settori distinti, e che sappiano integrarsi e collaborare.

22 giugno 2007 - 12:16

Un nuovo motore di ricerca bioinformatico condiviso

Tra i mille e mille nuovi prodotti che Google sempre sperimenta, ve ne è uno che si allontana un po’ dall’approccio solito Googlesco di “customizzare i servizi per ogni singolo utente“. Ovvero Google di solito ti fornisce la possibilità di ricordare le TUE ricerche, ti fornisce le news sulla base delle TUE preferenze, ti permette di configurare il desktop sulla base dei TUOI feed preferiti, e così via.

Diversamente c’è un servizio che va un po’ più nella direzione del Web 2.0 e della condivisione delle risorse, ed è … la versione beta di Google Co-op. All’interno del lab c’è una proposta simpatica, ovvero il Google Custom search engine. Un servizio che permette di adattare alle proprie necessità, le potenzialità del motore di ricerca Google.

Il sistema funziona assegnando una sorta di priorità di ricerca a determinati siti e parole chiavi che vengono fornite dall’utente. L’idea non è nuovissima, tempo fa avevo già testato la stessa cosa su un’altra piattaforma, Rollyo, che potete trovare qui. Si potrebbe inoltre pensare che non fornisce nulla che un accorto uso delle opzioni di ricerca avanzata possa fare. Però c’è l’aspetto collaborativo che rende il progetto più interessante: infatti è possibile permettere ad altri utenti di modificare/aggiungere nuovi siti.

Spinto dalla curiosità mi è venuta l’idea di creare una prima versione beta di un BIOINFORMATICS SEARCH ENGINE, che punta specialmente su siti notizia e blog a carattere scientifico e bioinformatico (molecularlab in testa!). Lo potete provare , giocarci, aggiungerlo alla vostra home, e moficarlo a piacimento.

L’idea sarebbe quella di vedere come un sistema del genere possa evolversi, e diventare sempre più mirato, grazie alla collaborazione di più persone. Queste infatti fornirebbero le proprie preferenze in fatto di fonti informative, rendendo il motore di ricerca migliore.

Fatemi sapere!! (si potrebbe pensare di fare una selezione di ricerche-test, e vedere come cambiano i risultati riportati)

18 giugno 2007 - 17:39

blast su DB – una nuova proposta (progetti utili o disutili?)

Blast è molto probabilmente al momento l’algoritmo migliore per allineamento di sequenze. Come viene definito ufficialmente:

The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.

Ne ha già scritto Dalloliogm in un post molto intuitivo sul suo blog personale. Per chi non sapesse di cosa di stia parlando consiglio di leggerlo qui.

Blast è usato in un bazilione di applicazioni interessanti. Qui vi volevo sottoporre un nuovo progetto proposto da Felipe Albrecht sul suo blog. Si propone infatti di integrare Blast con un database tipo PostgreSQL .

Il progetto è descritto (sommariamente per ora) su sourceforge. In inglese, per fortuna (nonostante tutto, lo trovo più facile dello spagnolo :-) .

Senza voler polemizzare eccessivamente, mi chiedo se tali progetti possano apportare un effettivo beneficio alla comunità scientifica, almeno pari al sudore della fronte speso nel realizzarli. Lo stesso autore è ben cosciente del fatto che esso si sovrappone parzialmente con altri progetti similari che cercano di integrare ed estendere l’uso di un potentissimo tool come postgrSQL alla biologia computazionale e all’analisi di dati high throughput (Biopostgres). C’è inoltre da considerare un aspetto, secondo me importantissimo, ovvero che proprio l’assoluta semplicità/modularità di Blast permette di integrarlo velocemente in script perl (e/o python).

Aver installato su di un server locale Blast permette di accedervi attraverso script CGI, o per linea di comando. Estrarne l’output in formato testo e farne quindi mille usi diversi. Anche partir dai risultati generati per sondare altri database disponibili online. Dove sta quindi l’effettiva utilità di questo progetto? L’autore mette l’accento su un aspetto:

A [good] approach is to use good data bases schemas, like GUS , to store the sequences and their information, but a problem occur when a search by similarity is needed. The sequences must be dumped into a temporary file, this temporary file must be formatted to the blast format and finally, the search can be performed. After this process, the results must be saved into the data base. This process wastes time [and money].

Personalmente non mi convince molto. Racchiudere l’algoritmo di Blast in confini legandolo ad un database ne limiterebbe l’utilizzo (sebbene ammetto che permetterebbe un più immediato recupero di informazioni genomiche/proteomiche connesse, attraverso un accorto uso delle query). Al contempo però credo crescerebbero esponenzialmente le problematiche da affrontare in fase di sviluppo. Ovvero quali dati inserire all’interno di questo database, come tener conto di futuri sviluppi e di basi dati nuovi e interessanti?

Piccola provocazione per incentivare la conversazione. Cosa ne pensate?

12 giugno 2007 - 14:55

Bioinformatica for fun! Suonare il DNA!

Non vorrei far passare l’idea che la bioinformatica sia una elucubrazione autoreferenziale di qualche informatico col chiodo fisso di dimostrare di avere anche basi biologiche. Insomma, la bioinformatica non è tutta microarray e algoritmi genetici. Alle volte è anche creatività e divertimento!

Ne volete un esempio?

Tucano aveva già scritto qualche tempo fa, un piccolo capolavoro in perl che legava divertimento e bioinformatica. Aveva creato uno script (in formato elicoidale) chiamato DNA is life, che permetteva di trasformare una qualunque parola (il tuo nome per esempio) in DNA!

Adesso ci propone un altro piccolo tool spassoso che permette di “suonare” il DNA! (per la serie: tutti vorremmo fare gli artisti…)

Si chiama Playgene ! On line c’è la versione 0.4.

Secondo l’autore l’interfaccia fa un po’ schifo ed è ancora piu o meno allo stato di embrione, io comunque consiglio di farci un giro!

Ciao Ciao

7 giugno 2007 - 16:01

L’integrazione della complessità. Una interessante analisi

All’interno delle varie aree del sito del bioindustry park Canavese, è possibile leggere un documento molto interessante del 2006, che traccia un quadro complessivo e molto ben fatto dello stato della bioinformatica. Si intitola: la sfida della bioinformatica: l’integrazione della complessità.

Consiglio l’ottima relazione di Alberto Baldi e Fabrizio Conicella sia a coloro che di bioinformatica non sanno molto, sia a quanti invece già ne masticano e magari ne hanno fatto la loro attività quotidiana. I primi, perchè la relazione traccia una sorta di mini storiografia della nostra scienza preferita, delineandone chiaramente l’importanza e le sfide. I secondi invece potranno fare il punto della situazione, avere un documento che cerca anche di tracciare qualche interessante scenario futuribile (quello che gli autori indicano come “problemi attuali e soluzioni in divenire”), che potrà essere verificato da qui a pochi anni.

Il documento non vuole essere una esaustiva indagine di ogni settore in cui la bioinformatica dà il suo contributo (cosa che per altro non credo sia fattibile, visto come si ampliano velocemente i settori interessati); non è un paper in cui vengono collezionati liste infinite di link a tools e database online.

Può però essere una base da cui prendere spunto. L’approccio che viene seguito è molto ben strutturato, è un ottimo esempio, a mio modesto parere, di come si possa fare comunicazione scientifica precisa, puntuale, ma non boriosa.

Più di una volta mi è stato chiesto di scrivere parte di progetti di grosse dimensioni, cordate di compagnie e fondazioni che debbono partecipare a progetti sponsorizzati da fondi europei. Avere allora un documento tale da cui fare copia/incolla :-) mi sarebbe stato molto utile.

6 giugno 2007 - 14:59

Inside Bioinfo: stay tuned!

Lo sappiamo, ne siamo convinti:

la multiforme varietà della vita passa attraverso i temi della genetica, dei metodi di contraccezione, della terapia per i malati terminali, gli alimenti OGM, le politiche del ministero per l’innovazione, le nuove tecnologie di peer2peer, le tendenze delle comunità virtuali.

La scienza è divenuta in breve una combinazione di sfide, di etica e di estrema curiosità intellettuale. In questo senso la bioinformatica sta dimostrando sempre di più la propria importanza. La bioinformatica sta permettendo l’integrazione e l’esplorazione di una quantità di dati impensabili in passato.

Al contempo, in molti settori della comunità scientifica, la bioinformatica è ancora non adeguatamente considerata; al più è vista da molti dinosauri ultraspecializzati (leggi: ricercatori vecchio stampo) come un tool molto complicato che qualcunaltro mette a disposizione. La bioinformatica è molto più di questo! Io la interpreto come una vera e propria scienza connettiva, un occhio puntato sul tecnomondo biologico.

Coltivare la comunicazione bioinformatica e le sue potenzialità, ma descrivendola per l’avventura quale è! Bloggamento rilassato, per esprimere la prima vera base azotata del mondo bioinformatico: the constant battle for brainpower!

Spero che tutti qui trovino qualche stimolo e si divertano, almeno quanto noi ci divertiamo scrivendo!