Bioinformatica e Web 2.0

Inside Bioinfo

31 agosto 2007 - 10:39

Lo strano caso degli standard scientifici (e dei bizzarri inglesi)

Ultimamente il mio lavoro bioinformatico si è spostato da una consistente ideazione di algoritmi e implementazione software ad una maggiore attenzione alla standardizzazione dei dati e dei risultati, vista l’approssimarsi della submission di un articolo. Mi sono guardato un po’ in giro e ho avuto un attacco di panico. Come è possibile che all’alba del 2008 ancora la comunità scientifica non riesce a darsi delle regole ben definite riguardo il trattamento dei dati?! E’ ormai una pratica comune usare nei laboratori tecnologie di tipo High-Throughput, ovvero che generano molto facilmente grandi quantità di dati e che debbono essere analizzati con tecniche automatiche e statistiche.
In proteomica (ve ne parlo perchè ci bazzico ancora un pochetto), la necessità di definire protocolli e standard è legato ad uno strano sentire. Da una parte il bioinformatico è alla ricerca spasmodica di tool per trattare i dati e quindi relativi standard di elaborazione (cosa non facile, visto che dispositivi diversi spesso generano raw data con strutture proprietarie e distinte); d’altra parte la propensione ad elaborare i dati nel modo che risulta più comodo e veloce possibile, dipendentemente dalle necessità del laboratorio, e dalla ricerca che si sta conducendo. Chi non ha mai sentito la spinta di archiviare dei dati in un bel formato TXT invece che un più adatto XML? Lo ammetto, signor giudice, sono colpevole!

Il problema è che lo stesso bioinformatico, che entra per la prima volta in un ambiente di ricerca, non viene istruito a questa necessità di rigore. Gli si chiedono risultati “tutto e subito”. E lui a volte si inventa formati dati, strutture di database albitrarie.
Per fortuna, questa tendenza, con la maturità di un settore scientifico, cerca di essere sedata (un caso a parte sono gli inglesi; a loro piace essere bizzarri, tanto da guidare dall’altra parte della strada, misurare la birra ancora in galloni e le distanze in piedi. Loro gli standard non sanno cosa siano). :-)

Già nel 2003 il W3C aveva pubblicato il Web Ontology Language (OWL). OWL è un linguaggio per definire ontologie strutturate basate sul Web che permettano maggiore integrazione ed interoperabilità di dati tra applicazioni. I primi ad adottare questi standard comprendevano bioinformatici e comunità mediche.
Un gruppo di volenterosi – PSI-MS: Mass Spectrometry Standards Working Group- nel 2006 già si poneva dinanzi queste necessità .

Insomma non è una novità. Ma fa comunque sempre notizia!

Su CORDIS trovate un nuovo articolo interessante a riguardo, e un medesimo articolo correlato qui.
Sebbene sembri un aspetto marginale, è invece un argomento fondamentale, che dovrebbe far parte di una corretta formazione del bioinformatico.
Ancora vengono pubblicati tanti risultati difficilmente replicabili proprio a causa di questa costante disparità di trattamento dati.

A quanti si interessano di Proteomica, poi consiglio di leggere le loro linee guida.

Have Fun, e buon ritorno l lavoro a tutti!

29 luglio 2007 - 18:33

I 7 peccati capitali commessi dai bioinformatici.

Stavo leggendo questo post su nodalpoint, in cui si commentava un talk presentato all’ultimo Bioinformatic Open Source Conference (come mi piace questo nome) a Vienna, una settimana fa.

Si parla degli errori piu’ grandi commessi dalla comunita’ bioinformatica moderna, e onestamente, mi trovo d’accordo su molti punti.
Ecco le slides:

http://www.slideshare.net/dullhunk/the-seven-deadly-sins-of-bioinformatics/

Vediamo un po’, di primo acchito io aggiungerei:

  • mancanza di organizzazione.
  • mancanza di comunicazione (incapacita’ di organizzarsi in un gruppo, di dialogare con gli altri colleghi, di presentare delle buone documentazioni, di studiare il lavoro degli altri, di comunicare via Internet – pensate a quanto pochi sono i bioinfi che partecipano a ML o a forum o a blogs scientifici).
  • ignoranza su molte questioni importanti legate alla programmazione: molti bioinformatici per esempio ignorano cosa sia lo Unit Testing, ovvero non testano i loro script prima di utilizzarli.
  • incapacita’ di riutilizzare il codice e le idee di altri colleghi: per esempio, pochi usano BioPython o BioPerl, preferendo scrivere tutto da soli; questo e’ quanto di peggio si possa fare se si vuole programmare bene.
  • incapacita’ di sedersi correttamente davanti al computer: in tutti i laboratori di bioinfo che ho visto, non ho mai trovato nessuno che si sedesse con la postura corretta davanti al monitor, spesso gli schermi erano troppo in basso, addirittura chi lavorava 8 ore al giorno davanti ad un portatile.

E qui mi fermo, va’.
Cmq, io credo che molti di questi difetti siano dovuti ad una mancanza di istruzione: le specialistiche in bioinfo e tutti i corsi associati non coprono per forza di cose tutti gli aspetti che dovrebbero seguire, e molti laboratori sono disorganizzati, con i responsabili che non si tengono aggiornati e spesso provengono da campi che sono solo collaterali alla bioinformatica.

22 luglio 2007 - 13:08

In arrivo la beta di MyExperiment!

myExperiment é un progetto di cui si parla da un po’ di tempo, che si propone di mettere a disposizione della comunità scientifica uno strumento simile a quello che é mySpace.

Ovvero, un luogo in cui un ricercatore possa iscriversi e creare un proprio profilo, descrivere i propri interessi e il proprio curriculum, poter interagire con altri ricercatori impegnati nello stesso campo, e poter scambiare commenti e opinioni sui propri esperimenti.

L’idea é interessante e tra l’altro arriva dagli stessi creatori di taverna, un software di cui ho parlato qualche volta e che serve per descrivere una analisi bioinformatica tramite un workflow.

Finalmente dopo alcuni anni di preparazione, é stata annunciata una versione beta funzionante a partire dal prossimo 1 agosto, aperta a tutti coloro che vogliano fare da tester.
Ecco l’annuncio ufficiale:

Devo ammettere che nemmeno a me é molto chiaro  il modo in cui questo esperimento funzionerà. Per adesso, mi sono iscritto alla beta e aspetterò il 1 agosto per vedere come funzionerà.

Un in bocca al lupo agli sviluppatori di MyExperiment!! :)

12 luglio 2007 - 17:23

Dove e’ il podcast (audio) bioinformatico?

Il nuovo fantasma nella macchina di internet è ormai un file avi. Sì, è un’immagine video sfuocata, amatoriale, che mostra i contorni sbiaditi di una cantina ipertecnologica. La mitologia di ogni studio televisivo pirata: il video che entra ovunque, con un click su you tube, magari per 20 secondi, azzanna un concetto e si spegne (forse dimenticato).
Ma prima che la mecca divenisse un video blog, c’è stato il breve regno dei podcast audio. Con i podcast si erano perse le 3 dimensioni spaziali, per trasmettere puro concetto, e prendere possesso della dimensione temporale. Una voce spettrale che dal profondo network ci faceva sentire meno soli di fronte al monitor. Internet acquisiva una voce.
E’ durato poco, il proliferare dei podcast. Ma forse è meglio così.
Ora la fuffa si riversa in video e i podcast audio può finalmente diventare lo strumento utile che dovrebbe essere. Un comodo, sintetico, strumento di informazione senza fronzoli. Podcast tecnologici, educativi, scientifici trovano spesso la loro perfetta collocazione integrati con portali, e altre iniziative. E’ esemplare il nuovo portale della wiley attento alle novità di proteomica GoProteomics, che è fornito di podcast il cui scopo dichiarato e’:

Our podcast show features top articles published in PROTEOMICS, including interviews with Authors and Editors.

Personalmente trovo irrinunciabili gli archivi mp3 delle lezioni informatiche dell’oilproject, le puntate radiofoniche di Attivissimo, e alcune puntate del podcast di Nature.

Ma per la bioinformatica? Qualcosa in inglese; ma praticamente nulla in italiano. Eppure penso ci sarebbero tante cose da raccontare, che potrebbero uscire dai confini del semplice blog. Interviste con insegnanti, raccolta di lezioni, novità da approfondire con gli esperti, i nuovi tools, le tendenze.

Comunque non tutto è perduto. Volevo proporvi un intervento che fa parte della trasmissione Sedna, sul server di Ulisse (nella rete della scienza). E’ un interessante intervento di qualche tempo fa, che si lascia ascoltare piacevolmente e racconta la bioinformatica ai non addetti in modo chiaro. Secondo me potrebbe essere preso ad esempio per far partire un piccolo progetto podcast italiano di bioinformatica (PIB project?? :-) ) Qualcuno se la sente?

Tags: bioinformatica, formazione, video
10 luglio 2007 - 16:21

Biomail è morto (o quasi), lunga vita a Biomail

Cosa è Biomail? BioMail è un programma sviluppato in Perl che semplifica e automatizza la ricerca della letteratura scientifica. BioMail in sostanza effettua ricerche su PubMed, la piu’ grande banca dati pubblicamente disponibile per riviste biomediche, attraverso l’uso di parole chiave definibili dall’utente. I risultati vengono poi inviati tramite posta elettronica con una cadenza settimanale, bisettimanale o mensile, a seconda delle impostazioni selezionate.

Questo servizio, che mi ha accompagnato negli ultimi 2 anni, nel tentativo di tenermi aggiornato sullo stato dell’arte della proteomica, ci abbandona. Alla fine del 2007 verrà chiuso il servizio in quanto tutte le sue funzionalità sono ormai state integrate in Pubmed stesso!

E’ infatti ormai possibile crearsi un proprio account personale su NCBI, chiamato My NCBI (viva la fantasia!).

My NCBI permette di personalizzare i servizi web di NCBI. Con esso potrete salvare le vostre ricerche, visualizzare link a risorse web esterne, selezionare filtri in grado di raggruppare i risultati delle ricerche e settare (proprio come in Biomail) l’invio di email di allerta per nuovi contenuti. Il sistema è naturalmente stato ottimizzato rispetto quanto era permesso fare con Biomail. Essendo un tool interno, esso è in grado di sfruttare a pieno le potenzialità della ricerca e filtraggio avanzata che Pubmed mette a disposizione.

Questo però mi lascia una piccola dose di nostalgia per un progetto che va esaurendosi, ma che essendo molto ben fatto, mi ha aiutato spesso.

2 luglio 2007 - 16:09

Meglio un bioinformatico biologo o un biologo bioinformatico?

(as Gene Myers suggested be really good computationalist, and even he says that computer scientists should learn science, too. And of course statistics! We all need to know statistics.)

Una questione non nuova, e che spesso si ripropone in varie forme, è quella che mette ai due angoli del ring le diverse anime del bioinformatico. Ovvero, quale formazione sia più appropriata per un bioinformatico; quali conoscienze debbono essere prominenti per facilitarne il lavoro scientifico.

Basta un input, per far rimbalzare per tutta la blogsfera focalizzata sulla bioinformatica, una serie di commenti e prese di posizioni, IMHO poco meditate.

Un articolo proposto da BioInform , qualche tempo fa, da fuoco alle polveri. Per citare Lincoln Stein:

I hope to see bioinformatics becoming a tool like molecular biology that everybody uses, and that the software we’re developing now will become as easy and as standard to use as a pipettor. You don’t read for the guy who knows how to run pipettors when you need to pipette something.You reach for the pipettor yourself….

Non sono poche le persone, anche di un certo calibro, a pensarla così. Per chi volesse leggere qualche commento, posso consigliare di spendere cinque minuti intorno il blog BBGM . Vi riporto qui sotto un paio di esclamazioni per tutte che mi ha fatto sorridere per la loro ingenuità:

It’s always been my opinion that if we treat bioinformatics as just another tool in the hands of a scientist, the field will always benefit from it.

[...] I get asked often about the type of bioinformatics training that students should get and whether it should be a special course or not. […] And I answer that I think teaching bioinformatics in the absence of biology is like teaching Microsoft Word in the absence of writing! So I was happy, to discover, that I’m not the only one who thinks this way.

Mi piacerebbe fare un po’ di chiarezza a riguardo. Inanzitutto, vorrei dire che trovo la questione un falso problema. Personalmente reputo che non esistano solo i due estremi bianco e nero: il biologo puro, tutto wet, e l’informatico, tutto keyboard oriented, come stati quantici ottimali su cio porsi. Esistono tutta una serie di toni di grigio in cui si dovrebbe ragionevolmente collocare il bioinformatico, dipendentemente dalle necessità, dalle collaborazioni che intraprende, il settore in cui si specializza e la propria naturale inclinazione.

La bioinformatica ha una origine biologica! E’ nata per trattare dati biologici, naturalmente, ma da questo suo terreno di coltura si è evoluta in qualcosa di più. E’ una scienza multi-disciplinare. E per sua stessa natura suppone che il bioinformatico ottimale sia colui che si trova ugualmente a conforto con biologia, computazione e statistica. Non credo che ci sia qualcuno che, cosciente delle dimensioni titaniche dei tre settori appena citati, possa onestamente pensare di padroneggiarli tutti pienamente.

E’ certamente vero che una certa percentuale dei task bioinformatici che vengono richiesti, potrebbero essere sviluppati con poca fatica da biologi con una competenza base di programmazione (“mi serve calcolare quanti peptidi in nr iniziano con la lisina, per favore”). Ma è ugualmente vero che una ugualmente elevata percentuale delle attività di un bioinformatico comporta un’alta specializzazione. Vi è anche da considerare la crescita del numero dei servizi che sono presenti on-line e che spesso non sono di immediato utilizzo. Conoscerli e saperli integrare con le proprie necessità richiede tempo e impegno. Inoltre, il prodotto bioinformatico deve essere caratterizzato da una sempre più alta qualità in fase di rilascio nella comunità scientifica. Questo comporta esperienza nello sviluppo di software complessi, capacità di gestire e debaggare server bioinformatici. Come saremmo arrivati altrimenti alla versione 162 del genome browser? Viceversa, un bioinformatico con un’ampio backgroud di biologia potrà porsi dinanzi alle domande biologico-chimiche con maggior facilità, sapere quali dati andare ad approfondire, e potrà programmare in autonomia gli esperimenti.

Non credo sia corretto considerare la bioinformatica solo come uno scalpello da usare per scavare più a fondo. Come tutte le scienze complesse, essa necessita tutta una serie di figure di grande professionalità, ma in settori distinti, e che sappiano integrarsi e collaborare.

25 giugno 2007 - 10:49

GPU Computing

Choosing A Laptop For Web Design And Development

how-to-choose-laptop-for-web-design-and-development
Every craftsman needs a good set of tools. Every carpenter needs a good set of hammers and saws, every blacksmith needs a quality set of anvils and hammers, and every artisan leather crafter needs a sharp set of awls.

Web designers and web developers are no different. Every web designer and web developer needs a good laptop to call their own. Just to be clear, we use this definition of web design in this article. This is one of the best design strategy agency around.

Because we all have different needs, it’s important to shop around and make a careful and considered choice when choosing a laptop. The wrong laptop may hinder your web development efforts, so it’s important to choose the right one to fit your needs. If you’re a road warrior, for example, you’ll want to look at ultra-portable laptops or portable computers that prioritise battery life and weight, but if you’re a power user, you may want to examine desktop replacements that come with powerful components.

This article will provide tips and guidance to help you choose the right laptop for web design and web development. However, the right laptop is not enough. If you want to build a career, you need the right skills in web design, UX Design, Usability and related fields. You can get these skills by taking one of the many online design courses at the Interaction Design Foundation.

1. Choosing an Operating System

The first thing to do, before even looking at any model is to decide which operating system you would like to use on your new laptop.

The four most commonly used operating systems for web design and web development are Chrome OS, Windows, Mac OS X, and Linux. Each of them is available on a wide variety of portable computers with varying specifications, and each have their own distinct advantages and disadvantages.

Chrome OS (Aka Chromium OS)

Chrome OS is the simplest and most straightforward operating system available today. The operating system, created by Google, is very similar to the popular Chrome web browser, except transformed into an operating system.

Unlike the other three operating systems listed above, ChromeOS doesn’t have a file browser, and it doesn’t run applications. Instead, all web design development work has to be done through browser-run web apps.

For designers and developers who like to code directly in raw HTML and CSS, and don’t like using code editors or interactive development environments, Chrome OS is a fine, albeit limited, choice.

Linux

Linux is arguably the most difficult to use operating system available today. Many commands need to be entered directly into the command line, which can be rather daunting and unintuitive. Installing apps and making changes to the operating system can be difficult, too.

However, despite having a steep learning curve, Linux is arguably the most powerful and customisable operating system available today. It can be customised to match your specific needs exactly, allowing you to create your own perfect development environment.

Perhaps the most ‘user-friendly’ derivation of Linux is Ubuntu which is a free operating system for desktop and mobile devices.

Mac OS X

Apple’s Mac OS X is a powerful operating system. Aesthetically pleasing, easy to use, and immensely powerful, OS X is quickly becoming the operating system of choice for web designers and web developers with deep pockets.

Due to its Unix underpinnings, OS X is excellent for web development, with the built in Terminal providing easy access to tools like git, virtualisation software, and more.

Unfortunately, Mac OS X is only available on Apple units, which are often more expensive those that are manufactured by other companies.

Windows

Microsoft Windows is the most popular operating system in the world. According to recent statistics, approximately 90% of computers worldwide run the operating system.

There is still much debate about whether Windows 8 or Windows 7 is the best. In addition to this the most recent Windows release, has received a lot of criticism. Yet it is still a great, reliable, sturdy operating system. Windows 8.1 is also hoping to address many of the criticisms users have made about Windows 8.

The Windows web design and development community is excellent, with many programs and tools available for Windows that aren’t available on other operating systems. Windows is also available on a variety of laptops at different price points, making it the most flexible of the four operating systems listed above.

2. Setting a Budget

Before starting your laptop search, it’s important to set a budget to work with.

Web designers and web developers are rather lucky. Unlike graphics programmers or computer scientists, web design doesn’t tax computer hardware much. A fast CPU and a decent amount of RAM is all that’s needed for most web development work. Expensive graphics cards and ultra-performance CPUs aren’t that much required.

Most models fall into one of four price brackets:

  • Budget —$150-350
  • Mid-Range – $350-700
  • High-End – $700-1000
  • Performance – $1000

If you’re looking to keep your laptop for a few years, it might be worth splashing out on a more expensive model. However, don’t worry if you’re on a strict budget. There are a number of excellent units available in all of these price brackets.

3. Choosing Appropriate Specifications

Before starting your search for a laptop, make a list of the tasks you’ll be using it for. This list will help guide you when comparing different models with different specs.

If you’ll be diving into Adobe Photoshop or GIMP on a regular basis, it’s important to choose a laptop with a fast CPU able to quickly render effects and carry out computations. However, if you’ll be spending most of your time in Sublime Text, Firebug, and other development tools, a slower ULT Intel i3/i5 or AMD A8/A10 APU should be able to meet your needs.

If you’ll be moving around a lot, then it’ll be important to choose a laptop that is light and has great battery life. Laptops that use Intel’s ULT Haswell architecture are normally a great fit for people that are constantly on the go. They last up to 10 hours on a single charge, they’re light, and they’re able to deliver power when needed by using a ‘turbo boost’ mode capable of delivering up to 100% extra CPU power on demand.

If you’ll be spending most of your time using your laptop at a desk, you might be better off with a desktop replacement laptop. These portable computers normally have large 15.4”/17” screens and they’re normally fitted with powerful hardware inside. In general, they are quite heavy, however, and they normally have poor battery life.

It’s also important to get a laptop with a good quality trackpad and keyboard. At the moment, Apple is the gold standard when it comes to trackpads and keyboards, but other companies – mainly Lenovo, Samsung and Sony – are quickly catching up.

Finally, it’s important to choose a laptop with great service and a great warranty. Nothing is worse than being without your laptop for a few days if it suddenly breaks, so make sure to purchase a laptop with a reliable repair and replace program.

4. Factors To Look Out For

Budget

The budget laptop space belongs to Chrome OS and Linux exclusively. Samsung, HP, and Acer are the main players in this market, with a variety of laptop models available to buy at affordable prices. Make sure to try them before buying one, though, as trackpad / keyboard / screen quality can vary wildly.

Mid-Range

The midrange market is mainly dominated by Lenovo, Dell, Acer, Samsung, and HP. They offer excellent units that are perfect for any web design task. Plus, they are available at flexible price points.

Make sure to shop around when looking at midrange models. Bargains are available, providing you’re willing to look for them.

High-End

Sony, Samsung, Apple, and Lenovo rule the high end laptop space with a variety of different units available, each with their own distinct advantages and disadvantages. Of these manufacturers, Samsung, Sony, and Lenovo are arguably the best, with Lenovo’s iconic Thinkpad range being particularly excellent value for money.

Apple portable computers normally come at a steep premium, making them relatively poor value for money compared to those from other manufacturers. Some bargains are available in Apple’s online refurb store, though, with discounts as high as 20%.

Performance

The performance category belongs to Apple, Alienware, Sony, and a few others. These companies all produce incredible machines that boast best in class performance and features, but they often come at a great cost.

22 giugno 2007 - 12:16

Un nuovo motore di ricerca bioinformatico condiviso

Tra i mille e mille nuovi prodotti che Google sempre sperimenta, ve ne è uno che si allontana un po’ dall’approccio solito Googlesco di “customizzare i servizi per ogni singolo utente“. Ovvero Google di solito ti fornisce la possibilità di ricordare le TUE ricerche, ti fornisce le news sulla base delle TUE preferenze, ti permette di configurare il desktop sulla base dei TUOI feed preferiti, e così via.

Diversamente c’è un servizio che va un po’ più nella direzione del Web 2.0 e della condivisione delle risorse, ed è … la versione beta di Google Co-op. All’interno del lab c’è una proposta simpatica, ovvero il Google Custom search engine. Un servizio che permette di adattare alle proprie necessità, le potenzialità del motore di ricerca Google.

Il sistema funziona assegnando una sorta di priorità di ricerca a determinati siti e parole chiavi che vengono fornite dall’utente. L’idea non è nuovissima, tempo fa avevo già testato la stessa cosa su un’altra piattaforma, Rollyo, che potete trovare qui. Si potrebbe inoltre pensare che non fornisce nulla che un accorto uso delle opzioni di ricerca avanzata possa fare. Però c’è l’aspetto collaborativo che rende il progetto più interessante: infatti è possibile permettere ad altri utenti di modificare/aggiungere nuovi siti.

Spinto dalla curiosità mi è venuta l’idea di creare una prima versione beta di un BIOINFORMATICS SEARCH ENGINE, che punta specialmente su siti notizia e blog a carattere scientifico e bioinformatico (molecularlab in testa!). Lo potete provare , giocarci, aggiungerlo alla vostra home, e moficarlo a piacimento.

L’idea sarebbe quella di vedere come un sistema del genere possa evolversi, e diventare sempre più mirato, grazie alla collaborazione di più persone. Queste infatti fornirebbero le proprie preferenze in fatto di fonti informative, rendendo il motore di ricerca migliore.

Fatemi sapere!! (si potrebbe pensare di fare una selezione di ricerche-test, e vedere come cambiano i risultati riportati)

22 giugno 2007 - 12:14

Un nuovo arrivato

» di in: Attualità

Un saluto a tutta la comunità di MolecularLab. Sono dawe. Mi è stato chiesto di presentarmi, ora che faccio parte del gruppo di autori di Inside Bioinfo.

Brevemente: mi sono laureato in biotecnologie nell’ormai lontano 2002. L’anno successivo ho concluso un master in bioinformatica. Successivamente mi sono unito al gruppo di proteomica all’IFOM di Milano dove mi sono occupato di tante cose, dallo sviluppo di algoritmi al data mining. Ora lavoro sempre in IFOM e gestisco la piattaforma di bioinformatica su cui si sviluppa e si analizzano i dati.

Occupandomi di sistemi mi sto facendo le ossa nel campo della programmazione e, nonostante il mio progetto GNU SRS vada molto a rilento (anzi, è praticamente fermo!), sono molto attivo nell’apportare patch e migliorie a vari software bioinformatici.

Sono un Mac user entusiasta, per cui immagino che i miei post in questo blog riguarderanno più frequentemente la bioinformatica vista da Cupertino.

Bene, credo di aver detto tutto quello che serve in pochissime righe. Sono stato troppo sintetico? Accidenti, spero proprio di no…

ja ne

18 giugno 2007 - 17:39

blast su DB – una nuova proposta (progetti utili o disutili?)

Blast è molto probabilmente al momento l’algoritmo migliore per allineamento di sequenze. Come viene definito ufficialmente:

The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.

Ne ha già scritto Dalloliogm in un post molto intuitivo sul suo blog personale. Per chi non sapesse di cosa di stia parlando consiglio di leggerlo qui.

Blast è usato in un bazilione di applicazioni interessanti. Qui vi volevo sottoporre un nuovo progetto proposto da Felipe Albrecht sul suo blog. Si propone infatti di integrare Blast con un database tipo PostgreSQL .

Il progetto è descritto (sommariamente per ora) su sourceforge. In inglese, per fortuna (nonostante tutto, lo trovo più facile dello spagnolo :-) .

Senza voler polemizzare eccessivamente, mi chiedo se tali progetti possano apportare un effettivo beneficio alla comunità scientifica, almeno pari al sudore della fronte speso nel realizzarli. Lo stesso autore è ben cosciente del fatto che esso si sovrappone parzialmente con altri progetti similari che cercano di integrare ed estendere l’uso di un potentissimo tool come postgrSQL alla biologia computazionale e all’analisi di dati high throughput (Biopostgres). C’è inoltre da considerare un aspetto, secondo me importantissimo, ovvero che proprio l’assoluta semplicità/modularità di Blast permette di integrarlo velocemente in script perl (e/o python).

Aver installato su di un server locale Blast permette di accedervi attraverso script CGI, o per linea di comando. Estrarne l’output in formato testo e farne quindi mille usi diversi. Anche partir dai risultati generati per sondare altri database disponibili online. Dove sta quindi l’effettiva utilità di questo progetto? L’autore mette l’accento su un aspetto:

A [good] approach is to use good data bases schemas, like GUS , to store the sequences and their information, but a problem occur when a search by similarity is needed. The sequences must be dumped into a temporary file, this temporary file must be formatted to the blast format and finally, the search can be performed. After this process, the results must be saved into the data base. This process wastes time [and money].

Personalmente non mi convince molto. Racchiudere l’algoritmo di Blast in confini legandolo ad un database ne limiterebbe l’utilizzo (sebbene ammetto che permetterebbe un più immediato recupero di informazioni genomiche/proteomiche connesse, attraverso un accorto uso delle query). Al contempo però credo crescerebbero esponenzialmente le problematiche da affrontare in fase di sviluppo. Ovvero quali dati inserire all’interno di questo database, come tener conto di futuri sviluppi e di basi dati nuovi e interessanti?

Piccola provocazione per incentivare la conversazione. Cosa ne pensate?