Linux: Editor Joe, Blastall e FormatDB

Un editor di testo: joe

Nell´esercitazione precedente abbiamo visto come creare una directory, copiare un file o spostarlo da una directory all´altra. Vediamo ara come leggere e modificare un file di testo.

Lancia Putty e collegati al server
Spostati nella cartella col tuo nome e nella cartella Prova che hai creato nell´esercitazione precedente. Lanciando il comando ls dovresti vedere il file “sequenza.txt”.
Per vedere il contenuto del file puoi usare il comando linux cat:
cat sequenza.txt
Tutto il contenuto del file viene stampato a video: questo puó essere molto scomodo se il file é molto grosso (provare per credere...)
In alternativa puoi usare il comando more:
more sequenza.txt
In questo caso il file viene mostrato una videata per volta (per visualizzare la videata successiva premi la barra spaziatrice).
Con cat o more é possibile visualizzare il contenuto di un file, ma non é possibile modificarlo. Per modificare il contenuto é necessario un editor di testo, ad esempio “joe”, che non é un comando di linux, ma un programma (quindi potrebbe non essere presente su tutti i server a cui potreste connettervi in futuro, ma deve essere stato precedentemente installato dall´amministratore del sistema).
Per lanciare joe digita
joe sequenza.txt
a questo punto vedrai il contenuto del file e potrai spostarti tra righe e colonne. Puoi anche modificare il contenuto o aggiungere nuove righe. Al posto del nome del file da leggere puoi inserire il un nome qualsiasi e joe creerá un nuovo file di testo con il nome che hai specificato.
Tenendo premuto il tasto “ctrl” digita in successione “k” e “h”, compare un elenco dei comandi che puoi usare con joe. Eccoti un elenco dei principali comandi che ti capiterá sicuramente di utilizzare (la combinazione di tasti va sempre digitata tenendo premuto il tasto “ctrl”:

kx	Salva il file e chiude il programma
kd	Salva senza chiudere il programma
c	Chiude il programma senza salvare le modifiche
y	Cancella tutta la riga
kv	Passa all´ultima riga
ku	Torna alla prima riga

Blastall: BLAST da linea di comando

Nelle prime esercitazioni abbiamo visto come esegure delle ricerche di similaritá contro una banca dati usando BLAST o FASTA. Vediamo ora come fare lo stesso tipo di analisi cercando contemporaneamente piú sequenze.

Nella cartella ~/Test c´é un file che si chiama sequenze.txt. Copialo nella tua area di lavoro e guarda di cosa si tratta.
Lancia il comando blastall , viene visualizzata una videata che riporta i parametri che possono essere forniti al programma.
I principali comandi sono quelli che riguardano
il file con la/le sequenze da cercare (-i),
la banca dati contro cui fare la ricerca (-d)
e il programma da utilizzare a seconda che le sequenze siano proteiche o nucleotidiche (-p),
il nome del file in cui salvare i risultati.
Per questa esercitazione useremo RefSeq come banca dati: vi basti sapere che sul server che state utilizzando questa banca dati si chiama “$Hs_ref”.
Lanciamo quindi il comando:
blastall –i sequenze.txt –d $Hs_ref –p blastn –o risultato.txt
Aprite il file “risultato.txt” e confrontatelo con il risultato di un blast ottenuto su web al sito www.ncbi.nlm.gov. Tutto sommato non c´é molta differenza, anzi é decisamente meno accattivante.....
Proviamo adesso ad aggiungere qualche parametro: se lanciate nuovamente blastall e visualizzate l´elenco dei parametri disponibili troverete anche i parametri –e e –m:
-e consente di filtrare solo i risultati che hanno un E value inferiore a quello specificato;
-m cambia la formattazione del risultato
Lanciate ora:
blastall –i sequenze.txt –d $Hs_ref –p blastn –o risultato_2.txt –m 8 –e 10e-5
Analizzate il risultato.

Formatdb: indicizzare una banca dati

Il vantaggio principale che deriva dall´utilizzo del programma blastall é senza dubbio la possibilitá di creare una propria banca dati da utilizzare per fare le analisi.

Copiate nella vostra cartella il file “UniVec” che si trova nella cartella ~/Test.
Se guardate il contenuto vi accorgerete che si tratta di un file che contiene parecchie sequenze in formato fasta. Lo scopo di questa esercitazione é quello di confrontare le sequenze contenute nel file “sequenze.txt” con quelle contenute nel file UniVec.
Per fare questo confronto é necessario convertie il file UniVec in un formato interpretabile dal programma blastall. Per fare ció si utilizza il programma formatdb:
formatdb –i UniVec –p F –n UniVec.db
il parametro –i indica il nome del file da indicizzare,
-n il nome da assegnare al file indicizzato,
-p il tipo di sequenze (il valore F indica che si tratta di sequenze nucleotidiche).
Vegngono creati tre files: UniVec.db.nhr, UniVec.db.nin, UniVec.db.nsq. Potete tranquillamente ignorare il significato dei diversi files, ricordate solo che il “nome” della banca dati che avete generato é quello che avete assegnato col parametro –n.
Se volete fare il confronto tra il file sequenze.txt e la banca dati che avete appena creato potete usare nuovamente blastall:
blastall –i sequenze.txt –p blastn –n UniVec.db –o risultato_3.txt