File XML di Blast

Forum

Registrati Discussioni Recenti Preferiti Utenti Cerca Regolamento RSS Statistiche

Utilità

I libri
consigliati:

Strutture della vita. Teorie, batteri, protoctisti, funghi
Autori Vari

Genetica molecolare umana
Jack J. Pasternak

Fondamenti di biochimica
Charlotte W. Pratt, Donald Voet, Judith G. Voet

Altri Libri

Nome Utente:	Password:
Riconoscimi automaticamente

Tutti i Forum

MolecularLab

Bioinformatica

File XML di Blast

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Risorse di Bioinformatica:

Guide tools online

Blog InsideBioinfo

Siti di Bioinformatica

Protocolli

Ultime notizie

Aggiungi i tag

Quanto � utile/interessante questa discussione:

Autore

Discussione

Seffy
Nuovo Arrivato

8 Messaggi

Inserito il - 13 febbraio 2009 : 13:46:49

Salve a tutti!!
Sono nuova di questo forum, mi sono appena iscritta.
Apro un nuovo posto per sottoporvi il mio problema:
usando blast (nel mio caso specifico blastn ) � possibile ottenere l'output in diversi formati fra cui l'xml.
Il mio problema � che se uso questo formato non trovo fra i vari risultati la percentuale di omologia fra le sequenze mentre lo trovo se chiedo l'output in forma tabellare (-m=8).
Di contro in questo formato non ottengo un altro risultato per me importante che � lo score, mentre lo ritrovo nel file xml.
A me servirebbero entrambi i valori( score e percentuale di identit� )e mi sembra strano che un valore cos� importante sia omesso nell'xml.
Di sicuro sto sbagliando qualcosa...
Sapete come aiutarmi?
Vi ringrazio!!!

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 13 febbraio 2009 : 14:43:19

Come lo leggi l'XML? Usi qualche libreria particolare?
Cosa intendi esattamente per omologia di sequenze? Puoi postare un esempio, cosi' che sia piu' facile capire?
Generalmente conviene parsare sempre il formato xml di output, perche' quello tabulare non e' stabile, e' stato cambiato piu' volte e con poco avviso nel tempo, e scrivere una libreria che lo legga richiederebbe troppo mantenimento.

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

Seffy
Nuovo Arrivato

8 Messaggi

Inserito il - 13 febbraio 2009 : 15:20:38

Ciao dallolio_gm!
Innanzi tutto ti ringrazio per avermi risposto e ora rispondo alle tue domande.
Per leggere l'xml uso NCBIXML del pacchetto Bio di Python.
Per omologia di sequenze intendo quanto sono simili due sequenze. La percentuale di omologia alla quale mi riferisco � esattamente quella che ti restituisce UCSC quando provi a fare il blat.
A esempio se hai questa sequenza:
CAAAGGCAGGGTAGAAACTTGCAACTAAGGTTAAAATAATT
e provi a fare il blat su UCSC ( genoma topo ) ti restituisce i punti del genoma sui quali l'ha riconosciuta. E fra i vari parametri ti restituisce anche la percentuale di identita: IDENTITY.
Anche se faccio il blast in locale ottengo gli stessi risultati e ho questo valore, IDENTITY, solo nel formato tabellare ( -m=8 ) nel quale per� manca il valore dello SCORE.
Anche io sono del parere che il formato XML sia da preferire, ma per le analisi che sto facendo mi � necessario questa percentuale.
Ho anche pensato di scrivere io l'algoritmo che la calcoli, ho provato a cercare in rete ma non ho trovato nessuno che ne parlasse e dal sorgente di BLAST non sono riuscita a ricavarne nulla...... :(
Spero che fra di voi ci sia qualcuno che possa aiutarmi.
A presto e ancora grazie!!!

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 13 febbraio 2009 : 15:59:12

Nei file XML di esempio utilizzati per il testing di biopython, vi e' un campo chiamato 'Hsp_Identity' all'interno di un campo 'Hsp':
- http://code.open-bio.org/cgi/viewcvs.cgi/biopython/Tests/Blast/xbt001.xml?rev=1.1&cvsroot=biopython&content-type=text/vnd.viewcvs-markup

onestamente adesso non mi viene in mente cosa possa significare 'Hsp', pero' sembra contenere tutte le informazioni relative ai dettagli dell'allineamento.
Puo' essere cosi'? Anche i tuoi file contengono questo campo?

In biopython, per ogni match viene creato un oggetto 'Alignment', che contiene una proprieta' (una lista) chiamato 'hsps'.
Dovresti riuscire ad accedere alla percentuale di identita' come Alignment.hsps[0].identities.

Purtroppo non ho mai usato il codice di biopython per leggere gli allineamenti, per cui non ti so aiutare molto. Se puoi postare da qualche parte una porzione del codice che hai, forse riesco a rendermi piu' utile.

p.s. se hai qualche idea o proposta per migliorare biopython, di' pure, che ultimamente sto inviando alcune cose al loro progetto.

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

Seffy
Nuovo Arrivato

8 Messaggi

Inserito il - 14 febbraio 2009 : 16:22:11

Ciao dallolio_gm!!
Scusa per il ritardo della mia risposta, ieri ho avuto un p� di cose da fare a lavoro e non ho avuto tempo per rispondere.
Ti ringrazio per la gentilezza e adesso rispondo al tuo post :)
Per quanto riguarda biopython puoi controllare qui http://biopython.org/DIST/docs/tutorial/Tutorial.html
� il tutorial e trovi praticamente tutte le informazioni necessarie per eseguire blast in locale e poi fare il parse dell'out ( sia in xml che in altri formati ). Il codice xml che hai mandato tu � esattamente uguale a quello che ottengo io.
La propriet� alla quale ti riferisci( hsp.identities ) � il numero esatto di nucleotidi ( per ogni allineamento )che sono stati "matchati". In sostanza � dato da (query_end - query_start) - mismatch e si accede a questo valore direttamente come hsp.identities o alignment.hsp.identities.
HSP sta per High Score Pairwise. Sono gli allineamenti che hanno uno score maggiore di una determinata soglia, che ovviamente � imposta da blast.
Purtroppo non esiste nessun valore, fra quelli della lista degli hsp, che rappresenti la percentuale di omologia. Li ho provati tutti ma purtroppo non ne cavo un ragno dal buco. Se controlli nel tutorial alla voce Running blast locally troverai uno schema UML che rappresenta la classe che si utilizza per il parse e tutti i possibili oggetti. Ma come potrai vedere non c'� niente che suggerisca la percentuale che voglio io.
Ti sto rispondendo da casa e qui ora non ho codice, luned� provo a postarti qualche riga.
Ti ringrazio tanto per l'aiuto!!

Seffy
Nuovo Arrivato

8 Messaggi

Inserito il - 17 febbraio 2009 : 10:15:13

Ho risolto il problema!
Non so se potr� essere utile a qualcuno comunque lo scrivo lo stesso :)

La percentuale di identit� che restituisce il blast � data dalla seguente formula:
( alignment_length - mismatches - gaps ) / alignment_length.
Utilizzando Biopython il numero dei mismatches � dato da:
mismatches = len(hsp.match) - hsp.identities
mentre il numero dei gap � dato da : hsp.gaps. C'� da fare una precisazione, hsp.gaps � una tupla. Quando sono presenti gap il suo tipo � per� intero.
Posto il pezzo di codice che esegue il calcolo:


for blast_record in blast_records:
    for alignment in blast_record.alignments:
        for hsp in alignment.hsps:
            mismatches = len(hsp.match) - hsp.identities
            if type(hsp.gaps)==int:
                    print "percent identity with gaps= ",  float(hsp.align_length - mismatches - hsp.gaps) / hsp.align_length
                else:
                    print "percent identity without gaps= ", float(hsp.align_length - mismatches) / hsp.align_length

Grazie per il supporto!!!

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 17 febbraio 2009 : 10:48:49

Citazione:
Messaggio inserito da Seffy

Ho risolto il problema!
Non so se potr� essere utile a qualcuno comunque lo scrivo lo stesso :)

La percentuale di identit� che restituisce il blast � data dalla seguente formula:
( alignment_length - mismatches - gaps ) / alignment_length.
Utilizzando Biopython il numero dei mismatches � dato da:
mismatches = len(hsp.match) - hsp.identities
mentre il numero dei gap � dato da : hsp.gaps. C'� da fare una precisazione, hsp.gaps � una tupla. Quando sono presenti gap il suo tipo � per� intero.
Posto il pezzo di codice che esegue il calcolo:

for blast_record in blast_records: for alignment in blast_record.alignments: for hsp in alignment.hsps: mismatches = len(hsp.match) - hsp.identities if isinstance(hsp.gaps, int): print "percent identity with gaps= ", \ float(hsp.align_length - mismatches - hsp.gaps) / hsp.align_length else: print "percent identity without gaps= ", \ float(hsp.align_length - mismatches) / hsp.align_length

Grazie per il supporto!!!

Penso che sia piu' standard utilizzare isinstance(var, type) piuttosto che type(var) == type.

Credi che questo fatto di hsp.gaps che a volte risulta essere un int invece che una tupla possa essere un errore?

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

Seffy
Nuovo Arrivato

8 Messaggi

Inserito il - 20 febbraio 2009 : 11:13:15

Ciao!!
Scusa per il ritardo ma mi son presa un'influenza micidiale che mi ha costretto a letto per un p�....
Credo che tu abbia ragione e user� il tuo suggerimento per modificare il codice!!
Grazie mille!!
per quanto riguarda hsp.gaps non credo che sia un errore...per� non saprei proprio dirti perch� hanno fatto questa scelta!!
Comunque secondo me, se devi mandare suggerimenti chiedi di aggiungere questo dato perch� nelle mie varie ricerche ho visto che su OSdir (.. nn so se ti � mai capitato di leggere post di questa mailing list...) in tanti chiedevano come si calcolasse. E tutti rispondevano che era dato dal rapporto fra il match e la lunghezza della query, che � corretto perch� ti restituisce la percentuale di basi che sei riuscito ad allineare, ma non � il dato che restituisce blast o blat

Ti ringrazio ancora per il supporto, e se ti va tienimi aggiornata sulle richieste che mandi al gruppo di biopython!! mi piacerebbe essere di aiuto! anche se nel mio piccolo..... :)
Grazie ancora!

Discussione

Quanto � utile/interessante questa discussione:

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Vai a:

MolecularLab.it

Android e Mobile



Scarica le app! Ora anche sul tuo smartphone!

Ciao Login - Iscriviti



Visitatori: 116

Novità
Quiz scientifici: metti alla prova le tue conoscenze. E se ti senti imbattibile, prova subito i Quiz.