Quanto è utile/interessante questa discussione:
Autore |
Discussione |
|
sosatres
Nuovo Arrivato
4 Messaggi |
Inserito il - 03 marzo 2008 : 17:13:31
|
Ciao a tutti, vi scrivo perchè ho bisogno di aiuto. Sto iniziando a cercare di usare ClustalG la versione di ClustalW per le scienze sociali, praticamente una versione light del programma. La mia difficoltà iniziale è che non riesco a raccapezzarmi con il formato dei file accettati da Clustal in quanto sono specifici del vs dominio di applicazione, mentre io ho formati standard: txt, csv eccetera. Il mio problema è come posso creare dai miei file di testo un formato che "piaccia" a clustal, in soldoni si possono convertire file di testo in formati tipo FASTA od altri. Grazie in anticipo
Fabrizio
|
|
|
kORdA
Utente Attivo
  

Prov.: Milano
Città: Monza
1303 Messaggi |
Inserito il - 03 marzo 2008 : 18:23:07
|
woah!!! Questa è un'applicazione di Clustal che non ho mai sentito prima, molto interessante!
A quanto ho capito ClustalG è la versione linguistica di ClustalW: in pratica hanno sostituito alle 4 o 20 lettere dei codici biologici le 26 lettere dell'alfabeto. A che serve? A trovare nessi etimologici tra le parole? sono molto incuriosito...
ah gia'... il formato FASTA...
I file FASTA sono gia' dei file di testo, quello da tenere a bada è solo la formattazione. In pratica ogni sequenza di caratteri su cui vuoi condurre un allineamento multiplo viene preceduta da una intestazione contrassegnata dal carattere ">". Un file fasta puo' essere benissimo il seguente:
>parola_1 korda
>parola_2 helloworld
>parola_3 GIVEQCCTSICSLYQLENYCN
Non saprei dirti pero' se ClustalG sia in grado di distinguere maiuscole da minuscole e se gestisca pure caratteri speciali come spazi, apostrofi o accenti |
http://www.linkedin.com/in/dariocorrada |
 |
|
dallolio_gm
Moderatore
  

Prov.: Bo!
Città: Barcelona/Bologna
2445 Messaggi |
Inserito il - 03 marzo 2008 : 21:52:21
|
Strano che si usi poi sempre clustalw, che andando a guardare l'algoritmo non é proprio il migliore dei programmi di allineamento multiplo (t-coffee, muscle), ed é stato scritto ormai parecchi anni fa.
Cmq convertire un testo in formato fasta non é complicato, come ha già detto kORdA. Se ci dai un esempio di quello che hai in mano ti possiamo aiutare meglio. |
Il mio blog di bioinformatics (inglese): BioinfoBlog Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-) |
 |
|
sosatres
Nuovo Arrivato
4 Messaggi |
Inserito il - 04 marzo 2008 : 09:53:04
|
Ciao a tutti, prima di tutto grazie della veloce risposta. Il mio problema è che sono totalmente ignorante di clustal. Vi spiego, io userei clustal per questo motivo. Sto raccogliendo dati cartografici relativi a dei percorsi relativi ad una zona geografica limitata. Ho diviso la zona in macrozone a cui ho assegnato una lettera dell'alfabeto. Usando il GPS mi muovo, io ed altri, attraverso la zona e usando le rilevazioni riesco a definire un percorso che diventa una stringa ADBFDFDJF. Un altro non necessariamente fa lo stesso percorso all'interno della zona, e quindi per esempio ottengo ADSDDSDF. La lunghezza della stringa è un esempio, non so ancora quanto sarà lunga, ma non tantissimo. Supponendo di avere 200 percorsi, quindi 200 stringhe vorrei usare clustaG per trovare percorsi affini attraverso alberi ed altre tecniche di riallineamento. Qualcuno sa darmi qualche dritta per usare clustal in modo efficiente, od almeno usarlo,e se esistono script che permettono di creare il file fasta non a mano, partendo da un txt o da un csv che ha queste stringhe non in questo formato. Grazie ancora Fabrizio
|
 |
|
kORdA
Utente Attivo
  

Prov.: Milano
Città: Monza
1303 Messaggi |
Inserito il - 04 marzo 2008 : 10:30:19
|
Paradossalmente si potrebbe usare ClustalW e creare alberi filogenetici (non interpretabili in senso evolutivo ovvio).
Bisogna pero' tenere in considerazione alcune regole:
- L'introduzione di gaps è permessa solo se i limiti del gap sono compatibili (mi spiego, se le zone identificate dalle lettere A B e C sono tali che A è adiacente a B ma non a C, allora sono permessi gaps solo in porzioni di sequenza contenenti "AB" e non "AC" - a meno che qualcuno di voi non abbia il dono dell'ubiquita').
- Le matrici di sostituzione dovrebbero essere riviste nell'ottica del rispetto di questo "criterio di adiacenza"
- Il "criterio di adiacenza" presenta eccezioni se esitstono ostacoli invalicabili (tipo A è separato da B da un fiume)
Questo è solo un esempio (e tu ne saprai sicuramente molto piu' di me), ma occorre focalizzare bene quali criteri vengono scelti per preferire un percorso rispetto ad un altro.
Scusami, non ti offendere, ma mi vengono in mente i topolini messi in un labirinto che devono trovare il percorso per raggiungere il formaggio...
Uno script che inserisca i tag di intestazione per ogni sequenza si potrebbe fare facilmente in Perl, credo, ma qui chiedo l'intervento di chi è piu' esperto di me. |
http://www.linkedin.com/in/dariocorrada |
 |
|
sosatres
Nuovo Arrivato
4 Messaggi |
Inserito il - 04 marzo 2008 : 10:46:01
|
Ciao, Non mi offendo per i topolini. Grazie della spiegazione, anche se ti ricordo che sono una capra, quindi ti devo chiedere chiarimenti e chiarire io e mi devi scusare per le domande stupide, che saranno tutte o quasi. Ogni persona fa un percorso, immagino che se uno passasse in tutte le zone ipotizzando per semplicità 4 ABCD dovrebbe fare una combinazione delle 4 zone possibili. E' possibile avere da ---- fermo a ABCD come gap da confrontare fra le varie stringhe e tutte le possibili combinazioni, considerando più zone? Io mi devo limitare a descrivere il comportamento delle persone in forma aggregata, non esiste un percorso migliore o peggiore, quello che voglio capire quanti fanno quel percorso e quanti un altro raggruppandoli forse creando gli alberi filogenetici che ho appena letto su wikipedia, sai sono un matematico quindi per me è tutto arabo grazie ancora della tua pazienza
Ciao Fabrizio
|
 |
|
kORdA
Utente Attivo
  

Prov.: Milano
Città: Monza
1303 Messaggi |
Inserito il - 04 marzo 2008 : 11:58:49
|
beh... se sei un matematico allora qui la capra sono io
comunque, da biologo, io ti consiglierei di leggerti un qualsiasi libro di bioinformatica nei capitoli specifici per quanto riguarda gli algoritmi di allineamento.
Io ho trovato molto semplice e accessibile a chiunque il Lesk, "Introduzione alla Bioinformatica":
http://www.internetbookshop.it/code/9788838661907/lesk-arthur-m/introduzione-alla-bioinformatica.html
Nel tuo campo troverei ancora molto piu' aseguato, di quanto non sia gia' in biologia, l'applicazione di profili e di Hidden Markov Models ai metodi di allineamento.
Pensando sempre in modo analogo credo sia opportuno procedere in questo modo, anche se credo sia un po' macchinoso:
A - costruire una banca dati di percorsi possibili
B - prendere un campione di sequenze/percorsi e screenare il database con metodi di allineamento singolo
C - individuare i gruppi di sequenze che allineano significativamente in modo non casuale (quindi che abbiano uno Z-score o E-value adeguato)
D - fare allineamenti multipli per ogni gruppo
Io pero' ti posso dare solo questa traccia, perche' non sono ne' un informatico ne' uno statistico, quindi per le problematiche tecniche non sono il piu' adatto |
http://www.linkedin.com/in/dariocorrada |
 |
|
sosatres
Nuovo Arrivato
4 Messaggi |
Inserito il - 04 marzo 2008 : 13:57:05
|
Ti ringrazio dei suggerimenti che mi hai dato, mi do' da fare e vedo come va. Grazie ancora 
Ciao Fabrizio |
 |
|
|
Discussione |
|
|
|
Quanto è utile/interessante questa discussione:
MolecularLab.it |
© 2003-24 MolecularLab.it |
 |
|
|