Forum

Nome Utente:
Password:
Riconoscimi automaticamente
 Tutti i Forum
 MolecularLab
 Bioinformatica
 ClustalG [era: Aiuto per un newbie]
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
I seguenti utenti stanno leggendo questo Forum Qui c'è:

Aggiungi Tag Aggiungi i tag

Quanto è utile/interessante questa discussione:

Autore Discussione  

sosatres
Nuovo Arrivato



4 Messaggi

Inserito il - 03 marzo 2008 : 17:13:31  Mostra Profilo  Visita l'Homepage di sosatres Invia a sosatres un Messaggio Privato  Rispondi Quotando
Ciao a tutti,
vi scrivo perchè ho bisogno di aiuto. Sto iniziando a cercare di usare ClustalG la versione di ClustalW per le scienze sociali, praticamente una versione light del programma. La mia difficoltà iniziale è che non riesco a raccapezzarmi con il formato dei file accettati da Clustal in quanto sono specifici del vs dominio di applicazione, mentre io ho formati standard: txt, csv eccetera. Il mio problema è come posso creare dai miei file di testo un formato che "piaccia" a clustal, in soldoni si possono convertire file di testo in formati tipo FASTA od altri.
Grazie in anticipo

Fabrizio

kORdA
Utente Attivo

newkORdA

Prov.: Milano
Città: Monza


1303 Messaggi

Inserito il - 03 marzo 2008 : 18:23:07  Mostra Profilo  Visita l'Homepage di kORdA  Clicca per vedere l'indirizzo MSN di kORdA Invia a kORdA un Messaggio Privato  Rispondi Quotando
woah!!! Questa è un'applicazione di Clustal che non ho mai sentito prima, molto interessante!

A quanto ho capito ClustalG è la versione linguistica di ClustalW: in pratica hanno sostituito alle 4 o 20 lettere dei codici biologici le 26 lettere dell'alfabeto. A che serve? A trovare nessi etimologici tra le parole? sono molto incuriosito...

ah gia'... il formato FASTA...

I file FASTA sono gia' dei file di testo, quello da tenere a bada è solo la formattazione. In pratica ogni sequenza di caratteri su cui vuoi condurre un allineamento multiplo viene preceduta da una intestazione contrassegnata dal carattere ">". Un file fasta puo' essere benissimo il seguente:

>parola_1
korda

>parola_2
helloworld

>parola_3
GIVEQCCTSICSLYQLENYCN


Non saprei dirti pero' se ClustalG sia in grado di distinguere maiuscole da minuscole e se gestisca pure caratteri speciali come spazi, apostrofi o accenti

http://www.linkedin.com/in/dariocorrada
Torna all'inizio della Pagina

dallolio_gm
Moderatore


Prov.: Bo!
Città: Barcelona/Bologna


2445 Messaggi

Inserito il - 03 marzo 2008 : 21:52:21  Mostra Profilo  Visita l'Homepage di dallolio_gm  Clicca per vedere l'indirizzo MSN di dallolio_gm Invia a dallolio_gm un Messaggio Privato  Rispondi Quotando
Strano che si usi poi sempre clustalw, che andando a guardare l'algoritmo non é proprio il migliore dei programmi di allineamento multiplo (t-coffee, muscle), ed é stato scritto ormai parecchi anni fa.

Cmq convertire un testo in formato fasta non é complicato, come ha già detto kORdA.
Se ci dai un esempio di quello che hai in mano ti possiamo aiutare meglio.

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)
Torna all'inizio della Pagina

sosatres
Nuovo Arrivato



4 Messaggi

Inserito il - 04 marzo 2008 : 09:53:04  Mostra Profilo  Visita l'Homepage di sosatres Invia a sosatres un Messaggio Privato  Rispondi Quotando
Ciao a tutti,
prima di tutto grazie della veloce risposta. Il mio problema è che sono totalmente ignorante di clustal. Vi spiego, io userei clustal per questo motivo. Sto raccogliendo dati cartografici relativi a dei percorsi relativi ad una zona geografica limitata. Ho diviso la zona in macrozone a cui ho assegnato una lettera dell'alfabeto. Usando il GPS mi muovo, io ed altri, attraverso la zona e usando le rilevazioni riesco a definire un percorso che diventa una stringa ADBFDFDJF.
Un altro non necessariamente fa lo stesso percorso all'interno della zona, e quindi per esempio ottengo ADSDDSDF. La lunghezza della stringa è un esempio, non so ancora quanto sarà lunga, ma non tantissimo.
Supponendo di avere 200 percorsi, quindi 200 stringhe vorrei usare clustaG per trovare percorsi affini attraverso alberi ed altre tecniche di riallineamento. Qualcuno sa darmi qualche dritta per usare clustal in modo efficiente, od almeno usarlo,e se esistono script che permettono di creare il file fasta non a mano, partendo da un txt o da un csv che ha queste stringhe non in questo formato.
Grazie ancora
Fabrizio
Torna all'inizio della Pagina

kORdA
Utente Attivo

newkORdA

Prov.: Milano
Città: Monza


1303 Messaggi

Inserito il - 04 marzo 2008 : 10:30:19  Mostra Profilo  Visita l'Homepage di kORdA  Clicca per vedere l'indirizzo MSN di kORdA Invia a kORdA un Messaggio Privato  Rispondi Quotando
Paradossalmente si potrebbe usare ClustalW e creare alberi filogenetici (non interpretabili in senso evolutivo ovvio).

Bisogna pero' tenere in considerazione alcune regole:

- L'introduzione di gaps è permessa solo se i limiti del gap sono compatibili (mi spiego, se le zone identificate dalle lettere A B e C sono tali che A è adiacente a B ma non a C, allora sono permessi gaps solo in porzioni di sequenza contenenti "AB" e non "AC" - a meno che qualcuno di voi non abbia il dono dell'ubiquita').

- Le matrici di sostituzione dovrebbero essere riviste nell'ottica del rispetto di questo "criterio di adiacenza"

- Il "criterio di adiacenza" presenta eccezioni se esitstono ostacoli invalicabili (tipo A è separato da B da un fiume)

Questo è solo un esempio (e tu ne saprai sicuramente molto piu' di me), ma occorre focalizzare bene quali criteri vengono scelti per preferire un percorso rispetto ad un altro.

Scusami, non ti offendere, ma mi vengono in mente i topolini messi in un labirinto che devono trovare il percorso per raggiungere il formaggio...

Uno script che inserisca i tag di intestazione per ogni sequenza si potrebbe fare facilmente in Perl, credo, ma qui chiedo l'intervento di chi è piu' esperto di me.

http://www.linkedin.com/in/dariocorrada
Torna all'inizio della Pagina

sosatres
Nuovo Arrivato



4 Messaggi

Inserito il - 04 marzo 2008 : 10:46:01  Mostra Profilo  Visita l'Homepage di sosatres Invia a sosatres un Messaggio Privato  Rispondi Quotando
Ciao,
Non mi offendo per i topolini. Grazie della spiegazione, anche se ti ricordo che sono una capra, quindi ti devo chiedere chiarimenti e chiarire io e mi devi scusare per le domande stupide, che saranno tutte o quasi.
Ogni persona fa un percorso, immagino che se uno passasse in tutte le zone ipotizzando per semplicità 4 ABCD dovrebbe fare una combinazione delle 4 zone possibili. E' possibile avere da ---- fermo a ABCD come gap da confrontare fra le varie stringhe e tutte le possibili combinazioni, considerando più zone?
Io mi devo limitare a descrivere il comportamento delle persone in forma aggregata, non esiste un percorso migliore o peggiore, quello che voglio capire quanti fanno quel percorso e quanti un altro raggruppandoli forse creando gli alberi filogenetici che ho appena letto su wikipedia, sai sono un matematico quindi per me è tutto arabo
grazie ancora della tua pazienza

Ciao
Fabrizio
Torna all'inizio della Pagina

kORdA
Utente Attivo

newkORdA

Prov.: Milano
Città: Monza


1303 Messaggi

Inserito il - 04 marzo 2008 : 11:58:49  Mostra Profilo  Visita l'Homepage di kORdA  Clicca per vedere l'indirizzo MSN di kORdA Invia a kORdA un Messaggio Privato  Rispondi Quotando
beh... se sei un matematico allora qui la capra sono io

comunque, da biologo, io ti consiglierei di leggerti un qualsiasi libro di bioinformatica nei capitoli specifici per quanto riguarda gli algoritmi di allineamento.

Io ho trovato molto semplice e accessibile a chiunque il Lesk, "Introduzione alla Bioinformatica":

http://www.internetbookshop.it/code/9788838661907/lesk-arthur-m/introduzione-alla-bioinformatica.html

Nel tuo campo troverei ancora molto piu' aseguato, di quanto non sia gia' in biologia, l'applicazione di profili e di Hidden Markov Models ai metodi di allineamento.

Pensando sempre in modo analogo credo sia opportuno procedere in questo modo, anche se credo sia un po' macchinoso:

A - costruire una banca dati di percorsi possibili

B - prendere un campione di sequenze/percorsi e screenare il database con metodi di allineamento singolo

C - individuare i gruppi di sequenze che allineano significativamente in modo non casuale (quindi che abbiano uno Z-score o E-value adeguato)

D - fare allineamenti multipli per ogni gruppo

Io pero' ti posso dare solo questa traccia, perche' non sono ne' un informatico ne' uno statistico, quindi per le problematiche tecniche non sono il piu' adatto

http://www.linkedin.com/in/dariocorrada
Torna all'inizio della Pagina

sosatres
Nuovo Arrivato



4 Messaggi

Inserito il - 04 marzo 2008 : 13:57:05  Mostra Profilo  Visita l'Homepage di sosatres Invia a sosatres un Messaggio Privato  Rispondi Quotando
Ti ringrazio dei suggerimenti che mi hai dato, mi do' da fare e vedo come va.
Grazie ancora

Ciao
Fabrizio
Torna all'inizio della Pagina
  Discussione  

Quanto è utile/interessante questa discussione:

 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
Vai a:
MolecularLab.it © 2003-24 MolecularLab.it Torna all'inizio della Pagina