variante eteroschedastica del test di wilcoxon?

Forum

Registrati Discussioni Recenti Preferiti Utenti Cerca Regolamento RSS Statistiche

Utilità

I libri
consigliati:

Virologia
Renato Dulbecco, Harold S. Ginsberg

Il patrimonio mondiale dell'Unesco. I santuari della natura
Marco Cattaneo, Jasmina Trifoni

La sesta estinzione. La vita sulla Terra e il futuro del genere umano
Richard Leakey, Roger Lewin

Altri Libri

Nome Utente:	Password:
Riconoscimi automaticamente

Tutti i Forum

MolecularLab

Bioinformatica

variante eteroschedastica del test di wilcoxon?

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Risorse di Bioinformatica:

Guide tools online

Blog InsideBioinfo

Siti di Bioinformatica

Protocolli

Ultime notizie

Aggiungi i tag

Quanto � utile/interessante questa discussione:

Autore

Discussione

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 06 ottobre 2010 : 13:08:39

Ciao a tutti,
ho due distribuzioni NON normali e NON omoschedastiche e dovrei confrontarle. Non posso usare il test di wilcoxon (Mann-Whitney) perch� non omoschedastico e non posso usare T test con formula di Dixon-Massey perch� non normali.
Mi chiedevo se il test di Friedman � applicabile anche nel caso di soli due gruppi.
Grazie e a presto
Stefano

chick80
Moderatore

Citt�: Edinburgh

11491 Messaggi

Inserito il - 06 ottobre 2010 : 18:20:12

Non so darti un'alternativa ma conta che il t-test � comunque molto robusto e insensibile anche a moderate deviazioni dalla normalit�.

Vagamente correlato:
http://stats.stackexchange.com/q/2492/582

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)

TMax
Utente Junior

Prov.: BG
Citt�: Capriate

270 Messaggi

Inserito il - 07 ottobre 2010 : 10:29:16

ci dici qualcosa di pi� dei dati???
quanti sono? cosa sono?
come fai a dire che non sono Normali?

kORdA
Utente Attivo

Prov.: Milano
Citt�: Monza

1303 Messaggi

Inserito il - 07 ottobre 2010 : 14:14:35

Hai provato con il test Kolmogorov-Smirnov?

http://www.linkedin.com/in/dariocorrada

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 12 ottobre 2010 : 13:02:42

Grazie a tutti per i vostri post.
- per chick 80: Grazie. Sono sicuro che hai ragione, nondimeno devo affidarmi a valutazioni ogettive perch� non vorrei impelagarmi nella dimostrazione di quanto la deviazione della normalit� sia "moderata". Insomma, se ho una soglia di p-value per il test di bartlett, va bene, ma in mancanza di questa mi devo attenere ai requisiti del t test. Grazie mille comunque
- per TMax: sono due gruppi di numeri reali (circa 50 valori per gruppo) ottenuti da una misura sperimentale. Sono indipendenti (non appaiati). Dico che non sono normali perch� ho eseguito test di omogeneit� della varianza (sia il test di Bartlett che il test di Fligner-killen). E dico che non sono normali perch� shapiro-wilk dice cos�. Grazie mille
- per Korda: di provare ho provato. Dici che va bene? Allora Friedman lo lascio perdere? Grazie mille.

Saluti

Stefano

kORdA
Utente Attivo

Prov.: Milano
Citt�: Monza

1303 Messaggi

Inserito il - 12 ottobre 2010 : 15:05:25

Citazione:
Messaggio inserito da stefanken

Grazie a tutti per i vostri post.
- per Korda: di provare ho provato. Dici che va bene? Allora Friedman lo lascio perdere?

Credo che Kolmogorov sia adeguato. Ci sono varianti per distribuzioni di variabili continue e categoriche

Ti allego un PDF in cui se ne parla

Allegato:

09-METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI.pdf
568,47 KB

http://www.linkedin.com/in/dariocorrada

TMax
Utente Junior

Prov.: BG
Citt�: Capriate

270 Messaggi

Inserito il - 12 ottobre 2010 : 19:36:33

cosa vuol dire che non puoi usare il test di wilcoxon (mann -whitney) perch� non omoschedastico?

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 12 ottobre 2010 : 21:50:56

Allora, non voglio essere ossessivo, semplicemente nei testi di statistica cos� come in molti articoli o pagine su internet (ad esempio kasuya.ecology1.org/stats/utest01e.html) si definiscono come criteri per l'utilizzo di wilcoxon la non normalit� (oddio, si pu� usare ma � dimostrato che risulta essere meno potente di test t) e la omoschedasticit�. La seconda � chiara conseguenza della definizione dell'ipotesi nulla per questo test. Naturalmente mi rendo conto che moltissimi autori se ne infischiano bellamente di verificare l'omogeneit� delle varianze. Altri addirittura usano wilcoxon dopo aver verificato che le distribuzioni sono eteroschedastiche (!!!).
Ma volendo mettere su un protocollo di analisi il pi� "formalmente corretto" possibile mi piacerebbe fare le cose come vanno fatte. O meglio: NON fare le cosecome NON vanno fatte.
Saluti
Stefano
P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare....

Glubus
Utente Junior

156 Messaggi

Inserito il - 13 ottobre 2010 : 08:44:15

Se non ricordo male esistono due formulazioni di questo test e per una di queste pu� essere rilevante anche l'aspetto relativo alle diverse varianze (l'altra assume solo un diverso shift per le distribuzioni). Ci� detto, utilizzare un test sulla omogeneit� delle varianze per decidere se reggano i presupposti per l'applicazione di un test � un po' come bruciare la barca prima di partire. I due test non sono indipendenti se ben ci pensi e spalanchi la porta ad un problema (piuttosto diffuso) di comparazioni "nascoste" (puoi pensarla in termini di gradi di libert� "nascosti" utilizzati nell'inferenza). Se ti interessa questo genere di problemi di moltiplicit� nell'inferenza lo trovi descritto nel testo di Frank Harrell "Regression Modelling Strategies".

Mi preme per� sottolineare come alle volte siamo un po' troppo condizionati da questi aspetti teorici, che forse avevano pi� rilevanza pratica prima dell'avvento di calcolatori e di software statistico suficientemente efficienti.
Potresti infatti pensare ad un approccio pi� diretto all'inferenza sul tuo problema: ad esempio, anche senza ricorrere ad un pacchetto specializzato, con R sarebbe piuttosto semplice eseguire un test di permutazione o (meglio ancora nel tuo caso) un bootstrap.
Per ultimo non ho ben capito perch� scomoderesti Friedman se non hai osservazioni ripetute sulle stesse unit�.

GB

Citazione:
Messaggio inserito da stefanken

Allora, non voglio essere ossessivo, semplicemente nei testi di statistica cos� come in molti articoli o pagine su internet (ad esempio kasuya.ecology1.org/stats/utest01e.html) si definiscono come criteri per l'utilizzo di wilcoxon la non normalit� (oddio, si pu� usare ma � dimostrato che risulta essere meno potente di test t) e la omoschedasticit�. La seconda � chiara conseguenza della definizione dell'ipotesi nulla per questo test. Naturalmente mi rendo conto che moltissimi autori se ne infischiano bellamente di verificare l'omogeneit� delle varianze. Altri addirittura usano wilcoxon dopo aver verificato che le distribuzioni sono eteroschedastiche (!!!).
Ma volendo mettere su un protocollo di analisi il pi� "formalmente corretto" possibile mi piacerebbe fare le cose come vanno fatte. O meglio: NON fare le cosecome NON vanno fatte.
Saluti
Stefano
P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare....

chick80
Moderatore

Citt�: Edinburgh

11491 Messaggi

Inserito il - 13 ottobre 2010 : 08:59:53

Citazione:
Grazie. Sono sicuro che hai ragione, nondimeno devo affidarmi a valutazioni ogettive perch� non vorrei impelagarmi nella dimostrazione di quanto la deviazione della normalit� sia "moderata"

Il link che ti ho scritto sopra si riferiva proprio a questo. Il test di Shapiro ti dice se la tua distribuzione si distacca dalla distribuzione normale ideale, purtroppo NON ti dice se � possibile utilizzare il t-test (o qualsiasi altra statistica) per l'analisi dei tuoi dati. Non credo sia il tuo caso (visto che hai solo 50 punti), ma se il campione fosse pi� grande sarebbe praticamente inutile usare un test di normalit� (in quanto ti direbbe praticamente sempre che la distribuzione non � normale).

Hai provato a fare un istogramma o un grafico Q-Q dei tuoi dati? Deviano cos� tanto dalla normalit�? Puoi provare a inserirlo qui sul forum?

==

Ad ogni modo, cercando un po' ho trovato che Chen e Luo hanno proposto una variante del test di Mann Whitney che pu� essere utilizzata in caso di eteroschedasticit�.
Some Modifications on the Application of the Exact Wilcoxon-Mann-Whitney Test - Chen X and Luo X - Commun Stat Simul C 2004

Tuttavia, come osservato da Neuh�user e colleghi, "the modified test can be much more anticonservative than the Wilcoxon�Mann�Whitney test when the population means are identical, but the population variances differ".
Vedi: The Chen�Luo test in case of heteroscedasticity - Neuh�user M, L�scha C, J�ckela KH - Comput Stat Data An 2006

In questi casi gli autori suggeriscono l'uso del test di Brunner-Munzel.
Il Brunnel-Munzel test lo puoi fare con R (funzione brunner.munzel.test del package lawstat)

Infine, vorrei sottolineare due cose:
1) ricorda sempre che "statisticamente significativo" non vuol dire "biologicamente significativo". Prima di andare a scomodare test che conoscono 3 persone al mondo (e che serviranno solo a darti problemi con i reviewers del tuo paper) comincia a pensare se gli effetti che vedi hanno un senso biologico. Se poi stai scrivendo (o pensi di scrivere) un paper di biostatistica allora � chiaro che la statistica � pi� importante della biologia in quel caso. Ma ricorda che un'analisi statistica perfetta di un problema che non ha senso biologico � inutile, almeno per un biologo.

2) Sono d'accordissimo con Globus a riguardo della possibilit� di utilizzare un approccio di bootstrap

PS: penso che TMax fosse semplicemente confuso dal fatto che hai scritto che "Non posso usare il test di wilcoxon (Mann-Whitney) perch� non omoschedastico", quando dovresti dire "Non posso usare il test di wilcoxon (Mann-Whitney) perch� i miei dati non sono omoschedastici"

Citazione:
P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare....

ahahahah, mi ricorda l'episodio dei Simpson in cui Homer � troppo grasso per usare i tasti del telefono :) (senza offesa eh!)

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)

kORdA
Utente Attivo

Prov.: Milano
Citt�: Monza

1303 Messaggi

Inserito il - 13 ottobre 2010 : 09:21:43

Io avevo usato Kolmogorov-Smirnov perche', se non ricordo male, l'algoritmo che viene implementato per il test Mann-Whitney richiede che i campioni vengano reordinati (da qui forse deriva il requisito di omoschedasticita'?)

http://www.linkedin.com/in/dariocorrada

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 13 ottobre 2010 : 09:58:52

Rinnovo i ringraziamenti a tutti,
vorrei dire che naturalmente ho fatto un grafico ad istogrammi e anche un grafico della densit� (che mi sembra anche pi� intellegibile e soprattutto meno soggetto a scelte soggettive quali quelle di definire un intervallo per il campionamento).
Il mio problema (chiedo scusa, probabilmente � psichiatrico) � che preferisco utilizzare una valutazione oggettiva della normalit� (per quanto inaccurata in talune condizioni) piuttosto che andare ad esprimere una valutazione soggettiva derivate dal mio giudizio su un grafico. Naturalmente uso il plot come filtro per verificare se la stima del test di normalit� appare falsata (a me interessa la "verit�" ragionevole), ma sul paper metto il p-value di un test di normalit� (se proprio mi chiedono di mettere qualcosa a supporto). Perch� se uso il p-value posso mettere una referenza, anche autorevole, che mi supporta oggettivamente la scelta. Mentre se metto un grafico posso mettere il numero del mio oculista a supporto della cosa. Quindi il problema � pratico e riguarda il setup di un protocollo. Poi, naturalmente, caso per caso prometto solennemente di guardarmi tutti i plot e prendere le opportune decisioni collegate alla ampiezza campionaria, alla natura e all'origine delle misure.
Naturalmente valuter� con grandissimo interesse sia il Brunnel-Munzel test che la variante di Chen dell Exact Wilcoxon-Mann-Whitney Test.
Per quanto riguarda la valutazione biologica sono ben sicuro dell'alto livello scientifico di questo forum e non volevo tediarvi con ci� che ritenevo ovvio e cio�: Biology first. State pur tranquilli che le mie mere speculazioni sul metodo costituiscono la rifinitura di una impostazione medologica ed analitica orientata biologicamente, senn� andrei su riviste di altro taglio. Vorrei solo dissentire in merito alla eventualit� (possibile naturalmente) che un referee possa fare storie solo perch� non conosce un metodo. Se il metodo � pertinente, ed � possibile dimostrarlo, (e se naturalmente il referee non � uno stupido o un delinquente) non ho nessuna paura dei commenti che possa fare chi legge. Quando mi arrivano articoli da referare � piuttosto difficile che io conosca bene tutti i metodi che trattano. Se qualcosa non mi convince studio (magari chiedo le referenze) e cerco di valutare oggettivamente la cosa. Questa � una mia opinione naturalmente e mi prendo la responsabilit� delle eventuali litigate coi referee.
Altra cosa riguarda il bootstapping: non mi serve comunque una strategia di confronto? Ricampiono le mie popolazioni con una strategia appropriata, ma ogni confronto va fatto seguendo una metodo per confrontare le popolazioni ad ogni ciclo. O no? Mi spiegheresti cosa intendi?
Bene, vi ringrazio ancora per la valanga di informazioni per le quali mi impegner� in un equo tributo offrendovi una bevuta semmai l'articolo venisse accettato (lo saprete su queste pagine).
A presto
Stefano

TMax
Utente Junior

Prov.: BG
Citt�: Capriate

270 Messaggi

Inserito il - 13 ottobre 2010 : 10:36:55

scusa ma il problema � che non ha senso verificare la normalit� dei dati!

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 13 ottobre 2010 : 10:59:21

quindi se ho capito bene visto che non ha senso verificare la normalit�, visto che non ha senso verificare la omoschedasticit� dei dati, non ha nessun senso usare test non parametrici per misure continue, giusto?
Posso fare il test t per il resto della mia vita.
ok se mi date una referenza la metto nella mia bibliografia e abbiamo finito.

TMax
Utente Junior

Prov.: BG
Citt�: Capriate

270 Messaggi

Inserito il - 13 ottobre 2010 : 12:26:38

se lo fai per il resto della tua vita ricordati di aggiustare per l'aumento dell'errore inflativo di I tipo!

dai non ti scaldare...sono incasinato e non ho ancora avuto il tempo di scrivere...
oltre al tuo problema contingente che si pu� risolvere in molti modi
questi topic possono servire anche per fare chiarezza su alcune cose utili non solo per te che hai un problema da risolvere ma per altri che leggono e sono interessati!

prometto che nel pomeriggio tornato a casa approfondisco la questione!

chick80
Moderatore

Citt�: Edinburgh

11491 Messaggi

Inserito il - 13 ottobre 2010 : 13:47:00

Citazione:
quindi se ho capito bene visto che non ha senso verificare la normalit�, visto che non ha senso verificare la omoschedasticit� dei dati, non ha nessun senso usare test non parametrici per misure continue, giusto?

In attesa della risposta di TMax, che � molto pi� "statistico" di me, ti indico questo PDF che risponde alla tua domanda.

www.angelfire.com/wv/bwhomedir/notes/t_test_assumptions.pdf

Cito qui i passaggi principali :)

Citazione:
A normal distribution ranges from minus infinity to positive infinity. So in truth, none of us who are dealing with real data ever sample from normally distributed populations. Likewise, it is a virtual impossibility for two populations (at least of the sort that would interest us as researchers) to have exactly equal variances. The upshot is that we never really meet the assumptions of normality and homogeneity of variance.

Citazione:
Tests of normality have very little power to detect departure from normality when sample sizes are small, and have too much
power when sample sizes are large. So they are really quite useless.

Citazione:
A far better way to �test� the shape of the distribution is to ask yourself the following simple question:
Is it fair and honest to describe the two distributions using means and SDs?

If the answer is YES, then it is probably fine to proceed with your t-test. If the answer is NO (e.g., due to severe skewness, or due to the scale being too far from interval), then you should consider using another test, or perhaps transforming the data. Note that the answer may be YES even if the distributions are somewhat skewed, provided they are both skewed in the same direction (and to the same degree).

Citazione:
if the larger of the two variances is no more than 4 times the smaller,2 the t-test approximation is probably good enough�especially if the sample sizes are equal.

Ed infine la famosa citazione di Box: "All models are wrong. Some are useful."

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)

stefanken
Nuovo Arrivato

39 Messaggi

Inserito il - 13 ottobre 2010 : 16:07:28

Citazione:
A far better way to �test� the shape of the distribution is to ask yourself the following simple question:
Is it fair and honest to describe the two distributions using means and SDs?

If the answer is YES, then it is probably fine to proceed with your t-test. If the answer is NO (e.g., due to severe skewness, or due to the scale being too far from interval), then you should consider using another test, or perhaps transforming the data. Note that the answer may be YES even if the distributions are somewhat skewed, provided they are both skewed in the same direction (and to the same degree).
----------------------
accidenti... la mia situazione non rientra in nessuno dei due casi... io direi un "who the hell knows?"

chick80
Moderatore

Citt�: Edinburgh

11491 Messaggi

Inserito il - 13 ottobre 2010 : 16:25:43

Scusa, a questo punto potresti uploadare un'immagine degli istogrammi e delle curve Q-Q, almeno possiamo ragionarci meglio?

Nel dubbio io direi "usa il non parametrico".

Ad ogni modo un test veloce (giusto per metterti il cuore in pace): prova a fare un t-test, un test di Wilcoxon e un test di Brunner. I risultati sono completamente diversi? (questo ovviamente non risolve il problema di che test usare, ma almeno ti d� un'idea della robustezza dei vari test a variazioni dalla normalit�)

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)

TMax
Utente Junior

Prov.: BG
Citt�: Capriate

270 Messaggi

Inserito il - 13 ottobre 2010 : 19:08:41

beh grazie a chick80 che ha dato qualche utile suggerimento riportando citazioni molto utili.
La questione � proprio sul concetto di normalit�, sui cui a volte si fa confusione.
I test parametrici si applicano a popolazioni che hanno una distribuzione normale dei dati
oppure a dati campionari che 'provengono' da una popolazione normale. Che provengono! non a dati campionari che sono distribuiti normalmente! Quindi in realt� uno dovrebbe preoccuparsi di dimostrare che i dati provengono da popolazione normale! Cosa abbastanza difficile!
Un passo indietro: ma cosa vuol dire distribuzione normale. Meglio sarebbe chiamarla distribuzione gaussiana o degli errori. Una distribuzione � gaussiana se il processo stocastico che l'ha generata � un processo caratterizzato da misure ripetute sullo stesso oggetto. E' la distribuzione degli errori che si fanno ripetendo molte volte la stessa identica misurazione.
Difficilmente si trovano in biologia misure di questo tipo se non in ambito di controllo di qualit� degli strumenti. Misurare un parametro biologico in un campione di unit� sperimentali (ognuna diversa l'una dall'altra ) non � misurare la stessa unit� pi� volte.
Il fatto � che la statistica inferenziale frequentista sfutta le propriet� della distibuzione gaussiana perch� permette di costruire strumenti di inferenza appunto.

Nella pratica per� attenzione va posta non tanto alla distribuzione dei dati campionari ma alla distribuzione degli errori(residui) dei modelli paramtrici utilizzati. Il test t altro non � che un caso particolare di analsi della varianza che a sua volta � un caso particolare di modello lineare. Ragionando in termini di modelli lineari, si tratta di verificare se i residui del modello (cio� la differenza tra i dati osservati e quelli predetti) sono gaussiani, omoschedastici e non dipendenti.

Quello che si pu� fare nella pratica � verificare se almeno graficamente la distribuzione dei dati � SIMMETRICA ( non normale) e in questo caso si pu� provare ad adattare un modello lineare. In caso contrario si utilizzano sistemi non parametrici.
Meglio ancora � presentare i dati in termini di intervalli di confidenza evitando test statistici!

Discussione

Quanto � utile/interessante questa discussione:

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Vai a:

MolecularLab.it

Android e Mobile



Scarica le app! Ora anche sul tuo smartphone!

Ciao Login - Iscriviti



Visitatori: 509

Newsletter
Iscriviti alla newsletter: ogni settimana notizie e fatti dal mondo biotech