Wednesday 6 September 2017

Estimasi Parameter Regresi Logistik Binära Alternativ


ANMÄRKNING: Du tittar på en föråldrad version av den här sidan. Det nya innehållet kan hittas på vår nya domän statistics. idre. ucla. edu. Du kan också rensa webbläsarens cache och uppdatera den här sidan, som ska omdirigera dig direkt till det uppdaterade innehållet. Välkommen till Institutet för digital forskning och utbildning SPSS Data Analysis Examples Ordinär logistisk regression Versionsinformation: Koden för den här sidan har testats i IBM SPSS 20. Observera: Syftet med denna sida är att visa hur man använder olika dataanalyskommandon. Det täcker inte alla aspekter av forskningen som forskare förväntas göra. I synnerhet omfattar det inte dataväxling och kontroll, verifiering av antaganden, modelldiagnos och potentiella uppföljningsanalyser. Exempel på beställd logistisk regression Exempel 1: Marknadsundersökningsföretag vill undersöka vilka faktorer som påverkar storleken på läsk (små, medelstora, stora eller extra stora) som människor beställer i en snabbmatskedja. Dessa faktorer kan omfatta vilken typ av smörgås som beställs (burgare eller kyckling), om frites också beställs och konsumenternas ålder. Medan utfallsvariabeln, storleken på läsk är uppenbarligen beställd, är skillnaden mellan de olika storlekarna inte konsekvent. Skillnaden mellan små och medelstora är 10 ounce, mellan medelstora och stora 8 och mellan stora och extra stora 12. Exempel 2: En forskare är intresserad av vilka faktorer som påverkar medling i olympisk simning. Relevanta prediktorer inkluderar vid träningstider, kost, ålder och popularitet av simning i idrottarnas hemland. Forskaren anser att avståndet mellan guld och silver är större än avståndet mellan silver och brons. Exempel 3: En studie tittar på faktorer som påverkar beslutet om huruvida man ska ansöka om forskarskola. College juniorer frågas om de är osannolika, något troligt eller mycket troligt att de gäller för grundskolan. Därför har vår resultatvariabel tre kategorier. Uppgifter om föräldrautbildningsstatus, huruvida grundutbildningen är offentlig eller privat, och nuvarande GPA samlas också in. Forskarna har anledning att tro att avstånden mellan dessa tre punkter inte är lika. Till exempel kan avståndet mellan osannolikt och sannolikt vara kortare än avståndet mellan något troligt och mycket troligt. Beskrivning av data För vår dataanalys nedan kommer vi att expandera på exempel 3 om att söka på grundskolan. Vi har simulerat några data för detta exempel och det kan erhållas här. Denna hypotetiska dataset har en trenivåvariabel som kallas tillämpa (kodad 0, 1, 2), som vi kommer att använda som vår resultatvariabel. Vi har också tre variabler som vi kommer att använda som prediktorer: pared. vilket är en 01-variabel som indikerar om minst en förälder har en universitetsexamen. vilket är en 01-variabel där 1 indikerar att grundinstitutet är offentligt och 0 privat och gpa. vilket är elevernas betygsnivåmedelvärde. Låt oss börja med den beskrivande statistiken för dessa variabler. Analysmetoder du kan tänka på Nedan följer en lista över några analysmetoder du kan ha stött på. Några av de angivna metoderna är ganska rimliga medan andra har antingen fallit bort eller har begränsningar. Beställd logistisk regression: fokus på denna sida. OLS-regression: Denna analys är problematisk eftersom antagandena för OLS bryts när den används med en icke-intervallutfallsvariabel. ANOVA: Om du bara använder en kontinuerlig prediktor, kan du citflipquot modellen runt, så att gpa var resultatvariabeln och tillämpa var prediktorvariabeln. Då kan du köra en envägs ANOVA. Detta är inte en dålig sak att göra om du bara har en prediktorvariabel (från logistikmodellen), och det är kontinuerligt. Multinomial logistisk regression: Det här liknar att göra beställd logistisk regression, förutom att det antas att det inte finns någon ordning på kategorierna av resultatvariabeln (dvs kategorierna är nominella). Nackdelen med detta tillvägagångssätt är att informationen i beställningen går förlorad. Ordered probit regression: Det här är väldigt mycket likt att driva en beställd logistisk regression. Huvudskillnaden är i tolkningen av koefficienterna. Bestämd logistisk regression Innan vi kör vår ordinära logistikmodell ser vi om några celler är tomma eller extremt små. Om det finns några kan det vara svårt att köra vår modell. Det finns två sätt i SPSS att vi kan göra detta. Det första sättet är att göra enkla crosstabs. Det andra sättet är att använda alternativet cellinfo på utskriftsunderkommandot. Du bör endast använda cellinfo-alternativet med kategoriska prediktorvariabler. Tabellen kommer att vara lång och svår att tolka om du inkluderar kontinuerliga prediktorer. Ingen av cellerna är för liten eller tom (har inga fall), så vi kör vår modell. I syntaxen nedan har vi inkluderat länklogit-underkommandot, trots att det är standard, bara för att påminna oss om att vi använder logit-länkfunktionen. Observera också att om tabellen Fallbehandling Sammanfattning inte ingår i utskriftsunderkommandot finns det i utmatningen. I tabellen Fallbehandling Sammanfattning ser vi antalet och procentuella fall i varje nivå av vår svarsvariabel. Dessa siffror ser bra ut, men vi skulle vara oroade om en nivå hade väldigt få fall i den. Vi ser också att alla 400 observationer i vår dataset användes i analysen. Färre observationer skulle ha använts om någon av våra variabler saknade värden. Som standard gör SPSS en listvis borttagning av fall med saknade värden. Därefter ser vi tabellen Model Fitting Information, vilket ger -2-logg sannolikheten för avlyssnings-och slutmodellerna. -2-loggen sannolikheten kan användas i jämförelser av kapslade modeller, men vi visar inte ett exempel på det här. I tabellen Parameterestimat ser vi koefficienterna, deras standardfel, Wald-testet och de associerade p-värdena (Sig.) Och 95-konfidensintervallet för koefficienterna. Både pared och gpa är statistiskt signifikanta offentliga är det inte. Så för pared. vi skulle säga att för en enhetsökning i pared (dvs går från 0 till 1) förväntar vi oss en ökning av 1,05 i de beställda loggodserna för att vara i en högre tillämpningsnivå. givet alla andra variabler i modellen hålls konstanta. För gpa. vi skulle säga att för en enhetsökning ökar gpa. vi skulle förvänta oss en 0,62 ökning av loggen odds för att vara i en högre tillämpningsnivå. med tanke på att alla andra variabler i modellen hålls konstanta. Tröskelvärdena visas längst upp i parametrisuppskattningsutmatningen, och de anger var den latenta variabeln är skuren för att göra de tre grupper som vi observerar i våra data. Observera att denna latenta variabel är kontinuerlig. I allmänhet används dessa inte i tolkningen av resultaten. Några statistiska paket kallar tröskelvärdena (gränsvärden och cutpoints är samma sak) andra paket, till exempel SAS-avlyssningar, vilka är negativa av tröskelvärdena. I detta exempel skulle avlyssningarna vara -2.203 och -4.299. För mer information, se Stata FAQ: Hur kan jag konvertera Statas-parametrering av beställda probit - och logistikmodeller till en där en konstant beräknas. Som i version 15 av SPSS kan du inte direkt få proportional oddsförhållanden från SPSS. Du kan antingen använda SPSS Output Management System (OMS) för att fånga parameterns uppskattningar och exponentera dem, eller du kan beräkna dem manuellt. Se ordinär regression av Marija J. Norusis för exempel på hur man gör det här. Kommandon för att använda OMS och beräkna proportionella oddsförhållandena visas nedan. För mer information om hur du använder OMS, se vår SPSS FAQ: Hur kan jag mata ut mina resultat till en datafil i SPSS? Observera att de enkla citaterna i kvadratkonsolerna är viktiga, och du får ett felmeddelande om de är utelämnad eller obalanserad. I kolumn expb ser vi resultaten som presenteras som proportionella oddsförhållanden (koefficienten exponentierad). Vi har också beräknat det lägre och övre 95 konfidensintervallet. Vi skulle tolka dessa ganska mycket som vi skulle oddsförhållanden från en binär logistisk regression. För pared. vi skulle säga att för en enhetsökning i pared, dvs går från 0 till 1, är oddsen för höga tillämpningar mot de kombinerade mellan - och lågkategorierna 2,85 större, eftersom alla andra variabler i modellen hålls konstanta. På samma sätt är oddsen för de kombinerade medel - och högkategorierna mot låga anspråk 2,85 gånger större, eftersom alla andra variabler i modellen hålls konstanta. För en enhetsökning i gpa. oddsen för de låga och mellersta kategorierna av ansökningar jämfört med den höga kategorin som gäller är 1,85 gånger större, eftersom de andra variablerna i modellen hålls konstanta. På grund av proportional odds antagandet (se nedan för mer förklaring), är samma ökning, 1,85 gånger, mellan låga tillämpningar och de kombinerade kategorierna mellan och höga gäller. En av de antaganden som ligger till grund för den reglerade logistiska (och beställda probit) regression är att förhållandet mellan varje par av resultatgrupper är detsamma. Med andra ord förutsätter beställd logistisk regression att koefficienterna som beskriver förhållandet mellan de lägsta mot alla högre kategorierna av svarsvariabeln är desamma som de som beskriver förhållandet mellan nästa lägsta kategori och alla högre kategorier etc. Detta kallas proportional odds antagandet eller parallell regression antagandet. Eftersom förhållandet mellan alla par av grupper är detsamma finns det bara en uppsättning koefficienter (endast en modell). Om det inte var fallet skulle vi behöva olika modeller för att beskriva förhållandet mellan varje par av resultatgrupper. Vi måste testa proportional odds antagandet, och vi kan använda alternativet tparallel på utskriftsunderkommandot. Nollhypotesen för detta chi-kvadratprov är att det inte finns någon skillnad i koefficienterna mellan modellerna, så vi hoppas få ett icke-signifikant resultat. Ovannämnda test indikerar att vi inte har brutit mot proportional odds antagandet. Om proporsionell odds antagandet kränktes kan vi kanske gå med multinomial logistisk regression. Vi använder vi dessa formler för att beräkna förutsagda sannolikheter för varje nivå av resultatet, gäller. Förutsatta sannolikheter är vanligtvis lättare att förstå än koefficienterna eller oddsförhållandena. Vi kommer att beräkna de förutsagda sannolikheterna med SPSS Matrix-språk. Vi kommer att använda pared som ett exempel med en kategorisk prediktor. Här kommer vi se hur sannolikheten för medlemskap till varje kategori av tillämpning förändras när vi varierar pared och håll den andra variabeln på deras sätt. Som du kan se är den förutsagda sannolikheten att du är i den lägsta kategorin av ansökan 0,59 om ingen förälder har en utbildad nivåutbildning och 0,34 annars. För medelkategorin gäller. De förutsagda sannolikheterna är 0,33 och 0,47 och för den högsta kategorin som gäller. 0,078 och 0,196. Därför, om ingen av respondenterna föräldrar har en utbildningsnivå på grundnivå, minskar den förutsagda sannolikheten för att söka på grundskolan. Observera att avlyssningarna är negativa av tröskelvärdena. Nedan ser vi de förutsagda sannolikheterna för gpa vid 2, 3 och 4. Som du kan se, för varje värde av gpa. Den högsta förutsagda sannolikheten är den lägsta kategorin som gäller. vilket är meningsfullt eftersom de flesta svarande är i den kategorin. Du kan också se att den förutsagda sannolikheten ökar för både de mellersta och högsta kategorierna som gäller när gpa ökar. Saker att överväga Perfekt prediktion: Perfekt prediktion betyder att ett värde av en prediktorvariabel är associerad med endast ett värde av svarsvariabeln. Om detta händer, kommer Stata vanligen att utfärda en anteckning överst på utmatningen och släpper fallen så att modellen kan köras. Provstorlek: Både beställd logistik och beställd probit, med högsta sannolikhetsbedömningar, kräver tillräcklig provstorlek. Hur stor är stor är ett ämne för viss debatt, men de kräver nästan alltid fler fall än OLS-regression. Tomma celler eller små celler: Du bör söka efter tomma eller små celler genom att göra en kryssrutan mellan kategoriska prediktorer och resultatvariabeln. Om en cell har mycket få fall kan modellen bli instabil eller det kanske inte går alls. Pseudo-R-kvadrat: Det finns ingen exakt analog av R-kvadraten som finns i OLS. Det finns många versioner av pseudo-R-kvadrater. Vänligen se Long and Freese 2005 för mer detaljer och förklaringar av olika pseudo-R-kvadrater. Diagnostik: Att göra diagnostik för icke-linjära modeller är svårt, och beställda logitprobitmodeller är ännu svårare än binära modeller. Referenser13 Probitregression SPSS Data Analysis Examples Probitregression, även kallad probitmodell, används för att modellera dikotom eller binära resultatvariabler. I probitmodellen modelleras sannolikheten för invers standard normalfördelning som en linjär kombination av prediktorerna. Observera: Syftet med denna sida är att visa hur man använder olika dataanalyskommandon. Det täcker inte alla aspekter av forskningen som forskare förväntas göra. I synnerhet omfattar det inte dataväxling och kontroll, verifiering av antaganden, modelldiagnos och potentiella uppföljningsanalyser. Exempel 1: Antag att vi är intresserade av de faktorer som påverkar huruvida en politisk kandidat vinner ett val. Resultatvariabeln är binär (01) vinner eller förlorar. Beräknade prediktorvariabler är summan av pengar som spenderas på kampanjen, hur mycket tid som kampanjeras negativt och huruvida kandidaten är en skyldig. Exempel 2: En forskare är intresserad av hur variabler, som GRE (Graduate Record Exam poäng), GPA (betygsgenomsnitt) och prestige för grundutbildningen, effekten antagning till grundskolan. Responsvariabeln, admitdon8217t erkänner, är en binär variabel. Beskrivning av data För vår dataanalys nedan kommer vi att expandera på exempel 2 om att komma in på grundskolan. Vi har genererat hypotetiska data, som kan erhållas genom att klicka på binary. sav. Du kan lagra det där du vill, men våra exempel antar att det har lagrats i c: data. Först läser vi datafilen i SPSS. Denna dataset har en binär respons (resultatberoende) variabel som kallas erkänna. Det finns tre prediktorvariabler: gre. gpa och rang. Vi kommer att behandla variablerna gre och gpa som kontinuerliga. Variabeln är ordinär, den tar värdena 1 till 4. Institutioner med en rang av 1 har högsta prestige, medan de med en rang av 4 har den lägsta. Vi kommer att behandla rang som kategorisk. Låt oss börja med att titta på beskrivande statistik. Analysmetoder du kan tänka på Nedan följer en lista över några analysmetoder du kan ha stött på. Några av de angivna metoderna är ganska rimliga medan andra har antingen fallit bort eller har begränsningar. Probit regression, fokus på denna sida. Logistisk tillbakagång. En logitmodell ger resultat liknande probitregression. Valet av probit kontra logit beror till stor del på individuella preferenser. OLS-regression. När den används med en binär responsvariabel, är denna modell känd som en linjär sannolikhetsmodell och kan användas som ett sätt att beskriva villkorliga sannolikheter. Felen (dvs resterna) från den linjära sannolikhetsmodellen bryter emellertid mot homoskedasticiteten och normaliteten av felantaganden för OLS-regression, vilket resulterar i ogiltiga standardfel och hypotesprov. För en noggrannare diskussion av dessa och andra problem med den linjära sannolikhetsmodellen, se Long (1997, s. 38-40). Funktionsanalys av två grupper diskriminerande. En multivariat metod för dikotom utfall variabler. Hotelling8217s T 2. 01-utfallet omvandlas till gruppvariabeln, och de tidigare prediktorerna omvandlas till resultatvariabler. Detta kommer att ge ett övergripande test av betydelse men kommer inte att ge individuella koefficienter för varje variabel och det är oklart i vilken utsträckning varje quotpredictorquot justeras för inverkan av den andra Probit-regressionen. Nedan använder vi plommonkommandot med underkommandot länkprobit för att springa en probit regression modell. Efter kommandonamnet (plommon) följs utfallsvariabeln (admit) med rang som indikerar att rang är en kategorisk prediktor följt av med gre gpa. vilket indikerar att prediktorerna gre och gpa ska behandlas som kontinuerliga. Utgången från plommonkommandot är uppdelat i flera sektioner, vilka var och en diskuteras nedan. Plommonutmatningen är märkt som en ordinär regression, men vi kan bekräfta nedan (se noten i nästa uppsättning tabeller) att probitlänkfunktionen var använd. Observera att en modell med ett binärt resultat kan ses som ett speciellt fall av en ordinalmodell, där det bara finns två kategorier. Tabellen ovan innehåller frekvenser för de två kategoriska variablerna (resultatet) och rankningen (en av prediktorerna). Vi kan se att alla 400 observationer har använts. Färre observationer skulle ha använts om någon av våra variabler saknade värden. Tabellen märkt modellfittinginformation innehåller två rader, en för den modell vi begärde (märkt slutlig) och en för en så kallad nollmodell (endast avlyssning). -2-loggen sannolikheter kan användas för att jämföra modell passform av de två modellerna. Den slutliga -2 loggen sannolikheten för vår modell är 452.057. Den intercept-bara modellen har en -2 log sannolikhet av 493.620. Den chi-kvadratiska teststatistik av 41.563 är skillnaden mellan de två -2 loglikelihoods, denna teststatistik, med 5 frihetsgrader och ett associerat p-värde på mindre än 0,0004 berättar att den nuvarande modellen passar bättre än en modell med bara en avlyssning. Pseudo-R-kvadratiska värden är ett annat sätt att bedöma modellens passform. Tre olika pseudo-R-kvadrater ges i utmatningen, men många olika åtgärder av pseudo-R-squareds finns. De försöker alla tillhandahålla information som liknar den som tillhandahålls av R-kvadrerad i OLS-regression, men ingen av dem kan tolkas exakt som R-kvadrat i OLS-regression tolkas. För en diskussion av olika pseudo-R-squareds, se Long and Freese (2006) eller vår FAQ-sida. Vad är pseudo R-squareds I tabellen märkt Parameter Estimates ser vi koefficienterna, deras standardfel, Wald teststatistik med tillhörande df och p-värden och 95-konfidensintervallet för koefficienterna. Variablerna gre. gpa. och villkoren för rang 1 och rang 2 är statistiskt signifikanta. Probitsregressionskoefficienterna ger förändringen i z-poängen (även kallad probitindexet) för en enhetsändring i prediktorn. För en enhetsökning i gre. z-poängen ökar med 0,001. För varje enhet ökar i gpa. z-poängen ökar med 0,478. Villkoren för rang har en något annorlunda tolkning. Om du till exempel har deltagit i en grundutbildning med en rang av 1, jämfört med en institution med en rang av 4 (referensgruppen), ökar z-poängen med 0,936. Vi kanske också vill testa den övergripande effekten av rang. vi kan göra detta med hjälp av testkommandot. Testkommandokommandot följs av namnet på den variabel vi vill testa (dvs rang) och sedan ett värde för varje nivå av den variabeln (inklusive den utelämnade kategorin). Den första raden i testkommandoklassen 1 0 0 0 indikerar att vi vill testa att koefficienten för rang 1 är 0. För att utföra ett test med flera grader av frihet inkluderar vi flera rader i testkommandot, allt utom den sista raden separeras av en semikolon. Den andra och tredje raden indikerar att vi vill testa att koefficienterna för rang 2 och rang 3 är lika med 0. Observera att det inte finns något behov av att inkludera en rad för den fjärde kategorin av rang. Eftersom modellerna är desamma är det mesta av produktionen som produceras av ovanstående plommonkommando samma som tidigare. Den enda skillnaden är den extra produktion som produceras av testkommandot, endast den här delen av utmatningen visas nedan. Den första tabellen ovan, märkta kontrastkoefficienter, visar de hypoteser vi testar. Den andra tabellen ger kontrastresultatet, eftersom varje rad i testunderkommandot tester att en koefficient i modellen är lika med 0, är ​​dessa uppskattningar, standardfel etc. lika med de från tabellen märkta parametervurderingerna i huvuddelen av Resultatet. Den enda skillnaden i den här tabellen är att kolumnen märkt Test som uttryckligen ger nollhypotesen, i vårt fall, att var och en av termerna är lika med 0. (Observera att andra nollhypoteser kan specificeras.) Finalbordet producerat av test-underkommandot, märkta testresultat, ger testet för flera grader av frihet vi är intresserade av, Wald-teststatistiken på 21.361, med 3 grader av frihet och ett associerat p-värde på mindre än 0,001, berättar att den totala effekten av rang är statistiskt signifikant. Tabellen märkt Parameter Estimates ger hypotes tester för skillnader mellan varje nivå av rang och referenskategorin. Vi kan använda testkommandot för att testa för skillnader mellan de andra nivåerna av rankning. Till exempel kanske vi vill testa för en skillnad i koefficienter för rang 2 och rang 3. I syntaxen nedan har vi lagt till ett andra testkommando. Den här gången är de angivna värdena 0 1 -1 0 detta indikerar att vi vill beräkna skillnaden mellan koefficienterna för rang 2 och rang 3 (dvs rang 2 8211 rank 3). Återigen är utmatningen från modellen, liksom utmatningen associerad med den första testkommandon, identiska med de som visas ovan, så de utelämnas. I tabellen märkta kontrastresultat ser vi skillnaden i koefficienterna (dvs 0,397). Wald-teststatistiken för 5,573, med en grad av frihet och associerat p-värde av mindre än 0,02, indikerar att skillnaden mellan koefficienterna för rang 2 och rang 3 är statistiskt signifikant. Eftersom endast en uppskattning specificerades i testunderkommandot, skrivs inte testet för flera grader av frihet (dvs testresultattabellen). Saker att tänka på Tom celler eller små celler: Du bör kontrollera om tomma eller små celler genom att göra en crosstab mellan kategoriska prediktorer och resultatvariabeln. Om en cell har mycket få fall (en liten cell) kan modellen bli instabil eller det kanske inte går alls. Separation eller kvasi-separation (även kallad perfekt prediktion), ett tillstånd där resultatet inte varierar på vissa nivåer av de oberoende variablerna. Se vår FAQ: Vad är komplett eller kvasi-fullständig separation i logistikprobitregression och hur hanterar vi dem för information om modeller med perfekt förutsägelse. Provstorlek: Både logit - och probitmodeller kräver fler fall än OLS-regression eftersom de använder maximala sannolikhetsbedömningstekniker. Det är också viktigt att komma ihåg att när resultatet är sällsynt, även om den totala datasatsen är stor kan det vara svårt att uppskatta en logitmodell. Pseudo-R-kvadrat: Många olika åtgärder av pseudo-R-kvadrat existerar. De försöker alla tillhandahålla information som liknar den som tillhandahålls av R-kvadrerad i OLS-regression, men ingen av dem kan tolkas exakt som R-kvadrat i OLS-regression tolkas. För en diskussion av olika pseudo-R-squareds, se Long and Freese (2006) eller vår FAQ-sida. Vad är pseudo R-squareds Diagnostik: Diagnostiken för logistisk regression skiljer sig från dem för OLS-regression. För en diskussion av modelldiagnostik för logistisk regression, se Hosmer och Lemeshow (2000, kapitel 5). Observera att diagnostik som gjorts för logistisk regression liknar dem som gjorts för probitregression. Referenser Hosmer, D. 038 Lemeshow, S. (2000). Tillämpad logistisk regression (andra upplagan). New York: John Wiley 038 Sons, Inc. Long, J. Scott (1997). Regressionsmodeller för kategoriska och begränsade beroendevariabler. Tusen Oaks, CA: Sage Publications. MultinomialLogistic Regression Stata Data Analys Exempel Version info. Koden för denna sida testades i Stata 12. Multinomial logistisk regression används för att modellera nominella resultatvariabler, där loggens odds för resultaten modelleras som en linjär kombination av prediktorvariablerna. Observera: Syftet med den här sidan är att visa hur man använder olika dataanalyskommandon. Det täcker inte alla aspekter av forskningen som forskare förväntas göra. I synnerhet omfattar det inte dataväxling och kontroll, verifiering av antaganden, modelldiagnos och potentiella uppföljningsanalyser. Exempel på multinomial logistisk regression Exempel 1. Människor8217 yrkesval kan påverkas av sina föräldrar8217 yrken och deras egen utbildningsnivå. Vi kan studera förhållandet mellan 18217 yrkesval med utbildningsnivå och father8217s yrke. De yrkesmässiga valen kommer att vara resultatet variabel som består av yrkeskategorier. Exempel 2. En biolog kan vara intresserad av matval som alligatorer gör. Vuxna alligatorer kan ha olika preferenser från unga. Resultatvariabeln här kommer att vara typ av mat, och prediktorvariablerna kan vara storleken på alligatorerna och andra miljövariabler. Exempel 3. Inmatning av gymnasieelever gör programval bland allmän program, yrkesutbildning och akademiskt program. Deras val kan modelleras med hjälp av sina skrivresultat och deras sociala ekonomiska status. Beskrivning av data För vårt data analys exempel kommer vi att expandera det tredje exemplet med hsbdemo dataset. Let8217s läser först i data. Datasatsen innehåller variabler på 200 studenter. Resultatvariabeln är prog. programtyp. Prediktorvariablerna är socioekonomisk status, ses, en tre nivåer kategorisk variabel och skrivande poäng, skriv, en kontinuerlig variabel. Let8217s börjar med att få lite beskrivande statistik över variablerna av intresse. Analysmetoder du kan överväga multinomial logistisk regression: fokus på denna sida. Multinomial probitregression: liknar multinomial logistisk regression men med oberoende normala felvillkor. Multiple-gruppdiskriminantfunktionsanalys: En multivariabel metod för multinomiala utfallsvariabler Multipla logistiska regressionsanalyser, en för varje par resultat: Ett problem med detta tillvägagångssätt är att varje analys potentiellt kan köras på ett annat prov. Det andra problemet är att utan att begränsa logistikmodellerna kan vi sluta med sannolikheten att välja alla möjliga utfallskategorier som är större än 1. Kollapsar antal kategorier till två och gör sedan en logistisk regression: Detta tillvägagångssätt lider av förlust av information och förändringar De ursprungliga forskningsfrågorna till mycket olika. Ordinär logistisk regression: Om resultatvariabeln verkligen beställs och om den också uppfyller antagandet om proportionella odds, kommer övergången till ordinär logistisk regression att göra modellen mer parsimonisk. Alternativspecifik multinomiell probitregression: möjliggör att olika felstrukturer gör det möjligt att slappna av oberoende av irrelevanta alternativ (IIA, se nedan citations to Considerquot). Detta kräver att datastrukturen är valspecifik. Nested logit-modell: Kopplar också IIA-antagandet, kräver också datastrukturen vara valspecifik. Multinomial logistisk regression Nedan använder vi kommandot mlogit för att uppskatta en multinomial logistisk regressionsmodell. I. innan ses indikerar att ses är en indikatorvariabel (dvs kategorisk variabel) och att den ska ingå i modellen. Vi har också använt alternativkvotbaskvoten för att ange vilken kategori vi vill använda för baslinjegruppen. I modellen nedan har vi valt att använda den akademiska programtypen som baslinjekategori. I utgången ovan ser vi först iterationsloggen, vilket indikerar hur snabbt modellen konvergeras. Logg sannolikheten (-179.98173) kan användas i jämförelser av kapslade modeller, men vi vann8217t visa ett exempel på att jämföra modeller här Sannolikhetsförhållandet chi-square of48.23 med ett p-värde lt 0.0001 berättar att vår modell som helhet passar väsentligt bättre än en tom modell (dvs. en modell utan prediktorer) Utgången ovan har två delar märkta med kategorierna av resultatvariabeln prog. De motsvarar de två ekvationerna nedan: där (b) 8217s är regressionskoefficienterna. En enhetsökning i variabelskrivet är associerad med en .058 minskning i de relativa loggoddsna för att vara i allmänhet program mot akademiskt program. En enhetsökning i variabelskrivet är associerad med en .1136 minskning i de relativa loggoddsna för att vara i yrkesprogrammet vs. det akademiska programmet. De relativa logg oddsna för att vara i allmänhet program vs. i akademiska programmet kommer att minska med 1,163 om man flyttar från den lägsta nivån av ses (ses 1) till den högsta nivån på ses (ses 3). Förhållandet mellan sannolikheten för att välja en utfallskategori över sannolikheten att välja grundlinjekategorin kallas ofta som relativ risk (och det kallas även ibland som odds som vi just har beskrivit ovanstående regressionsparametrar). Relativ risk kan erhållas genom exponentiating de linjära ekvationerna ovan, vilket ger regressionskoefficienter som är relativa riskförhållanden för enhetsförändring i prediktorvariabeln. Vi kan använda rrr-alternativet för mlogit-kommandot för att visa regressionsresultatet i förhållande till relativa riskförhållanden. Det relativa riskförhållandet för en enhetsökning i variabelskrivningen är .9437 (exp (- 0579284) från utgången av det första mlogit-kommandot ovan) för att vara generellt program mot akademiskt program. Det relativa riskförhållandet växlar från sikt 1 till 3 är .3126 för att vara i allmänhet program vs. akademiskt program. Med andra ord är den förväntade risken att stanna i det allmänna programmet lägre för personer som är höga i ses. Vi kan testa för en övergripande effekt av ses med testkommandot. Nedan ser vi att den totala effekten av ses är statistiskt signifikant. Mer specifikt kan vi också testa om effekten av 3.ses i att förutsäga generell vs akademisk är lika med effekten av 3.ses för att förutsäga vocation vs. academic med testkommandot igen. Testet visar att effekterna inte är statistiskt olika från varandra. Du kan också använda förutsagda sannolikheter för att hjälpa dig att förstå modellen. Du kan beräkna förutsagda sannolikheter med kommandot marginer. Nedan använder vi marginalkommandot för att beräkna förutsagd sannolikhet att välja varje programtyp på varje nivå av ses. innehar alla andra variabler i modellen på deras sätt. Eftersom det finns tre möjliga resultat måste vi använda kommandot marginer tre gånger, en för varje utfalls värde. Vi kan använda kommandot marginsplot för att plotta förutsagda sannolikheter av ses för varje kategori av prog. Plottar skapade av marginsplot baseras på kommandot körning i sista marginalen. Dessutom kan vi kombinera de tre marginalplotten i ett graf för att underlätta jämförelsen med hjälp av grafkommandot. As it is generated, each marginsplot must be given a name, which will be used by graph combine . Additionally, we would like the y-axes to have the same range, so we use the ycommon option with graph combine . Another way to understand the model using the predicted probabilities is to look at the averaged predicted probabilities for different values of the continuous predictor variable write . averaging across levels of ses . Sometimes, a couple of plots can convey a good deal amount of information. Below, we plot the predicted probabilities against the writing score by the level of ses for different levels of the outcome variable. We may also wish to see measures of how well our model fits. This can be particularly useful when comparing competing models. The user-written command fitstat produces a variety of fit statistics. You can find more information on fitstat and download the program by using command search fitstat in Stata (see How can I use the search command to search for programs and get additional help for more information about using search ). Things to consider The Independence of Irrelevant Alternatives (IIA) assumption: roughly, the IIA assumption means that adding or deleting alternative outcome categories does not affect the odds among the remaining outcomes. Test of the IIA assumption can be performed by using the Stata command mlogtest, iia . However, as of April 23, 2010, mlogtest, iia does not work with factor variables. There are alternative modeling methods that relax the IIA assumption, such as alternative-specific multinomial probit models or nested logit models. Diagnostics and model fit: unlike logistic regression where there are many statistics for performing model diagnostics, it is not as straightforward to do diagnostics with multinomial logistic regression models. Model fit statistics can be obtained via the fitstat command. For the purpose of detecting outliers or influential data points, one can run separate logit models and use the diagnostics tools on each model. Pseudo-R-Squared: the R-squared offered in the output is basically the change in terms of log-likelihood from the intercept-only model to the current model. It does not convey the same information as the R-square for linear regression, even though it is still quotthe higher, the betterquot. Sample size: multinomial regression uses a maximum likelihood estimation method, it requires a large sample size. It also uses multiple equations. This implies that it requires an even larger sample size than ordinal or binary logistic regression. Complete or quasi-complete separation: Complete separation implies that the outcome variable separates a predictor variable completely, leading to perfect prediction by the predictor variable. Unlike running a logit model, Stata does not offer a warning when this happens. Instead it continues to compute iteratively and requires a manual quit to stop the process. Perfect prediction means that only one value of a predictor variable is associated with only one value of the response variable. But you can tell from the output of the regression coefficients that something is wrong. You can then do a two-way tabulation of the outcome variable with the problematic variable to confirm this and then rerun the model without the problematic variable. Empty cells or small cells: You should check for empty or small cells by doing a cross-tabulation between categorical predictors and the outcome variable. If a cell has very few cases (a small cell), the model may become unstable or it might not even run at all. Perhaps your data may not perfectly meet the assumptions and your standard errors might be off the mark. You might wish to see our page that shows alternative methods for computing standard errors that Stata offers. Sometimes observations are clustered into groups (e. g. people within families, students within classrooms). In such cases, you may want to see our page on non-independence within clusters . References

No comments:

Post a Comment