Sunday 1 October 2017

Flytte Gjennomsnittet Stata Time Serien


Flytte gjennomsnitt Gjeldende gjennomsnitt Med konvensjonelle datasett er gjennomsnittlig verdi ofte den første, og en av de mest nyttige, oppsummerte statistikkene for å beregne. Når data er i form av en tidsserie, er seriemengden et nyttig mål, men reflekterer ikke dataens dynamiske natur. Gjennomsnittlige verdier som beregnes over kortere perioder, enten før den nåværende perioden eller sentrert i den nåværende perioden, er ofte mer nyttige. Fordi slike middelverdier vil variere, eller flytte, som den nåværende perioden beveger seg fra tid t 2, t 3. etc. er de kjent som bevegelige gjennomsnitt (Mas). Et enkelt glidende gjennomsnitt er (typisk) det uveide gjennomsnittet av k tidligere verdier. Et eksponentielt vektet glidende gjennomsnitt er i det vesentlige det samme som et enkelt bevegelige gjennomsnitt, men med bidrag til middelvektet av deres nærhet til den nåværende tid. Fordi det ikke er en, men en hel rekke bevegelige gjennomsnittsverdier for en gitt serie, kan settet Mas selv bli plottet på grafer, analysert som en serie, og brukes til modellering og prognoser. En rekke modeller kan bygges ved hjelp av bevegelige gjennomsnitt, og disse er kjent som MA-modeller. Hvis slike modeller er kombinert med autoregressive (AR) modeller, er de resulterende komposittmodellene kjent som ARMA - eller ARIMA-modeller (jeg er for integrert). Enkle bevegelige gjennomsnitt Siden en tidsserie kan betraktes som et sett med verdier, kan t 1,2,3,4, n gjennomsnittet av disse verdiene beregnes. Hvis vi antar at n er ganske stor, og vi velger et heltall k som er mye mindre enn n. vi kan beregne et sett med blokk gjennomsnitt eller enkle bevegelige gjennomsnitt (av rekkefølge k): Hvert mål representerer gjennomsnittet av dataverdiene over et intervall av k observasjoner. Merk at den første mulige MA for ordre k gt0 er den for t k. Mer generelt kan vi slippe det ekstra abonnementet i uttrykkene ovenfor og skrive: Dette sier at estimert gjennomsnitt på tidspunktet t er det enkle gjennomsnittet av den observerte verdien ved tid t og de foregående k -1-trinnene. Hvis det legges vekt på som reduserer bidraget til observasjoner som er lengre bort i tiden, sies det glidende gjennomsnittet å være eksponensielt jevnt. Flytende gjennomsnitt blir ofte brukt som en form for prognoser, hvorved estimert verdi for en serie på tiden t 1, S t1. er tatt som MA for perioden til og med tiden t. f. eks dagens estimat er basert på et gjennomsnitt av tidligere registrerte verdier fram til og med gårdager (for daglige data). Enkle bevegelige gjennomsnitt kan ses som en form for utjevning. I eksemplet som er vist nedenfor, er luftforurensningsdatasettet vist i introduksjonen til dette emnet blitt utvidet med en 7-dagers glidende gjennomsnittlig (MA) - linje, vist her i rødt. Som det ser ut, jevner MA-linjen ut toppene og troughene i dataene og kan være svært nyttig når det gjelder å identifisere trender. Standard forward-beregning formel betyr at de første k -1 datapunktene ikke har noen MA-verdi, men deretter utvider beregningene til det endelige datapunktet i serien. PM10 daglige gjennomsnittsverdier, Greenwich kilde: London Air Quality Network, londonair. org. uk En grunn til å beregne enkle bevegelige gjennomsnitt på måten som er beskrevet er at det gjør det mulig å beregne verdier for alle tidsluker fra tid tk frem til i dag, og Som en ny måling er oppnådd for tid t 1, kan MA for tid t 1 legges til settet som allerede er beregnet. Dette gir en enkel prosedyre for dynamiske datasett. Det er imidlertid noen problemer med denne tilnærmingen. Det er rimelig å argumentere for at gjennomsnittsverdien i løpet av de siste 3 periodene skal være plassert ved tidspunktet t -1, ikke tiden t. og for en MA over et jevnt antall perioder, bør det kanskje ligge midt mellom to tidsintervaller. En løsning på dette problemet er å bruke sentrale MA beregninger, der MA på tidspunktet t er gjennomsnittet av et symmetrisk sett med verdier rundt t. Til tross for det åpenbare meritter, er denne tilnærmingen ikke vanligvis brukt fordi det krever at data er tilgjengelig for fremtidige hendelser, noe som kanskje ikke er tilfelle. I tilfeller der analysen er helt av en eksisterende serie, kan bruk av sentrert Mas være å foretrekke. Enkle bevegelige gjennomsnitt kan betraktes som en form for utjevning, fjerne noen høyfrekvente komponenter i en tidsserie og markere (men ikke fjerne) trender på samme måte som det generelle begrepet digital filtrering. Faktisk er glidende gjennomsnitt en form for lineært filter. Det er mulig å bruke en bevegelig gjennomsnittsberegning til en serie som allerede har blitt utjevnet, dvs. utjevning eller filtrering av en allerede glatt serie. For eksempel, med et bevegelige gjennomsnitt på rekkefølge 2, kan vi betrakte det som beregnet ved hjelp av vekter, så MA ved x 2 0,5 x 1 0,5 x 2. På samme måte MA på x 3 0,5 x 2 0,5 x 3. Hvis vi bruk et andre nivå av utjevning eller filtrering, vi har 0,5 x 2 0,5 x 3 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dvs. 2-trinns filtrering prosess (eller convolution) har produsert et variabelt vektet symmetrisk glidende gjennomsnitt, med vekter. Flere konvolutter kan produsere ganske komplekse vektede glidende gjennomsnitt, hvorav noen har blitt funnet å være særlig bruk i spesialiserte felt, som for eksempel i livsforsikringsberegninger. Flytte gjennomsnitt kan brukes til å fjerne periodiske effekter dersom det beregnes med periodikkets lengde som kjent. For eksempel, med månedlige data kan sesongvariasjoner ofte fjernes (hvis dette er målet) ved å bruke et symmetrisk 12-måneders glidende gjennomsnitt med alle månedene vektet like, bortsett fra det første og det siste som veies med 12. Dette skyldes at det vil være 13 måneder i den symmetriske modellen (nåværende tid, t. - 6 måneder). Summen er delt med 12. Lignende prosedyrer kan vedtas for en veldefinert periodicitet. Eksponentielt vektede glidende gjennomsnitt (EWMA) Med den enkle glidende gjennomsnittsformelen: Alle observasjoner er likevektede. Hvis vi kalte disse likevektene, alfa t. hver av k-vekter vil være lik 1 k. så summen av vektene ville være 1, og formelen ville være: Vi har allerede sett at flere applikasjoner av denne prosessen resulterer i at vektene varierer. Med eksponentielt vektede glidende gjennomsnitt blir bidraget til middelverdien fra observasjoner som er fjernet i tid, redusert, og derved legges vekt på nyere (lokale) hendelser. I hovedsak er en utjevningsparameter, 0lt al1l, introdusert, og formelen er revidert til: En symmetrisk versjon av denne formelen vil være av formen: Hvis vektene i den symmetriske modellen er valgt som betingelsene i betingelsene for binomial ekspansjonen, (1212) 2q. de vil summe til 1, og når q blir stor, vil omtrentlig normalfordelingen. Dette er en form for kjernevikting, med binomialet som kjernefunksjon. Den to-trinns konvolusjon som er beskrevet i det foregående avsnitt er nettopp dette arrangementet, med q 1, som gir vekter. Ved eksponensiell utjevning er det nødvendig å bruke et sett med vekter som summerer til 1 og som reduserer størrelsen geometrisk. Vektene som brukes er vanligvis av skjemaet: For å vise at disse vektene summerer til 1, vurder utvidelsen av 1 som en serie. Vi kan skrive og utvide uttrykket i parentes ved hjelp av binomialformelen (1- x) s. hvor x (1-) og p -1, som gir: Dette gir da en form for vektet glidende gjennomsnitt av skjemaet: Denne summeringen kan skrives som en tilbakevendingsrelasjon: som forenkler beregningen sterkt og unngår problemet at vektingsregimet bør strengt være uendelig for vektene til summen til 1 (for små verdier av alfa. dette er vanligvis ikke tilfelle). Notasjonen som brukes av ulike forfattere varierer. Noen bruker bokstaven S for å indikere at formelen er i hovedsak en glatt variabel, og skriv: mens kontrollteori litteraturen ofte bruker Z i stedet for S for eksponentielt vektede eller jevnte verdier (se for eksempel Lucas og Saccucci, 1990, LUC1 , og NIST-nettsiden for flere detaljer og arbeidede eksempler). Formlene som er nevnt ovenfor kommer fra Roberts arbeid (1959, ROB1), men Hunter (1986, HUN1) bruker et uttrykk for formen: som kan være mer hensiktsmessig for bruk i noen kontrollprosedyrer. Med alfa 1 er gjennomsnittlig estimering bare dens målte verdi (eller verdien av forrige datapost). Med 0,5 er estimatet det enkle glidende gjennomsnittet for nåværende og tidligere målinger. I prognosemodellene er verdien S t. brukes ofte som estimat eller prognoseverdi for neste tidsperiode, det vil si som estimatet for x på tidspunktet t 1. Dermed har vi: Dette viser at prognosen på tidspunktet t 1 er en kombinasjon av det forrige eksponentielt veide glidende gjennomsnittet pluss en komponent som representerer den veide prediksjonsfeilen, epsilon. på tidspunktet t. Forutsatt at en tidsserie er gitt og det kreves en prognose, er det nødvendig med en verdi for alfa. Dette kan estimeres fra eksisterende data ved å evaluere summen av kvadrert prediksjon feil oppnådd med varierende verdier av alfa for hver t 2,3. sette det første estimatet til å være den første observerte dataværdien, x 1. I kontrollapplikasjoner er verdien av alfa viktig, da den brukes til å bestemme de øvre og nedre kontrollgrensene, og påvirker den forventede gjennomsnittlige kjølelengde (ARL) før disse kontrollgrensene er brutt (under antagelsen om at tidsseriene representerer et sett av tilfeldige, identisk distribuerte uavhengige variabler med vanlig varians). Under disse forholdene er variansen av kontrollstatistikken: (Lucas og Saccucci, 1990): Kontrollgrenser settes vanligvis som faste multipler av denne asymptotiske variansen, f. eks. - 3 ganger standardavviket. Hvis f. eks. Alpha 0,25 og dataene som overvåkes antas å ha en Normal fordeling, N (0,1), når den er i kontroll, vil kontrollgrensene være - 1,134 og prosessen vil nå en eller annen grense i 500 trinn gjennomsnittlig. Lucas og Saccucci (1990 LUC1) utlede ARLene for et bredt spekter av alfaverdier og under ulike forutsetninger ved bruk av Markov Chain-prosedyrer. De tabulerer resultatene, inkludert å gi ARLer når gjennomsnittet av kontrollprosessen har blitt forskjøvet med noen flere av standardavviket. For eksempel, med en 0,5 skift med alfa 0,25 er ARL mindre enn 50 timers trinn. Tilnærmingene beskrevet ovenfor er kjent som enkelt eksponensiell utjevning. ettersom prosedyrene blir brukt en gang til tidsserien, og deretter utføres analyser eller kontrollprosesser på det resulterende glatte datasettet. Hvis datasettet inneholder en trend og sesongkomponenter, kan to - eller tre-trinns eksponensiell utjevning brukes som et middel til å fjerne (eksplisitt modellering) disse effektene (se videre avsnittet om prognose nedenfor og NIST-arbeidet). CHA1 Chatfield C (1975) Analyse av Times Series: Teori og praksis. Chapman og Hall, London HUN1 Hunter J S (1986) Det eksponentielt vektede glidende gjennomsnittet. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Eksponentielt vektede Flytte Gjennomsnittlige kontrollsystemer: Egenskaper og forbedringer. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolldiagramtester basert på geometriske bevegelige gjennomsnitt. Technometrics, 1, 239-250Introduksjon til ARIMA: nonseasonal modeller ARIMA (p, d, q) prognose ligning: ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres til å være 8220stationary8221 ved differencing (om nødvendig), kanskje i forbindelse med ikke-lineære transformasjoner som logging eller deflatering (om nødvendig). En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstante over tid. En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude, og den svinger på en konsistent måte. det vil si at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjoner (korrelasjoner med sine egne tidligere avvik fra gjennomsnittet) forblir konstante over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid. En tilfeldig variabel i dette skjemaet kan ses som en kombinasjon av signal og støy, og signalet (hvis det er tydelig) kan være et mønster av rask eller langsom, gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i tegn , og det kan også ha en sesongbestemt komponent. En ARIMA-modell kan ses som en 8220filter8221 som forsøker å skille signalet fra støyen, og signalet blir deretter ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær (dvs. regresjonstype) ekvation hvor prediktorene består av lag av de avhengige variable ogor lagene av prognosefeilene. Det er: Forutsigbar verdi for Y en konstant og en vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene kun består av forsinkede verdier av Y. Det er en ren autoregressiv (8220self-regressed8221) modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kunne være utstyrt med standard regresjonsprogramvare. For eksempel er en førsteordens autoregressiv (8220AR (1) 8221) modell for Y en enkel regresjonsmodell der den uavhengige variabelen bare er Y forsinket med en periode (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Hvis noen av prediktorene er lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere 8220last period8217s error8221 som en uavhengig variabel: feilene må beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellen8217s spådommer ikke er lineære funksjoner av koeffisientene. selv om de er lineære funksjoner av tidligere data. Så koeffisienter i ARIMA-modeller som inkluderer forsinkede feil må estimeres ved ikke-lineære optimaliseringsmetoder (8220hill-klatring8221) i stedet for bare å løse et system av ligninger. Akronymet ARIMA står for Auto-Regressive Integrated Moving Average. Lags av den stasjonære serien i prognosekvotasjonen kalles kvotoregressivequot vilkår, lags av prognosefeilene kalles quotmoving averagequot vilkår, og en tidsserie som må differensieres for å bli stillestående, sies å være en quotintegratedquot-versjon av en stasjonær serie. Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En nonseasonal ARIMA-modell er klassifisert som en quotARIMA (p, d, q) kvotemodell hvor: p er antall autoregressive termer, d er antall ikke-sekundære forskjeller som trengs for stasjonar, og q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger. Først, la y angi den forskjellen på Y. Det betyr: Merk at den andre forskjellen på Y (d2-saken) ikke er forskjellen fra 2 perioder siden. Snarere er det den første forskjellen-av-første forskjellen. som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for sin lokale trend. Når det gjelder y. Den generelle prognosekvasjonen er: Her er de bevegelige gjennomsnittsparametrene (9528217s) definert slik at deres tegn er negative i ligningen, etter konvensjonen innført av Box og Jenkins. Noen forfattere og programvare (inkludert R programmeringsspråket) definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er koblet til ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren bruker når du leser utgangen. Ofte er parametrene benevnt der av AR (1), AR (2), 8230 og MA (1), MA (2), 8230 etc. For å identifisere den aktuelle ARIMA modellen for Y. begynner du ved å bestemme differensordren (d) trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessighet, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating. Hvis du stopper på dette punktet og forutser at den forskjellige serien er konstant, har du bare montert en tilfeldig tur eller tilfeldig trendmodell. Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen antall AR-termer (p 8805 1) og eller noen nummer MA-termer (q 8805 1) også er nødvendig i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt av notatene (hvis koblinger er øverst på denne siden), men en forhåndsvisning av noen av typene av nonseasonal ARIMA-modeller som ofte oppstår, er gitt nedenfor. ARIMA (1,0,0) førstegangs autoregressiv modell: Hvis serien er stasjonær og autokorrelert, kan den kanskje forutsies som et flertall av sin egen tidligere verdi, pluss en konstant. Forutsigelsesligningen i dette tilfellet er 8230 som er Y regressert i seg selv forsinket med en periode. Dette er en 8220ARIMA (1,0,0) constant8221 modell. Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis hellingskoeffisienten 981 1 er positiv og mindre enn 1 i størrelsesorden (den må være mindre enn 1 i størrelsesorden dersom Y er stasjonær), beskriver modellen gjennomsnittsreferanseadferd hvor neste periode8217s verdi skal anslås å være 981 1 ganger som langt unna gjennomsnittet som denne perioden8217s verdi. Hvis 981 1 er negativ, forutser det middelreferanseadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet denne perioden. I en andre-ordregivende autoregressiv modell (ARIMA (2,0,0)), ville det være et Y t-2 begrep til høyre også, og så videre. Avhengig av tegnene og størrelsene på koeffisientene, kunne en ARIMA (2,0,0) modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelse av en masse på en fjær som er utsatt for tilfeldige støt . ARIMA (0,1,0) tilfeldig tur: Hvis serien Y ikke er stasjonær, er den enkleste modellen for den en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR (1) modell der autoregressive koeffisienten er lik 1, det vil si en serie med uendelig sakte gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som: hvor den konstante sikt er den gjennomsnittlige period-til-periode-endringen (dvs. den langsiktige driften) i Y. Denne modellen kan monteres som en ikke-avskjæringsregresjonsmodell der Første forskjell på Y er den avhengige variabelen. Siden den inneholder (bare) en ikke-sesongforskjell og en konstant periode, er den klassifisert som en quotARIMA (0,1,0) modell med constant. quot. Den tilfeldige tur-uten-drift modellen ville være en ARIMA (0,1, 0) modell uten konstant ARIMA (1,1,0) forskjellig førsteordens autoregressiv modell: Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligningen - - dvs ved å regresse den første forskjellen på Y i seg selv forsinket med en periode. Dette vil gi følgende prediksjonsligning: som kan omarrangeres til Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) uten konstant enkel eksponensiell utjevning: En annen strategi for korrigering av autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier (for eksempel de som viser støyende svingninger rundt et sakte varierende gjennomsnitt), utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnittsverdier av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon, er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig anslå det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for den enkle eksponensielle utjevningsmodellen kan skrives i en rekke matematisk ekvivalente former. hvorav den ene er den såkalte 8220error correction8221 skjemaet, der den forrige prognosen er justert i retning av feilen den gjorde: Fordi e t-1 Y t-1 - 374 t-1 per definisjon kan dette omskrives som : som er en ARIMA (0,1,1) - out-konstant prognosekvasjon med 952 1 1 - 945. Dette betyr at du kan passe en enkel eksponensiell utjevning ved å angi den som en ARIMA (0,1,1) modell uten konstant, og den estimerte MA (1) - koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1-periode fremover prognosene 1 945. Det betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca 1 945 perioder. Det følger at gjennomsnittlig alder av dataene i 1-periode fremover prognosene for en ARIMA (0,1,1) uten konstant modell er 1 (1 - 952 1). For eksempel, hvis 952 1 0,8 er gjennomsnittsalderen 5. Når 952 1 nærmer seg 1, blir ARIMA (0,1,1) uten konstant modell et veldig langsiktig glidende gjennomsnitt og som 952 1 nærmer seg 0 blir det en tilfeldig tur uten drivmodell. What8217s den beste måten å korrigere for autokorrelasjon: legge til AR-vilkår eller legge til MA-vilkår I de to foregående modellene ble problemet med autokorrelerte feil i en tilfeldig turmodell løst på to forskjellige måter: ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av prognosen feil. Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best ved å legge til en MA term. I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. (Generelt reduserer differensiering positiv autokorrelasjon og kan til og med føre til en bryter fra positiv til negativ autokorrelasjon.) Så, ARIMA (0,1,1) modellen, der differensiering er ledsaget av en MA-term, brukes hyppigere enn en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel eksponensiell utjevning med vekst: Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk en viss fleksibilitet. Først og fremst er estimert MA (1) - koeffisient tillatt å være negativ. Dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren. For det andre har du muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA-modellen (0,1,1) med konstant har prediksjonsligningen: Forventningene for en periode fremover fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene vanligvis er en skrånende linje (hvis skråning er lik mu) i stedet for en horisontal linje. ARIMA (0,2,1) eller (0,2,2) uten konstant lineær eksponensiell utjevning: Linjære eksponentielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-soneforskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket av to perioder, men det er den første forskjellen i den første forskjellen - dvs. Y-endringen i Y i periode t. Således er den andre forskjellen på Y ved periode t lik (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En annen forskjell på en diskret funksjon er analog med et andre derivat av en kontinuerlig funksjon: det måler kvoteringsberegningsquot eller quotcurvaturequot i funksjonen på et gitt tidspunkt. ARIMA-modellen (0,2,2) uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av de to siste prognosefeilene: som kan omarrangeres som: hvor 952 1 og 952 2 er MA (1) og MA (2) koeffisienter. Dette er en generell lineær eksponensiell utjevningsmodell. i hovedsak det samme som Holt8217s modell, og Brown8217s modell er et spesielt tilfelle. Den bruker eksponensielt vektede glidende gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA (1,1,2) uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modellene. Den ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisonter for å introdusere et konservatismedokument, en praksis som har empirisk støtte. Se artikkelen om hvorfor Damped Trend worksquot av Gardner og McKenzie og quotgolden Rulequot-artikkelen av Armstrong et al. for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q ikke er større enn 1, dvs. ikke prøv å passe på en modell som ARIMA (2,1,2), da dette sannsynligvis vil føre til overfitting og kvadrat-faktorquot problemer som er omtalt nærmere i notatene om den matematiske strukturen til ARIMA-modellene. Implementering av regneark: ARIMA-modeller som de som er beskrevet ovenfor, er enkle å implementere på et regneark. Forutsigelsesligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B, og feilene (data minus prognoser) i kolonne C. Forutsigelsesformelen i en typisk celle i kolonne B ville ganske enkelt være et lineært uttrykk som refererer til verdier i de foregående radene av kolonne A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Stata: Dataanalyse og statistisk programvare Nicholas J. Cox, Durham University, Storbritannia Christopher Baum, Boston College egen, ma () og dens begrensninger Statarsquos mest åpenbare kommando for å beregne glidende gjennomsnitt er ma () funksjonen til egen. Gitt et uttrykk, skaper det et periode-glidende gjennomsnitt av det uttrykket. Som standard er tatt som 3. må være merkelig. Men som den manuelle oppføringen indikerer, kan egen, ma () kanskje ikke kombineres med av varlist:. og av den grunn alene, det er ikke aktuelt for paneldata. I alle fall står den utenfor settet med kommandoer som er spesifikt skrevet for tidsserier, se tidsserier for detaljer. Alternative tilnærminger For å beregne bevegelige gjennomsnitt for paneldata er det minst to valg. Begge avhenger av at datasettet har vært forhåndssettet. Dette er veldig verdt å gjøre: Ikke bare kan du spare deg selv gjentatte ganger med å angi panelvariabel og tidsvariabel, men Stata oppfører seg smart gitt gaps i dataene. 1. Skriv din egen definisjon ved å bruke generering Bruke tidsserier operatører som L. og F.. Gi definisjonen av det bevegelige gjennomsnittet som argumentet til en generasjonserklæring. Hvis du gjør dette, er du selvsagt ikke begrenset til likevektede (uveide) sentrert glidende gjennomsnitt beregnet av egen ma (). For eksempel vil likeveide tre-glidende gjennomsnitt bli gitt av og noen vekt kan enkelt angis: Du kan selvsagt spesifisere et uttrykk som logg (myvar) i stedet for et variabelt navn som myvar. En stor fordel ved denne tilnærmingen er at Stata automatisk gjør det riktige for paneldata: ledende og lagre verdier utarbeides i paneler, akkurat som logikken dikterer de burde være. Den mest bemerkelsesverdige ulempen er at kommandolinjen kan bli ganske lang hvis det bevegelige gjennomsnittet innebærer flere termer. Et annet eksempel er et ensidig glidende gjennomsnitt basert bare på tidligere verdier. Dette kan være nyttig for å generere en adaptiv forventning om hva en variabel vil være basert på på hidtidig informasjon: hva kan noen prognose for den nåværende perioden basert på de siste fire verdiene, ved hjelp av en fast vekting ordning (en 4-periode forsinkelse kan være spesielt brukt i kvartalsvisserier.) 2. Bruk egen, filter () fra SSC Bruk det brukerskrevne egenfunksjonsfilteret () fra egenmore-pakken på SSC. I Stata 7 (oppdatert etter 14. november 2001), kan du installere denne pakken, hvorefter hjelpemore peker på detaljer på filteret (). De to eksemplene ovenfor ville bli gjengitt (I denne sammenhengen er generasjonsmetoden kanskje mer gjennomsiktig, men vi vil se et eksempel på det motsatte i et øyeblikk.) Lags er en numlist. fører til å være negativ lags: i dette tilfellet utvider -11 til -1 0 1 eller led 1, lag 0, lag 1. Koef-ficientene, en annen numlist, multipliserer tilsvarende lags eller ledende elementer: i dette tilfellet er disse elementene F1.myvar . myvar og L1.myvar. Effekten av normaliseringsalternativet er å skalere hver koeffisient med summen av koeffisientene slik at koeffisienten (1 1 1) normaliserer er ekvivalent med koeffisientene 13 13 13 og coef (1 2 1) normaliserer tilsvarer koeffisienter på 14 12 14 Du må spesifisere ikke bare lagene, men også koeffisientene. Fordi egen, ma () gir like vektet tilfelle, er hovedgrunnlaget for egen, filter () å støtte det ulikt vektede tilfellet, som du må spesifisere koeffisienter for. Det kan også sies at å forplikte brukerne til å spesifisere koeffisienter er et lite ekstra trykk på dem for å tenke på hvilke koeffisienter de vil ha. Hovedgrunnlaget for likevekter er, vi antar, enkelhet, men likevekt har elendige frekvensdomene egenskaper, for å nevne bare en vurdering. Det tredje eksemplet ovenfor kan enten være omtrent like komplisert som genereringsmetoden. Det er tilfeller der eget, filter () gir en enklere formulering enn å generere. Hvis du vil ha et ni-termisk binomialfilter, som klimatologene finner nyttige, ser det ut som om det er mindre fryktelig enn, og lettere å få riktig enn, akkurat som med genereringsmetoden, fungerer egen, filter () riktig med paneldata. Faktisk, som angitt ovenfor, avhenger det av at datasettet har blitt tsset på forhånd. Et grafisk tips Når du har beregnet dine bevegelige gjennomsnitt, vil du sannsynligvis se på en graf. Den brukerskrevne kommandoen tsgraph er smart om tsset datasett. Installer den i en oppdatert Stata 7 av ssc inst tsgraph. Hva med å skille med hvis Ingen av de ovennevnte eksemplene benytter seg av restriksjoner. Faktisk egen, ma () vil ikke tillate om å bli spesifisert. Noen ganger vil folk bruke hvis når man beregner glidende gjennomsnitt, men bruken er litt mer komplisert enn det vanligvis er. Hva ville du forvente av et glidende gjennomsnitt beregnet med hvis. La oss identifisere to muligheter: Svak tolkning: Jeg vil ikke se noen resultater for de ekskluderte observasjonene. Sterk tolkning: Jeg vil ikke engang at du skal bruke verdiene for de ekskluderte observasjonene. Her er et konkret eksempel. Anta som en konsekvens av noen om tilstand, observasjoner 1-42 er inkludert, men ikke observasjoner 43 på. Men det bevegelige gjennomsnittet for 42 vil blant annet avhenge av verdien for observasjon 43 dersom gjennomsnittet strekker seg bakover og fremover og har en lengde på minst 3, og det vil på samme måte avhenge av noen av observasjonene 44 og videre under noen omstendigheter. Vårt gjetning er at de fleste ville gå for den svake tolkningen, men om det er riktig, støtter filter () ikke heller. Du kan alltid ignorere hva du donrsquot vil ha eller til og med sette uønskede verdier til å mangle etterpå ved å bruke erstatte. Et notat om manglende resultater i ender av serier Fordi glidende gjennomsnitt er funksjoner av lags og leads, produserer egen, ma () mangler hvor lags og ledninger ikke eksisterer, i begynnelsen og slutten av serien. Et alternativ nomiss styrker beregningen av kortere, ukjente glidende gjennomsnitt for haler. I motsetning, genererer heller ikke eget, filter () gjør, eller tillater, noe spesielt for å unngå å savne resultater. Hvis noen av verdiene som trengs for beregning mangler, mangler det resultatet. Det er opp til brukerne å avgjøre om og hvilken korrigerende kirurgi som kreves for slike observasjoner, antagelig etter å ha sett på datasettet og tatt i betraktning enhver underliggende vitenskap som kan bli båret.

No comments:

Post a Comment