Thursday, January 19, 2017

Arima Vs Gleitender Durchschnitt

ARMA und ARIMA (Box-Jenkins) Modelle ARMA und ARIMA (Box-Jenkins) In den vorangegangenen Abschnitten haben wir gesehen, wie der Wert einer univariaten Zeitreihe zum Zeitpunkt t. X t. Kann mit einer Vielzahl von gleitenden Durchschnittsausdrücken modelliert werden. Wir haben auch gezeigt, dass Komponenten wie Trends und Periodizität in der Zeitreihe explizit modelliert und / oder getrennt werden können, wobei die Daten in Trend-, Saison - und Restkomponenten zerlegt werden. Wir haben auch gezeigt, in den früheren Diskussionen über Autokorrelation. Dass die vollständigen und partiellen Autokorrelationskoeffizienten äußerst nützlich sind, um Muster in Zeitreihen zu identifizieren und zu modellieren. Diese beiden Aspekte der Zeitreihenanalyse und Modellierung können in einem allgemeineren und oftmals sehr effektiven Gesamtmodellierungsrahmen kombiniert werden. In seiner Grundform wird dieser Ansatz als ARMA-Modellierung bezeichnet (autoregressiver gleitender Durchschnitt) oder wenn die Differenzierung in die Prozedur, die ARIMA - oder die Box-Jenkins-Modellierung, nach den beiden Autoren, die für ihre Entwicklung von zentraler Bedeutung waren, enthalten ist (siehe Box amp Jenkins, 1968) BOX1 und Box, Jenkins amp Reinsel, 1994 BOX2). Es gibt keine feste Regel bezüglich der Anzahl von Zeitperioden, die für eine erfolgreiche Modellierungsübung erforderlich sind, aber für komplexere Modelle und für ein größeres Vertrauen in Pass - und Validierungsverfahren werden häufig Reihen mit 50 Zeitschritten empfohlen. ARMA-Modelle kombinieren Autokorrelationsverfahren (AR) und gleitende Mittelwerte (MA) zu einem zusammengesetzten Modell der Zeitreihe. Bevor wir untersuchen, wie diese Modelle kombiniert werden können, untersuchen wir jeweils einzeln. Wir haben bereits gesehen, dass gleitende Durchschnittsmodelle (MA) verwendet werden können, um eine gute Anpassung an einige Datensätze bereitzustellen, und Variationen dieser Modelle, die eine doppelte oder dreifache exponentielle Glättung beinhalten, können Trend und periodische Komponenten in den Daten behandeln. Darüber hinaus können solche Modelle verwendet werden, um Prognosen zu erstellen, die das Verhalten früherer Perioden nachahmen. Eine einfache Form solcher Modelle, die auf früheren Daten basiert, kann folgendermaßen geschrieben werden: Wo die Betai-Terme die auf vorherige Werte in der Zeitreihe angewendeten Gewichte sind, ist es üblich, Betai & sub1; ohne Verlust der Allgemeinheit zu definieren. Somit gilt für ein Verfahren erster Ordnung q 1 und wir haben das Modell: d. h. der gleitende Mittelwert wird als ein gewichteter Mittelwert der aktuellen und unmittelbaren Vergangenheitswerte geschätzt. Dieses Mittelungsverfahren ist in gewissem Sinne ein pragmatischer Glättungsmechanismus ohne direkte Verbindung zu einem statistischen Modell. Jedoch können wir ein statistisches (oder stochastisches) Modell angeben, das die Prozeduren der gleitenden Mittelwerte in Verbindung mit zufälligen Prozessen umfasst. Wenn wir eine Menge von unabhängigen und identisch verteilten Zufallsvariablen (ein Zufallsprozeß) mit Nullmittelwert und bekannter fester Varianz zulassen, dann können wir den Prozeß als einen gleitenden Durchschnitt der Ordnung q in folgenden Worten beschreiben: klar den Erwartungswert von xt unter Dieses Modell ist 0, also ist das Modell nur gültig, wenn das xt bereits auf einen Nullmittelwert eingestellt wurde oder wenn eine feste Konstante (der Mittelwert von xt) zur Summe addiert wird. Es ist auch offensichtlich, dass die Varianz von xt einfach ist: Die obige Analyse kann erweitert werden, um die Kovarianz cov (x t xtk) auszuwerten, die Ausbeuten ergibt: Beachten Sie, dass weder der Mittelwert noch die Kovarianz (oder Autokovarianz) Bei der Verzögerung k ist eine Funktion der Zeit t. So dass der Prozess ist zweiter Ordnung stationär. Der obige Ausdruck ermöglicht es, einen Ausdruck für die Autokorrelationsfunktion (acf) zu erhalten: Wenn k 0 rho k 1 und für k gt q rho k 0. Ferner ist die acf symmetrisch und rho k rho - k. Die ACF kann für ein erstes MA-Verfahren berechnet werden: Die autoregressive oder AR-Komponente eines ARMA-Modells kann in der Form geschrieben werden: wobei die Terme in Autokorrelationskoeffizienten an den Lags 1,2 sind. P und zt ein Restfehlerterm ist. Es sei angemerkt, dass dieser Fehlerausdruck speziell die aktuelle Zeitperiode t betrifft. Also gilt für ein Verfahren erster Ordnung p 1 und wir haben das Modell: Diese Ausdrücke geben an, dass der geschätzte Wert von x zum Zeitpunkt t durch den unmittelbar vorhergehenden Wert von x (dh zum Zeitpunkt t -1) multipliziert mit einem Maß, alpha, bestimmt wird . Des Ausmaßes, in dem die Werte für alle Wertepaare zu Zeitperioden voneinander abweichen, korreliert (d. h. ihre Autokorrelation) plus einem Restfehlerterm, z. Zum Zeitpunkt t. Aber das ist genau die Definition eines Markov-Prozesses. So ist ein Markov-Prozess ein autoregressiver Prozess erster Ordnung. Wenn alpha & sub1; das Modell besagt, daß der nächste Wert von x einfach der vorhergehende Wert plus ein zufälliger Fehlerterm ist und daher ein einfacher 1D-Zufallsweg ist. Wenn mehr Ausdrücke enthalten sind, schätzt das Modell den Wert von x zum Zeitpunkt t durch eine gewichtete Summe dieser Ausdrücke zuzüglich einer Zufallsfehlerkomponente. Wenn wir den zweiten Ausdruck oben in den ersten Satz setzen, haben wir: und wiederholte Anwendung dieser Substitution ergibt sich: Wenn nun alpha lt1 und k groß sind, kann dieser Ausdruck in umgekehrter Reihenfolge mit abnehmenden Ausdrücken und mit Beitrag aus dem Ausdruck geschrieben werden In x auf der rechten Seite des Ausdrucks verschwindend klein, so haben wir: Da die rechte Seite dieses Ausdrucks xt als Summe eines gewichteten Satzes von vorherigen Werten, hier zufälligen Fehlertermen, klar ist, Dieses AR-Modell ist in der Tat eine Form des MA-Modells. Und wenn wir annehmen, daß die Fehlerterme null mittlere und konstante Varianz haben, so haben wir, wie im MA-Modell, den Erwartungswert des Modells auch als 0, wobei angenommen wird, daß die xt so eingestellt sind, daß sie einen Nullmittelwert mit Varianz liefern Wenn diese Summe endlich ist und einfach 1 (1 - alpha) ist, so haben wir: Wie bei dem obengenannten MA-Modell kann diese Analyse erweitert werden, um die Kovarianz cov (xt · xk) einer ersten zu bewerten (A-1), so haben wir: Dies zeigt, dass bei einem autoregressiven Modell erster Ordnung die Autokorrelationsfunktion (acf) einfach definiert ist Durch sukzessive Befugnisse der Autokorrelation erster Ordnung, mit der Bedingung alpha lt1. Für alpha gt0 ist dies einfach eine rasch abnehmende oder exponentialartige Kurve, die gegen Null strebt oder für lt0 eine dämpfende Oszillationskurve, die wiederum gegen Null geht. Wenn angenommen wird, dass die Zeitreihe stationär ist, kann die obige Analyse auf Autokorrelationen zweiter und höherer Ordnung erweitert werden. Um ein AR-Modell einem beobachteten Datensatz anzupassen, versuchen wir, die Summe der quadratischen Fehler (eine kleinste Quadrate-Anpassung) unter Verwendung der kleinsten Anzahl von Ausdrücken zu minimieren, die eine zufriedenstellende Anpassung an die Daten liefern. Modelle dieser Art werden als autoregressiv beschrieben. Und können sowohl auf Zeitreihen als auch auf räumliche Datensätze angewendet werden (siehe weiter, räumliche Autoregressionsmodelle). Obwohl in der Theorie ein autoregressives Modell eine gute Anpassung an einen beobachteten Datensatz bereitstellen könnte, würde es im allgemeinen eine vorherige Entfernung von Trend - und periodischen Komponenten erfordern und selbst dann eine große Anzahl von Ausdrücken benötigen, um eine gute Anpassung an die Daten zu gewährleisten. Durch die Kombination der AR-Modelle mit MA-Modellen können wir jedoch eine Familie von gemischten Modellen herstellen, die in einer Vielzahl von Situationen eingesetzt werden können. Diese Modelle sind als ARMA - und ARIMA-Modelle bekannt und werden in den folgenden Unterabschnitten beschrieben. In den beiden vorangegangenen Abschnitten haben wir den MA-Modus q: und das AR-Modell der Ordnung p eingeführt: Wir können diese beiden Modelle kombinieren, indem wir sie einfach als Modell der Ordnung (p. Q) zusammenfassen, wobei wir p AR-Terme haben Und q MA-Ausdrücke: Im Allgemeinen kann diese Form des kombinierten ARMA-Modells verwendet werden, um eine Zeitreihe mit weniger Ausdrücken insgesamt als ein MA - oder ein AR-Modell selbst zu modellieren. Sie drückt den Schätzwert zum Zeitpunkt t als Summe von q Gliedern aus, die die mittlere Veränderung der Zufallsvariation über q Vorperioden (die MA-Komponente) plus die Summe von p AR-Terme darstellen, die den aktuellen Wert von x als die gewichtete Summe berechnen Der p letzten Werte. Diese Form des Modells geht jedoch davon aus, dass die Zeitreihe stationär ist, was selten der Fall ist. In der Praxis gibt es Trends und Periodizität in vielen Datensätzen, so dass es notwendig ist, diese Effekte zu entfernen, bevor solche Modelle. Die Entfernung wird typischerweise durchgeführt, indem in das Modell eine anfängliche Differenzierungsstufe, typischerweise einmal, zweimal oder dreimal, aufgenommen wird, bis die Reihe zumindest annähernd stationär ist und keine offensichtlichen Trends oder Periodizitäten aufweist. Wie bei den MA - und AR-Prozessen wird der Differenzierungsprozeß durch die Reihenfolge der Differenzierung, z. B. 1, 2, 3, beschrieben. Zusammengenommen bilden diese drei Elemente ein Tripel: (S. d. Q), das die Art des angewandten Modells definiert. In dieser Form wird das Modell als ARIMA-Modell beschrieben. Der Buchstabe I in ARIMA bezieht sich auf die Tatsache, dass der Datensatz anfangs differenziert wurde (siehe Differenzierung), und wenn die Modellierung abgeschlossen ist, müssen die Ergebnisse dann summiert oder integriert werden, um die endgültigen Schätzungen und Prognosen zu erstellen. Die ARIMA-Modellierung wird nachfolgend diskutiert. Wie im vorigen Unterabschnitt erwähnt, bietet das Kombinieren der Differenzierung einer nichtstationären Zeitreihe mit dem ARMA-Modell eine starke Modellfamilie, die in einer Vielzahl von Situationen angewendet werden kann. Die Entwicklung dieser erweiterten Modellform ist vor allem auf die G E P Box und G M Jenkins zurückzuführen, so dass ARIMA-Modelle auch als Box-Jenkins-Modelle bekannt sind. Der erste Schritt des Box-Jenkins-Verfahrens besteht darin, die Zeitreihe bis zum Stillstand zu differenzieren, so dass Trend - und Saisonkomponenten entfernt werden. In vielen Fällen reicht eine ein - oder zweistufige Differenzierung aus. Die differenzierten Reihen sind kürzer als die Quellenreihe durch c Zeitschritte, wobei c der Bereich der Differenzierung ist. Anschließend wird ein ARMA-Modell an die resultierende Zeitreihe angepasst. Da ARIMA Modelle drei Parameter haben, gibt es viele Varianten zu den möglichen Modellen, die montiert werden könnten. Allerdings kann die Entscheidung darüber, was diese Parameter sein sollen, durch eine Reihe von Grundprinzipien geleitet werden: (i) Das Modell sollte so einfach wie möglich sein, dh möglichst wenige Begriffe enthalten, was wiederum die Werte von p und q bedeutet Sollte klein sein (ii) die Anpassung an historische Daten sollte so gut wie möglich sein, dh die Größe der quadrierten Differenzen zwischen dem geschätzten Wert in einem vergangenen Zeitraum und dem tatsächlichen Wert sollte minimiert werden (Prinzip der kleinsten Quadrate) - die Residuen Aus dem ausgewählten Modell können dann untersucht werden, um festzustellen, ob die verbleibenden Residuen signifikant von 0 verschieden sind (siehe weiter unten) (iii) die gemessene partielle Autokorrelation bei den Lags 1,2,3. Sollte eine Angabe der Reihenfolge der AR-Komponente geben, dh der für q (iv) gewählte Wert der Form der Autokorrelationsfunktion (acf) kann den Typ des erforderlichen ARIMA-Modells vorschlagen Interpretation der Form der acf in Bezug auf die Modellauswahl. ARIMA Modelltyp Auswahl mit acf Form Serie ist nicht stationär. Standard-ARIMA-Modelle werden oft durch das Dreifache beschrieben: (S. d. Q) wie oben erwähnt. Diese definieren die Struktur des Modells in der Reihenfolge der AR, Differenzierung und MA-Modelle verwendet werden. Es ist auch möglich, ähnliche Parameter für die Saisonalität in die Daten aufzunehmen, obwohl solche Modelle komplexer zu passen und zu interpretieren sind. Der Kuttel (P. D. Q) wird im allgemeinen verwendet, um solche Modellkomponenten zu identifizieren. In dem unten dargestellten Screenshot von SPSS wird der Dialog zur manuellen Auswahl von nicht saisonalen und saisonalen Strukturelementen angezeigt (ähnliche Einrichtungen sind in anderen integrierten Paketen wie SASETS verfügbar). Wie zu sehen ist, ermöglicht es der Dialog auch, die Daten zu transformieren (typischerweise zur Unterstützung der Varianzstabilisierung) und um den Benutzern zu ermöglichen, eine Konstante in dem Modell (die Voreinstellung) aufzunehmen. Dieses spezielle Software-Tool ermöglicht es, daß Ausreißer bei Bedarf detektiert werden können, gemß einer Reihe von Erfassungsverfahren, aber in vielen Fällen werden Ausreißer untersucht und eingestellt oder entfernt und ersetzte Werte, die geschätzt werden, vor einer solchen Analyse. SPSS Time Series Modellierer: ARIMA-Modellierung, Expertenmodus Eine Anzahl von ARIMA-Modellen kann manuell oder über einen automatisierten Prozess (zB ein schrittweises Verfahren) an die Daten angepasst werden Fit und sparsam. Der Modellvergleich verwendet typischerweise eine oder mehrere der oben in diesem Handbuch beschriebenen informationstheoretischen Maßnahmen - AIC, BIC andor MDL (die R-Funktion, arima (), stellt die AIC-Messung bereit, während SPSS eine Reihe von Anpassungsmaßnahmen bereitstellt Version der BIC-Statistik andere Werkzeuge variieren in den Maßnahmen - Minitab, die eine Reihe von TSA-Methoden, nicht enthalten AICBIC-Statistiken). In der Praxis kann eine breite Palette von Maßnahmen (außer den kleinsten quadratischen Maßnahmen) zur Bewertung der Modellqualität verwendet werden. Beispielsweise können der mittlere absolute Fehler und der maximale absolute Fehler sinnvoll sein, Eine Reihe von Softwarepaketen kann auch eine Gesamtmessung der Autokorrelation vorsehen, die in den Resten nach der Anpassung des Modells verbleiben kann. Eine häufig angewandte Statistik ist auf Ljung und Box (1978 LJU1) zurückzuführen Von der Form ist: wobei n die Anzahl der Abtastwerte (Datenwerte), ri die Stichprobenautokorrelation bei der Verzögerung i und k die Gesamtzahl der Verzögerungen ist, über die die Berechnung durchgeführt wird, Q k annähernd als ein Chi verteilt ist - Quadratverteilung mit k - m Freiheitsgraden, wobei m die Anzahl der Parameter ist, die beim Anpassen des Modells verwendet werden, mit Ausnahme aller konstanten Term - oder Prädiktorvariablen (dh einschließlich der pd q - Tripel) Die Residuen nach dem Anbringen des Modells noch signifikante Autokorrelation aufweisen, was darauf hindeutet, dass ein verbessertes Modell gesucht werden sollte. Beispiel: Modellierung des Wachstums von Fluggastzahlen Im Folgenden finden Sie ein Beispiel für die automatisierte Anpassung von SPSS an die in diesem Handbuch vorgestellten Box-Jenkins-Reinsel-Testdaten der Fluggastzahlen REI1. Anfangs war keine Spezifikation der Termine, die Monate innerhalb von Jahren angegeben wurden. Das Modell, das durch den automatisierten Prozess ausgewählt wurde, war ein ARIMA Modell (0,1,12), dh der Prozess identifizierte korrekt, dass die Serie eine Ebene der Differenzierung benötigte und ein gleitendes Durchschnittsmodell mit einer Periodizität von 12 und keine Autokorrelationskomponente anpaßte Daten. Das Modell passte einen R 2 - Wert von 0,966, der sehr hoch ist, und einen maximalen absoluten Fehler (MAE) von 75. Die visuelle Anpassung des Modells an die Daten sieht hervorragend aus, aber die graphische Darstellung der restlichen Autokorrelation nach dem Einbau und Ljung - Box-Test zeigt, dass signifikante Autokorrelation bleibt, was darauf hinweist, dass ein verbessertes Modell möglich ist. Automatisierte ARIMA - Anpassung an International Airline Passagiere: Monatliche Gesamtsumme, 1949-1960 Um dies zu untersuchen, wurde ein überarbeitetes Modell auf Basis der Diskussion dieses Datensatzes von Box und Jenkins (1968) und der aktualisierten Ausgabe von Chatfields (1975 CHA1) Die er Minitab verwendet, um seine Analyse zu illustrieren (6. Auflage, 2003). Die Zeitreihe wurde mit einer Periodizität von 12 Monaten und einem ARIMA-Modell mit Komponenten (0,1,1), (0,1,1) definiert. Graphisch sind die Ergebnisse sehr ähnlich dem obigen Diagramm, aber bei diesem Modell ist das R-Quadrat 0,991, die MAE41 und die Ljung-Box-Statistik ist nicht mehr signifikant (12,6, mit 16 Freiheitsgraden). Das Modell ist somit eine Verbesserung gegenüber der ursprünglichen (automatisch generierten) Version, die aus einer nicht saisonalen MA und einer saisonalen MA-Komponente, einer autoregressiven Komponente und einer Differenzierungsstufe für saisonale und nicht saisonale Strukturen besteht. Ob Armatur manuell oder automatisiert, ein ARIMA Modell kann ein gutes Rahmenwerk für die Modellierung einer Zeitreihe liefern, oder es kann sein, dass alternative Modelle oder Ansätze ein zufriedenstellenderes Ergebnis liefern. Oft ist es schwierig, im Voraus zu wissen, wie gut jedes gegebene Prognosemodell sein wird, da es nur im Licht seiner Fähigkeit ist, zukünftige Werte der Datenreihe vorherzusagen, dass es wirklich beurteilt werden kann. Oft wird dieser Prozeß durch Anpassen des Modells an vergangene Daten mit Ausnahme der letzten Zeitperioden (auch als Holdout-Abtastwerte bezeichnet) angenähert, und dann unter Verwendung des Modells, um diese bekannten zukünftigen Ereignisse vorherzusagen, aber auch dies bietet nur ein begrenztes Vertrauen in seine zukünftige Gültigkeit. Längerfristige Prognosen können mit solchen Methoden äußerst unzuverlässig sein. Das oben beschriebene internationale Luftverkehrsstatistikmodell ist nicht in der Lage, die Passagierzahlen bis in die Neunzigerjahre und darüber hinaus korrekt vorherzusagen, noch den 5-Jahres-Rückgang der US-amerikanischen Passagierzahlen nach 9112001. Ebenso kann ein ARIMA-Modell an historische Werte angepasst werden Der Börsenkurse oder Indexwerte (zB die NYSE - oder FTSE-Indizes) und wird typischerweise eine hervorragende Anpassung an die Daten liefern (was einen R-Quadrat-Wert von besser als 0,99 ergibt), sind aber oft nur wenig von Nutzen für die Prognose zukünftiger Werte dieser Preise Oder Indizes. Typischerweise werden ARIMA-Modelle zur Prognose eingesetzt, insbesondere im Bereich der makro - und mikroökonomischen Modellierung. Sie können jedoch in einem breiten Spektrum von Disziplinen angewendet werden, entweder in der hier beschriebenen Form oder mit zusätzlichen Vorhersagevariablen, von denen angenommen wird, dass sie die Zuverlässigkeit der Prognosen verbessern. Letztere sind wichtig, weil die gesamte Struktur der oben diskutierten ARMA-Modelle von vorherigen Werten und unabhängigen Zufallsereignissen über die Zeit abhängt, nicht von erklärenden oder ursächlichen Faktoren. Daher werden ARIMA-Modelle nur die bisherigen Muster reflektieren und erweitern, die in Prognosen durch Faktoren wie das makroökonomische Umfeld, Technologieverschiebungen oder längerfristige Ressourcen und Umweltveränderungen modifiziert werden müssen. BOX1 Kasten G E P, Jenkins G M (1968). Einige jüngste Fortschritte in der Prognose und Kontrolle. (1994) Zeitreihenanalyse, - prognose und - steuerung. Zeitschrift für anorganische und allgemeine Chemie. 3. Aufl. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) Die Analyse der Zeitreihen: Theorie und Praxis. Chapman und Hall, London (siehe auch, 6. Aufl. 2003) LJU1 Ljung G M, Box G E P (1978) Über einen Maßstab für einen Mangel an Fit in Time Series Models. Biometrika, 65, 297303 NISTSEMATECH e-Handbuch der statistischen Methoden, itl. nist. govdiv898handbook Abschnitt 6.4: Einführung in die Zeitreihen. 2010 SPSSPASW 17 (2008) AnalyzeForecasting (Zeitreihenmodelle) REI1 Reinsel GC Datensätze für Box-Jenkins Modelle: stat. wisc. eduAllgemeine saisonale ARIMA Modelle: (0,1,1) x (0,1,1) etc. Umriss von Saisonale ARIMA-Modellierung: Der saisonale Teil eines ARIMA-Modells hat die gleiche Struktur wie der nicht saisonale Teil: er kann einen AR-Faktor, einen MA-Faktor und andor eine Differenzierung aufweisen. Im saisonalen Teil des Modells, alle diese Faktoren arbeiten über Vielfache von Lag s (die Anzahl der Perioden in einer Saison). Ein saisonales ARIMA-Modell wird als ARIMA (p, d, q) x (P, D, Q) - Modell klassifiziert, wobei Pnummer der saisonalen autoregressiven (SAR) Terme, Dnumber der saisonalen Unterschiede, Qnumber der saisonalen gleitenden Durchschnittswerte (SMA) Bei der Identifizierung eines saisonalen Modells, ist der erste Schritt, um festzustellen, ob eine saisonale Unterschied erforderlich ist, zusätzlich oder vielleicht statt einer nicht-saisonalen Unterschied. Sie sollten auf Zeitreihenplots und ACF - und PACF-Plots für alle möglichen Kombinationen von 0 oder 1 nicht-saisonalen Unterschied und 0 oder 1 saisonalen Unterschied zu suchen. Achtung: Verwenden Sie nicht mehr als einen saisonalen Unterschied, nicht mehr als zwei Gesamtdifferenzen (saisonal und nicht saisonal kombiniert). Wenn das saisonale Muster sowohl stark und stabil über die Zeit (zB hoch im Sommer und niedrig im Winter, oder umgekehrt) ist, dann sollten Sie wahrscheinlich einen saisonalen Unterschied verwenden, unabhängig davon, ob Sie einen nicht-saisonalen Unterschied verwenden, da dies wird Verhindern, dass das saisonale Muster aus Zerlegung outquot in den langfristigen Prognosen. Fügen Sie diese zu unserer Liste der Regeln für die Identifizierung von Modellen hinzu Regel 12: Wenn die Serie eine starke und konsistente saisonale Muster hat, sollten Sie eine Reihenfolge der saisonalen Differenzierung verwenden - aber nie mehr als eine Reihenfolge der saisonalen Differenzierung oder mehr als 2 verwenden Aufträge der Gesamtdifferenzierung (saisonabhängig). Die Signatur von reinem SAR oder reinem SMA Verhalten ist ähnlich der Signatur von reinem AR oder reinem MA Verhalten, mit der Ausnahme, dass das Muster über Vielfache von Verzögerung s im ACF und PACF auftritt. Beispielsweise hat ein reines SAR (1) - Verfahren Spikes in der ACF bei den Verzögerungen s, 2s, 3s usw., während die PACF nach der Verzögerung s abschaltet. Umgekehrt hat ein reines SMA (1) - Verfahren Spikes in der PACF bei den Verzögerungen s, 2s, 3s usw., während der ACF nach der Verzögerung s abschaltet. Eine SAR-Signatur tritt gewöhnlich auf, wenn die Autokorrelation bei der saisonalen Periode positiv e ist, während eine SMA-Signatur normalerweise auftritt, wenn die saisonale Autokorrelation negativ ist. Daher: Regel 13: Wenn die Autokorrelation bei der Saisonzeit positiv ist. Erwägen, dem Modell einen SAR-Begriff hinzuzufügen. Wenn die Autokorrelation bei der Saisonperiode negativ ist. Erwägen, dem Modell einen SMA-Begriff hinzuzufügen. Vermeiden Sie das Mischen von SAR - und SMA-Begriffen in demselben Modell und vermeiden Sie die Verwendung von mehr als einer der beiden Arten. Normalerweise reicht ein SAR (1) oder SMA (1) Term aus. Sie werden selten einen echten SAR (2) - oder SMA (2) - Prozess finden und noch selten haben Sie genug Daten, um zwei oder mehr Saisonkoeffizienten abzuschätzen, ohne dass der Schätzalgorithmus in eine Quotefeedback-Schleife eintritt. "Obwohl ein saisonales ARIMA-Modell zu haben scheint Nur ein paar Parameter, denken Sie daran, dass backforecasting die Schätzung von ein oder zwei Jahreszeiten im Wert von impliziten Parametern, um es zu initialisieren erfordert. Daher sollten Sie mindestens 4 oder 5 Jahreszeiten von Daten, um eine saisonale ARIMA-Modell passen. Das am häufigsten verwendete saisonale ARIMA-Modell ist das (0,1,1) x (0,1,1) - Modell - d. h. Ein MA (1) xSMA (1) - Modell mit einer saisonalen und einer nicht-saisonalen Differenz. Dies ist im wesentlichen ein sequentielles exponentielles Glättungsmodell. Wenn saisonale ARIMA-Modelle an protokollierte Daten angepasst werden, können sie ein multiplikatives saisonales Muster verfolgen. Beispiel: AUTOSALE-Serie erneut besucht Rückruf, dass wir zuvor Prognose der Retail-Auto-Verkaufs-Serie mit einer Kombination aus Deflation, saisonale Anpassung und exponentielle Glättung. Lets jetzt versuchen, passen die gleiche Serie mit saisonalen ARIMA Modelle, mit der gleichen Stichprobe von Daten von Januar 1970 bis Mai 1993 (281 Beobachtungen). Wie vorher werden wir mit deflationierten Autoverkäufen arbeiten - d. H. Wir verwenden die Serie AUTOSALECPI als Eingangsgröße. Hier sind die Zeitreihenplots und ACF - und PACF - Diagramme der Originalreihe, die im Prognoseverfahren durch die Darstellung des Quotienten eines ARIMA (0,0,0) x (0,0,0) Modells mit Konstante erhalten werden Quotsuspension bridgequot Muster in der ACF ist typisch für eine Serie, die sowohl nichtstationäre und stark saisonal ist. Natürlich brauchen wir mindestens eine Ordnung der Differenzierung. Wenn wir eine nicht-saisonale Differenz annehmen, sind die entsprechenden Diagramme wie folgt: Die differenzierte Reihe (die Residuen eines Modells mit wahlfreiem Anstieg) sieht mehr oder weniger stationär aus, aber es gibt immer noch sehr starke Autokorrelation in der Saisonzeit (Verzögerung 12). Da das saisonale Muster stark und stabil ist, wissen wir (aus Regel 12), dass wir eine Ordnung der saisonalen Differenzierung im Modell verwenden wollen. So sieht das Bild nach einem saisonalen Unterschied aus (nur): Die saisonal differenzierte Serie zeigt ein sehr starkes Muster positiver Autokorrelation, wie wir aus unserem früheren Versuch, ein saisonales Zufallsmodell anzupassen, erinnern. Dies könnte ein Zitat-Signaturquot - oder es könnte signalisieren die Notwendigkeit für einen anderen Unterschied. Wenn wir sowohl eine saisonale als auch eine nicht-saisonale Differenz einnehmen, werden folgende Ergebnisse erzielt: Dies sind natürlich die Residuen aus dem saisonal zufälligen Trendmodell, die wir früher an die Autoverkaufsdaten angepasst haben. Wir sehen jetzt die verräterischen Anzeichen einer leichten Überdifferenzierung. Sind die positiven Spikes in der ACF und PACF negativ geworden. Was ist die richtige Reihenfolge der Differenzierung Eine weitere Information, die hilfreich sein könnte, ist eine Berechnung der Fehlerstatistik der Serie auf jeder Ebene der Differenzierung. Wir können diese berechnen, indem wir die entsprechenden ARIMA-Modelle, in denen nur differencing verwendet wird, berechnen: Die kleinsten Fehler, sowohl in der Schätzperiode als auch in der Validierungsperiode, werden durch Modell A erhalten, das eine Differenz von jedem Typ verwendet. Dies, zusammen mit dem Auftreten der Plots oben, deutet stark darauf hin, dass wir sowohl eine saisonale und eine nonsaisonale Unterschied verwenden sollten. Das Modell A ist das saisonale Zufalls-Trend-Modell (SRT-Modell), während das Modell B nur das saisonal zufällige (SRW) Modell darstellt. Wie wir bereits beim Vergleich dieser Modelle festgestellt haben, scheint das SRT-Modell besser zu passen als das SRW-Modell. In der Analyse, die folgt, werden wir versuchen, diese Modelle durch die Zugabe von saisonalen ARIMA Bedingungen zu verbessern. Zurück zum Seitenanfang. Das häufig verwendete ARIMA (0,1,1) x (0,1,1) Modell: SRT Modell plus MA (1) und SMA (1) Begriffe Rückkehr zum letzten Satz von Plots oben, bemerken, dass mit einer Differenz von Jede Art gibt es eine negative Spitze in der ACF bei Verzögerung 1 und auch eine negative Spitze in der ACF bei Verzögerung 12. Wohingegen die PACF in der Nähe dieser beiden Verzögerungen ein graduelleres quadratisches Muster zeigt. Durch die Anwendung unserer Regeln zur Identifizierung von ARIMA-Modellen (speziell Regel 7 und Regel 13) können wir nun folgern, dass das SRT-Modell durch den Zusatz eines MA (1) - Terms und auch eines SMA (1) - Terms verbessert wird. Auch durch Regel 5 schließen wir die Konstante aus, da zwei Befehlsordnungen beteiligt sind. Wenn wir dies alles tun, erhalten wir das ARIMA (0,1,1) x (0,1,1) Modell. Welches das am häufigsten verwendete saisonale ARIMA-Modell ist. Seine Prognose-Gleichung ist: wobei 952 1 der MA (1) - Koeffizient und 920 1 (Kapital-Theta-1) der SMA (1) - Koeffizient ist. Man beachte, daß der Koeffizient des Lag-13-Fehlers das Produkt des MA (1) und des MA-1 ist SMA (1) Koeffizienten. Dieses Modell ist konzeptionell dem Winters-Modell insofern ähnlich, als es eine exponentielle Glättung effektiv auf Niveau, Trend und Saisonalität auf einmal anwendet, obwohl es auf fundierteren theoretischen Grundlagen beruht, insbesondere im Hinblick auf die Berechnung von Konfidenzintervallen für Langzeitprognosen. Seine Residualplots sind in diesem Fall wie folgt: Obwohl eine geringe Autokorrelation bei der Verzögerung 12 verbleibt, ist das Gesamtaussehen der Diagramme gut. Die Modellanpassungsergebnisse zeigen, dass die geschätzten MA (1) - und SMA (1) - Koeffizienten (die nach 7 Iterationen erhalten wurden) tatsächlich signifikant sind: Die Prognosen des Modells ähneln denen des saisonalen Zufallsmodells - d. h. Sie nehmen das saisonale Muster und den lokalen Trend am Ende der Serie auf - aber sie sind etwas glatter im Aussehen, da sowohl das saisonale Muster als auch der Trend in der letzten Zeit effektiv gemittelt werden (in einer exponentiell-glatten Art) Einige Jahreszeiten: Was ist dieses Modell wirklich tun Sie können es auf die folgende Weise denken. Zuerst berechnet er die Differenz zwischen jedem Monat8217s-Wert und einem 8220exponentiell gewichteten historischen Durchschnitt8221 für diesen Monat, der berechnet wird, indem exponentielle Glättung auf Werte angewendet wird, die im selben Monat in früheren Jahren beobachtet wurden, wobei der Betrag der Glättung durch die SMA bestimmt wird (1 ) - Koeffizient. Dann wird eine einfache exponentielle Glättung auf diese Unterschiede angewandt, um die Abweichung von dem historischen Durchschnitt vorherzusagen, der im nächsten Monat beobachtet wird. Der Wert des SMA (1) - Koeffizienten in der Nähe von 1,0 legt nahe, dass viele Jahreszeiten von Daten verwendet werden, um den historischen Durchschnitt für einen bestimmten Monat des Jahres zu berechnen. Es sei daran erinnert, dass ein MA (1) - Koeffizient in einem ARIMA-Modell (0,1,1) 1-minus-alpha im entsprechenden exponentiellen Glättungsmodell entspricht und dass das Durchschnittsalter der Daten in einer exponentiellen Glättungsmodellprognose 1alpha ist. Der SMA (1) - Koeffizient hat eine ähnliche Interpretation in Bezug auf Durchschnittswerte über die Jahreszeiten. Der Wert von 0,91 deutet darauf hin, dass das Durchschnittsalter der für die Schätzung des historischen Saisonmusters verwendeten Daten etwas mehr als 10 Jahre beträgt (fast die Hälfte der Länge des Datensatzes), was bedeutet, dass ein fast konstantes Jahreszeitmuster angenommen wird. Der viel kleinere Wert von 0,5 für den MA (1) - Koeffizienten deutet darauf hin, dass relativ wenig Glättung durchgeführt wird, um die aktuelle Abweichung von dem historischen Durchschnitt für denselben Monat abzuschätzen, sodass der nächste Monat8217s vorhergesagte Abweichung von seinem historischen Durchschnitt in der Nähe der Abweichungen liegt Aus dem historischen Durchschnitt, die in den letzten Monaten beobachtet wurden. Das Modell ARIMA (1,0,0) x (0,1,0) mit konstantem SRW-Modell und AR (1) - Zustand Das Vorgängermodell war ein saisonales Random-Trend-Modell (SRT) 1) und SMA (1) Koeffizienten. Ein alternatives ARIMA-Modell für diese Serie kann erhalten werden, indem ein AR (1) - Term für die nicht-saisonale Differenz - d. h. Durch Hinzufügen eines AR (1) - Terms zu dem Seasonal Random Walk (SRW) - Modell. Dies ermöglicht es uns, das saisonale Muster in dem Modell zu bewahren, während der Gesamtbetrag der Differenzierung gesenkt wird, wodurch die Stabilität der Trendvorsprünge erhöht wird, wenn dies gewünscht wird. (Erinnern wir uns, dass die Reihe mit einer saisonalen Differenz alleine eine starke AR (1) Signatur zeigte.) Wenn wir dies tun, erhalten wir ein ARIMA (1,0,0) x (0,1,0) Modell mit konstanten, Was zu folgenden Ergebnissen führt: Der AR (1) - Koeffizient ist tatsächlich sehr signifikant und der RMSE ist nur 2,06, verglichen mit 3,00 für das SRW-Modell (Modell B im obigen Vergleichsbericht). Die Prognose-Gleichung für dieses Modell ist: Der zusätzliche Begriff auf der rechten Seite ist ein Vielfaches des saisonalen Unterschieds, der im letzten Monat beobachtet wurde, was die Wirkung hat, die Prognose für die Wirkung eines ungewöhnlich guten oder schlechten Jahres zu korrigieren. Dabei bezeichnet 981 1 den AR (1) - Koeffizienten, dessen Schätzwert 0,73 ist. So zum Beispiel, wenn Verkäufe letzter Monat waren X Dollar vor Verkäufen ein Jahr früher, dann die Quantität 0.73X würde die Prognose für diesen Monat hinzugefügt werden. 956 bezeichnet die Konstante in der Prognosegleichung, deren Schätzwert 0,20 beträgt. Die geschätzte MEAN, deren Wert 0,75 ist, ist der Mittelwert der saisonal differenzierten Serien, was der jährliche Trend bei den Langzeitprognosen dieses Modells ist. Die Konstante ist (durch Definition) gleich den mittleren Zeiten 1 minus dem AR (1) - Koeffizienten: 0,2 0,75 (1 8211 0,73). Die Prognose-Grafik zeigt, dass das Modell in der Tat einen besseren Job als das SRW-Modell der Verfolgung von zyklischen Veränderungen (dh ungewöhnlich gute oder schlechte Jahre): Aber die MSE für dieses Modell ist noch deutlich größer als das, was wir für die ARIMA (0, 1,1) x (0,1,1) - Modell. Wenn wir uns die Grundstücke der Residuen anschauen, sehen wir Raum für Verbesserungen. Die Residuen zeigen immer noch ein Zeichen für eine zyklische Variation: ACF und PACF legen nahe, dass sowohl MA (1) als auch SMA (1) Koeffizienten benötigt werden: Eine verbesserte Version: ARIMA (1,0,1) x (0,1,1) Mit Konstanten Wenn wir die angezeigten MA (1) und SMA (1) Terme dem vorhergehenden Modell hinzufügen, erhalten wir ein ARIMA (1,0,1) x (0,1,1) Modell mit einer Konstante, deren Prognosegleichung Dies ist Ist nahezu identisch mit dem ARIMA (0,1,1) x (0,1,1) - Modell, mit der Ausnahme, dass es die nicht-saisonale Differenz durch einen AR (1) - Term ersetzt (eine partielle Differentialquot) und einen konstanten Term enthält, long-term trend. Hence, this model assumes a more stable trend than the ARIMA(0,1,1)x(0,1,1) model, and that is the principal difference between them. The model-fitting results are as follows: Notice that the estimated AR(1) coefficient ( 981 1 in the model equation) is 0.96, which is very close to 1.0 but not so close as to suggest that it absolutely ought to be replaced with a first difference: its standard error is 0.02, so it is about 2 standard errors from 1.0. The other statistics of the model (the estimated MA(1) and SMA(1) coefficients and error statistics in the estimation and validation periods) are otherwise nearly identical to those of the ARIMA(0,1,1)x(0,1,1) model. (The estimated MA(1) and SMA(1) coefficients are 0.45 and 0.91 in this model vs. 0.48 and 0.91 in the other.) The estimated MEAN of 0.68 is the predicted long-term trend (average annual increase). This is essentially the same value that was obtained in the (1,0,0)x(0,1,0)-with-constant model. The standard error of the estimated mean is 0.26, so the difference between 0.75 and 0.68 is not significant. If the constant was not included in this model, it would be a damped-trend model: the trend in its very-long-term forecasts would gradually flatten out. The point forecasts from this model look quite similar to those of the (0,1,1)x(0,1,1) model, because the average trend is similar to the local trend at the end of the series. However, the confidence intervals for this model widen somewhat less rapidly because of its assumption that the trend is stable. Notice that the confidence limits for the two-year-ahead forecasts now stay within the horizontal grid lines at 24 and 44, whereas those of the (0,1,1)x(0,1,1) model did not: Seasonal ARIMA versus exponential smoothing and seasonal adjustment: Now lets compare the performance the two best ARIMA models against simple and linear exponential smoothing models accompanied by multiplicative seasonal adjustment, and the Winters model, as shown in the slides on forecasting with seasonal adjustment: The error statistics for the one-period-ahead forecasts for all the models are extremely close in this case. It is hard to pick a 8220winner8221 based on these numbers alone. Return to top of page. What are the tradeoffs among the various seasonal models The three models that use multiplicative seasonal adjustment deal with seasonality in an explicit fashion--i. e. seasonal indices are broken out as an explicit part of the model. The ARIMA models deal with seasonality in a more implicit manner--we cant easily see in the ARIMA output how the average December, say, differs from the average July. Depending on whether it is deemed important to isolate the seasonal pattern, this might be a factor in choosing among models. The ARIMA models have the advantage that, once they have been initialized, they have fewer quotmoving partsquot than the exponential smoothing and adjustment models and as such they may be less likely to overfit the data. ARIMA models also have a more solid underlying theory with respect to the calculation of confidence intervals for longer-horizon forecasts than do the other models. There are more dramatic differences among the models with respect to the behavior of their forecasts and confidence intervals for forecasts more than 1 period into the future. This is where the assumptions that are made with respect to changes in the trend and seasonal pattern are very important. Between the two ARIMA models, one (model A) estimates a time-varying trend, while the other (model B) incorporates a long-term average trend. (We could, if we desired, flatten out the long-term trend in model B by suppressing the constant term.) Among the exponential-smoothing-plus-adjustment models, one (model C) assumes a flat trend, while the other (model D) assumes a time-varying trend. The Winters model (E) also assumes a time-varying trend. Models that assume a constant trend are relatively more confident in their long-term forecasts than models that do not, and this will usually be reflected in the extent to which confidence intervals for forecasts get wider at longer forecast horizons. Models that do not assume time-varying trends generally have narrower confidence intervals for longer-horizon forecasts, but narrower is not better unless this assumption is correct. The two exponential smoothing models combined with seasonal adjustment assume that the seasonal pattern has remained constant over the 23 years in the data sample, while the other three models do not. Insofar as the seasonal pattern accounts for most of the month-to-month variation in the data, getting it right is important for forecasting what will happen several months into the future. If the seasonal pattern is believed to have changed slowly over time, another approach would be to just use a shorter data history for fitting the models that estimate fixed seasonal indices. For the record, here are the forecasts and 95 confidence limits for May 1995 (24 months ahead) that are produced by the five models: The point forecasts are actually surprisingly close to each other, relative to the widths of all the confidence intervals. The SES point forecast is the lowest, because it is the only model that does not assume an upward trend at the end of the series. The ARIMA (1,0,1)x(0,1,1)c model has the narrowest confidence limits, because it assumes less time-variation in the parameters than the other models. Also, its point forecast is slightly larger than those of the other models, because it is extrapolating a long-term trend rather than a short-term trend (or zero trend). The Winters model is the least stable of the models and its forecast therefore has the widest confidence limits, as was apparent in the detailed forecast plots for the models. And the forecasts and confidence limits of the ARIMA(0,1,1)x(0,1,1) model and those of the LESseasonal adjustment model are virtually identical To log or not to log Something that we have not yet done, but might have, is include a log transformation as part of the model. Seasonal ARIMA models are inherently additive models, so if we want to capture a multiplicative seasonal pattern . we must do so by logging the data prior to fitting the ARIMA model. (In Statgraphics, we would just have to specify quotNatural Logquot as a modeling option--no big deal.) In this case, the deflation transformation seems to have done a satisfactory job of stabilizing the amplitudes of the seasonal cycles, so there does not appear to be a compelling reason to add a log transformation as far as long term trends are concerned. If the residuals showed a marked increase in variance over time, we might decide otherwise. There is still a question of whether the errors of these models have a consistent variance across months of the year . If they don8217t, then confidence intervals for forecasts might tend to be too wide or too narrow according to the season. The residual-vs-time plots do not show an obvious problem in this regard, but to be thorough, it would be good to look at the error variance by month. If there is indeed a problem, a log transformation might fix it. Return to top of page.


No comments:

Post a Comment