Friday, February 10, 2017

Séries Temporelles Irrégulières Moyennes Exponentielles

Modèles de lissage et de lissage exponentiels Comme première étape pour aller au-delà des modèles moyens, des modèles de marche aléatoire et des modèles de tendances linéaires, des tendances et des tendances non saisonnières peuvent être extrapolés à l'aide d'un modèle de moyenne mobile ou de lissage. L'hypothèse de base derrière les modèles de moyenne et de lissage est que la série temporelle est localement stationnaire avec une moyenne lentement variable. Par conséquent, nous prenons une moyenne mobile (locale) pour estimer la valeur actuelle de la moyenne, puis nous l'utilisons comme prévision pour le proche avenir. Cela peut être considéré comme un compromis entre le modèle moyen et le modèle randonnée aléatoire sans dérive. La même stratégie peut être utilisée pour estimer et extrapoler une tendance locale. Une moyenne mobile est souvent appelée une version quotsmoothedquot de la série originale parce que la moyenne à court terme a pour effet de lisser les bosses dans la série d'origine. En ajustant le degré de lissage (la largeur de la moyenne mobile), on peut espérer trouver un équilibre optimal entre la performance des modèles de marche moyenne et aléatoire. Le modèle le plus simple de la moyenne est le. Moyenne mobile simple (également pondérée): La prévision de la valeur de Y à l'instant t1 qui est faite à l'instant t est égale à la moyenne simple des observations m les plus récentes: (Ici et ailleurs, je vais utiliser le symbole 8220Y-hat8221 pour me tenir Pour une prévision de la série temporelle Y faite le plus tôt possible par un modèle donné). Cette moyenne est centrée à la période t (m1) 2, ce qui implique que l'estimation de la moyenne locale aura tendance à se situer en deçà du vrai Valeur de la moyenne locale d'environ (m1) 2 périodes. Ainsi, nous disons que l'âge moyen des données dans la moyenne mobile simple est (m1) 2 par rapport à la période pour laquelle la prévision est calculée: c'est le temps pendant lequel les prévisions auront tendance à être en retard par rapport aux points de retournement dans les données . Par exemple, si vous faites la moyenne des 5 dernières valeurs, les prévisions seront environ 3 périodes en retard pour répondre aux points de retournement. Notez que si m1, le modèle de moyenne mobile simple (SMA) est équivalent au modèle de marche aléatoire (sans croissance). Si m est très grand (comparable à la longueur de la période d'estimation), le modèle SMA est équivalent au modèle moyen. Comme pour tout paramètre d'un modèle de prévision, il est courant d'ajuster la valeur de k afin d'obtenir le meilleur rapport entre les données, c'est-à-dire les erreurs de prévision les plus faibles en moyenne. Voici un exemple d'une série qui semble présenter des fluctuations aléatoires autour d'une moyenne lentement variable. Tout d'abord, essayons de l'adapter à un modèle de marche aléatoire, ce qui équivaut à une moyenne mobile simple d'un terme: Le modèle de marche aléatoire répond très rapidement aux changements dans la série, mais en le faisant, il choisit une grande partie du quotnoise dans le Données (les fluctuations aléatoires) ainsi que le quotsignalquot (la moyenne locale). Si nous essayons plutôt une moyenne mobile simple de 5 termes, nous obtenons un ensemble plus lisse de prévisions: La moyenne mobile simple à 5 termes génère des erreurs beaucoup plus faibles que le modèle de marche aléatoire dans ce cas. L'âge moyen des données de cette prévision est de 3 ((51) 2), de sorte qu'il tend à être en retard par rapport aux points de retournement d'environ trois périodes. (Par exemple, un ralentissement semble avoir eu lieu à la période 21, mais les prévisions ne tournent pas jusqu'à plusieurs périodes plus tard.) Notez que les prévisions à long terme du modèle SMA sont une ligne droite horizontale, tout comme dans la marche aléatoire modèle. Ainsi, le modèle SMA suppose qu'il n'y a pas de tendance dans les données. Cependant, alors que les prévisions du modèle randonnée aléatoire sont tout simplement égales à la dernière valeur observée, les prévisions du modèle SMA sont égales à une moyenne pondérée des valeurs récentes. Les limites de confiance calculées par Statgraphics pour les prévisions à long terme de la moyenne mobile simple ne s'élargissent pas à mesure que l'horizon de prévision augmente. Ce n'est évidemment pas correct Malheureusement, il n'existe pas de théorie statistique sous-jacente qui nous indique comment les intervalles de confiance devraient élargir pour ce modèle. Cependant, il n'est pas trop difficile de calculer des estimations empiriques des limites de confiance pour les prévisions à plus long terme. Par exemple, vous pouvez créer une feuille de calcul dans laquelle le modèle SMA sera utilisé pour prévoir 2 étapes à venir, 3 étapes à venir, etc. dans l'exemple de données historiques. Vous pouvez ensuite calculer les écarts types des erreurs à chaque horizon de prévision, puis construire des intervalles de confiance pour les prévisions à long terme en ajoutant et en soustrayant des multiples de l'écart-type approprié. Si nous essayons une moyenne mobile simple de 9 termes, nous obtenons des prévisions encore plus lisses et plus d'un effet de retard: L'âge moyen est maintenant 5 périodes ((91) 2). Si l'on prend une moyenne mobile à 19 mois, l'âge moyen passe à 10: On remarque que les prévisions sont maintenant en retard par rapport aux points de retournement d'environ 10 périodes. Quelle quantité de lissage est la meilleure pour cette série Voici un tableau qui compare leurs statistiques d'erreur, incluant également une moyenne à 3 termes: Le modèle C, la moyenne mobile à 5 termes, donne la plus faible valeur de RMSE d'une petite marge sur les 3 À moyen terme et à moyen terme, et leurs autres statistiques sont presque identiques. Ainsi, parmi les modèles avec des statistiques d'erreur très similaires, nous pouvons choisir si nous préférerions un peu plus de réactivité ou un peu plus de souplesse dans les prévisions. Le modèle de la moyenne mobile simple décrit ci-dessus a la propriété indésirable de traiter les dernières k observations de manière égale et d'ignorer complètement toutes les observations précédentes. (Retourner au haut de la page.) Intuitivement, les données passées devraient être actualisées de façon plus graduelle - par exemple, l'observation la plus récente devrait prendre un peu plus de poids que la deuxième plus récente, et la deuxième plus récente devrait avoir un peu plus de poids que la 3ème plus récente, et bientôt. Le simple lissage exponentiel (SES) modèle accomplit cela. Soit 945 une constante de quotslacement constante (un nombre entre 0 et 1). Une façon d'écrire le modèle consiste à définir une série L qui représente le niveau actuel (c'est-à-dire la valeur moyenne locale) de la série estimée à partir des données jusqu'à présent. La valeur de L à l'instant t est calculée récursivement à partir de sa propre valeur précédente comme ceci: La valeur lissée actuelle est donc une interpolation entre la valeur lissée précédente et l'observation courante, où 945 contrôle la proximité de la valeur interpolée à la valeur la plus récente observation. La prévision pour la période suivante est simplement la valeur lissée actuelle: De manière équivalente, nous pouvons exprimer directement la prochaine prévision en fonction des prévisions précédentes et des observations précédentes, dans l'une des versions équivalentes suivantes. Dans la première version, la prévision est une interpolation entre la prévision précédente et l'observation précédente: Dans la deuxième version, la prévision suivante est obtenue en ajustant la prévision précédente dans la direction de l'erreur précédente par une fraction 945. est l'erreur faite à Temps t. Dans la troisième version, la prévision est une moyenne mobile exponentiellement pondérée (c'est-à-dire actualisée) avec le facteur d'actualisation 1-945: La version d'interpolation de la formule de prévision est la plus simple à utiliser si vous mettez en œuvre le modèle sur une feuille de calcul: Cellule unique et contient des références de cellule pointant vers la prévision précédente, l'observation précédente et la cellule où la valeur de 945 est stockée. Notez que si 945 1, le modèle SES est équivalent à un modèle de marche aléatoire (sans croissance). Si 945 0, le modèle SES est équivalent au modèle moyen, en supposant que la première valeur lissée est égale à la moyenne. (Retourner au haut de la page.) L'âge moyen des données dans la prévision de lissage exponentielle simple est de 1 945 par rapport à la période pour laquelle la prévision est calculée. (Ce n'est pas censé être évident, mais on peut facilement le montrer en évaluant une série infinie.) Par conséquent, la prévision moyenne mobile simple tend à être en retard par rapport aux points de retournement d'environ 1 945 périodes. Par exemple, lorsque 945 0,5 le lag est 2 périodes lorsque 945 0,2 le retard est de 5 périodes lorsque 945 0,1 le lag est de 10 périodes, et ainsi de suite. Pour un âge moyen donné (c'est-à-dire le décalage), le lissage exponentiel simple (SES) est un peu supérieur à la moyenne mobile simple (SMA), car il place relativement plus de poids sur l'observation la plus récente. Il est un peu plus sensible aux changements survenus dans le passé récent. Par exemple, un modèle SMA avec 9 termes et un modèle SES avec 945 0,2 ont tous deux une moyenne d'âge de 5 pour les données dans leurs prévisions, mais le modèle SES met plus de poids sur les 3 dernières valeurs que le modèle SMA et à la Un autre avantage important du modèle SES par rapport au modèle SMA est que le modèle SES utilise un paramètre de lissage qui est variable en continu, de sorte qu'il peut facilement être optimisé En utilisant un algorithme quotsolverquot pour minimiser l'erreur quadratique moyenne. La valeur optimale de 945 dans le modèle SES de cette série s'élève à 0,2961, comme indiqué ici: L'âge moyen des données de cette prévision est de 10,2961 3,4 périodes, ce qui est similaire à celle d'une moyenne mobile simple à 6 termes. Les prévisions à long terme du modèle SES sont une droite horizontale. Comme dans le modèle SMA et le modèle randonnée aléatoire sans croissance. Cependant, notez que les intervalles de confiance calculés par Statgraphics divergent maintenant d'une manière raisonnable et qu'ils sont sensiblement plus étroits que les intervalles de confiance pour le modèle de marche aléatoire. Le modèle SES suppose que la série est quelque peu plus prévisible que le modèle de marche aléatoire. Un modèle SES est en fait un cas particulier d'un modèle ARIMA. La théorie statistique des modèles ARIMA fournit une base solide pour le calcul des intervalles de confiance pour le modèle SES. En particulier, un modèle SES est un modèle ARIMA avec une différence non saisonnière, un terme MA (1) et aucun terme constant. Autrement connu sous le nom de modèle de MARIMA (0,1,1) sans constantquot. Le coefficient MA (1) du modèle ARIMA correspond à la quantité 1 945 dans le modèle SES. Par exemple, si vous ajoutez un modèle ARIMA (0,1,1) sans constante à la série analysée ici, le coefficient MA (1) estimé s'avère être 0.7029, ce qui est presque exactement un moins 0.2961. Il est possible d'ajouter l'hypothèse d'une tendance linéaire constante non nulle à un modèle SES. Pour cela, il suffit de spécifier un modèle ARIMA avec une différence non saisonnière et un terme MA (1) avec une constante, c'est-à-dire un modèle ARIMA (0,1,1) avec constante. Les prévisions à long terme auront alors une tendance égale à la tendance moyenne observée sur l'ensemble de la période d'estimation. Vous ne pouvez pas le faire en conjonction avec l'ajustement saisonnier, car les options de réglage saisonnier sont désactivées lorsque le type de modèle est réglé sur ARIMA. Cependant, vous pouvez ajouter une tendance exponentielle à long terme constante à un modèle de lissage exponentiel simple (avec ou sans ajustement saisonnier) en utilisant l'option d'ajustement de l'inflation dans la procédure de prévision. Le taux d'inflation appropriée (taux de croissance en pourcentage) par période peut être estimé comme le coefficient de pente dans un modèle de tendance linéaire adapté aux données en conjonction avec une transformation logarithmique naturelle, ou il peut être basé sur d'autres informations indépendantes concernant les perspectives de croissance à long terme . (Retour au haut de la page) Browns Linear (c'est-à-dire double) Lissage exponentiel Les modèles SMA et SES supposent qu'il n'y a aucune tendance des données (ce qui est normalement correct ou au moins pas trop mauvais pour 1- Des prévisions d'avance lorsque les données sont relativement bruyantes), et elles peuvent être modifiées pour incorporer une tendance linéaire constante comme indiqué ci-dessus. Qu'en est-il des tendances à court terme Si une série affiche un taux de croissance variable ou un schéma cyclique qui se distingue clairement du bruit, et s'il est nécessaire de prévoir plus d'une période à venir, l'estimation d'une tendance locale pourrait également être un problème. Le modèle de lissage exponentiel simple peut être généralisé pour obtenir un modèle linéaire de lissage exponentiel (LES) qui calcule des estimations locales de niveau et de tendance. Le modèle de tendance le plus simple variant dans le temps est le modèle de lissage linéaire linéaire de Browns, qui utilise deux séries lissées différentes qui sont centrées à différents moments. La formule de prévision est basée sur une extrapolation d'une droite passant par les deux centres. (Une version plus sophistiquée de ce modèle, Holt8217s, est discutée ci-dessous.) La forme algébrique du modèle de lissage exponentiel linéaire de Brown8217s, comme celle du modèle de lissage exponentiel simple, peut être exprimée sous différentes formes différentes mais équivalentes. La forme quotométrique de ce modèle est habituellement exprimée comme suit: Soit S la série lissée par singulier obtenue en appliquant un lissage exponentiel simple à la série Y. C'est-à-dire que la valeur de S à la période t est donnée par: (Rappelons que, sous simple Le lissage exponentiel, ce serait la prévision de Y à la période t1.) Puis, désignons par Squot la série doublement lissée obtenue en appliquant le lissage exponentiel simple (en utilisant le même 945) à la série S: Enfin, la prévision pour Y tk. Pour tout kgt1, est donnée par: Ceci donne e 1 0 (c'est-à-dire tricher un peu, et laisser la première prévision égaler la première observation réelle), et e 2 Y 2 8211 Y 1. Après quoi les prévisions sont générées en utilisant l'équation ci-dessus. Cela donne les mêmes valeurs ajustées que la formule basée sur S et S si ces derniers ont été démarrés en utilisant S 1 S 1 Y 1. Cette version du modèle est utilisée sur la page suivante qui illustre une combinaison de lissage exponentiel avec ajustement saisonnier. Holt8217s Linear Exponential Smoothing Brown8217s Le modèle LES calcule les estimations locales de niveau et de tendance en lissant les données récentes, mais le fait qu'il le fait avec un seul paramètre de lissage impose une contrainte sur les modèles de données qu'il peut adapter: le niveau et la tendance Ne sont pas autorisés à varier à des taux indépendants. Le modèle LES de Holt8217s aborde cette question en incluant deux constantes de lissage, une pour le niveau et une pour la tendance. A tout moment t, comme dans le modèle Brown8217s, il existe une estimation L t du niveau local et une estimation T t de la tendance locale. Ici, elles sont calculées récursivement à partir de la valeur de Y observée au temps t et des estimations précédentes du niveau et de la tendance par deux équations qui leur appliquent un lissage exponentiel séparément. Si le niveau et la tendance estimés au temps t-1 sont L t82091 et T t-1. Respectivement, alors la prévision pour Y tshy qui aurait été faite au temps t-1 est égale à L t-1 T t-1. Lorsque la valeur réelle est observée, l'estimation actualisée du niveau est calculée récursivement en interpolant entre Y tshy et sa prévision, L t-1 T t-1, en utilisant des poids de 945 et 1 945. La variation du niveau estimé, À savoir L t 8209 L t82091. Peut être interprété comme une mesure bruyante de la tendance à l'instant t. L'estimation actualisée de la tendance est ensuite calculée récursivement en interpolant entre L t 8209 L t82091 et l'estimation précédente de la tendance, T t-1. Utilisant des poids de 946 et 1-946: L'interprétation de la constante de lissage de tendance 946 est analogue à celle de la constante de lissage de niveau 945. Les modèles avec de petites valeurs de 946 supposent que la tendance ne change que très lentement avec le temps tandis que les modèles avec 946 supposent qu'il change plus rapidement. Un modèle avec un grand 946 croit que l'avenir lointain est très incertain, parce que les erreurs dans l'estimation de la tendance deviennent très importantes lors de la prévision de plus d'une période à venir. Les constantes de lissage 945 et 946 peuvent être estimées de la manière habituelle en minimisant l'erreur quadratique moyenne des prévisions à 1 pas. Lorsque cela est fait dans Statgraphics, les estimations s'avèrent être 945 0,3048 et 946 0,008. La très petite valeur de 946 signifie que le modèle suppose très peu de changement dans la tendance d'une période à l'autre, donc, fondamentalement, ce modèle essaie d'estimer une tendance à long terme. Par analogie avec la notion d'âge moyen des données utilisées pour estimer le niveau local de la série, l'âge moyen des données utilisées pour estimer la tendance locale est proportionnel à 1 946, mais pas exactement égal à celui-ci . Dans ce cas, cela s'avère être 10.006 125. Ceci n'est pas un nombre très précis dans la mesure où la précision de l'estimation de 946 est vraiment de 3 décimales, mais elle est du même ordre de grandeur que la taille de l'échantillon de 100, donc Ce modèle est la moyenne sur beaucoup d'histoire dans l'estimation de la tendance. Le graphique ci-dessous montre que le modèle ERP estime une tendance locale légèrement plus grande à la fin de la série que la tendance constante estimée dans le modèle SEStrend. En outre, la valeur estimée de 945 est presque identique à celle obtenue en ajustant le modèle SES avec ou sans tendance, donc c'est presque le même modèle. Maintenant, est-ce que ces ressembler à des prévisions raisonnables pour un modèle qui est censé être l'estimation d'une tendance locale Si vous 8220eyeball8221 cette intrigue, il semble que la tendance locale a tourné vers le bas à la fin de la série Qu'est-ce qui s'est passé Les paramètres de ce modèle Ont été estimées en minimisant l'erreur au carré des prévisions à un pas, et non des prévisions à plus long terme, auquel cas la tendance ne fait pas beaucoup de différence. Si tout ce que vous regardez sont des erreurs en une étape, vous ne voyez pas l'image plus grande des tendances sur (disons) 10 ou 20 périodes. Afin d'obtenir ce modèle plus en phase avec notre extrapolation ophtalmique des données, nous pouvons ajuster manuellement la constante de lissage de tendance afin qu'il utilise une ligne de base plus courte pour l'estimation de tendance. Par exemple, si l'on choisit de fixer 946 0,1, l'âge moyen des données utilisées pour estimer la tendance locale est de 10 périodes, ce qui signifie que nous faisons la moyenne de la tendance au cours des 20 dernières périodes. Here8217s ce que l'intrigue de prévision ressemble si nous fixons 946 0.1 tout en gardant 945 0.3. Cela semble intuitivement raisonnable pour cette série, bien qu'il soit probablement dangereux d'extrapoler cette tendance plus de 10 périodes dans l'avenir. Qu'en est-il des statistiques d'erreur Voici une comparaison de modèles pour les deux modèles présentés ci-dessus ainsi que trois modèles SES. La valeur optimale de 945 pour le modèle SES est d'environ 0,3, mais des résultats similaires (avec un peu plus ou moins de réactivité, respectivement) sont obtenus avec 0,5 et 0,2. (A) Holts linéaire exp. Lissage avec alpha 0,3048 et bêta 0,008 (B) Holts linéaire exp. Lissage avec alpha 0.3 et bêta 0.1 (C) Lissage exponentiel simple avec alpha 0.5 (D) Lissage exponentiel simple avec alpha 0.3 (E) Lissage exponentiel simple avec alpha 0.2 Leurs stats sont quasiment identiques, donc nous ne pouvons pas vraiment faire le choix sur la base Des erreurs de prévision à 1 pas dans l'échantillon de données. Nous devons nous rabattre sur d'autres considérations. Si nous croyons fermement qu'il est logique de baser l'estimation de la tendance actuelle sur ce qui s'est produit au cours des 20 dernières périodes, nous pouvons faire valoir le modèle ERP avec 945 0,3 et 946 0,1. Si nous voulons être agnostiques quant à savoir s'il existe une tendance locale, alors l'un des modèles SSE pourrait être plus facile à expliquer et donnerait également plus de prévisions moyennes de route pour les 5 ou 10 prochaines périodes. (Retourner au haut de la page.) Quel type d'extrapolation de tendance est le mieux: horizontal ou linéaire Les données empiriques suggèrent que, si les données ont déjà été ajustées (si nécessaire) pour l'inflation, il peut être imprudent d'extrapoler les courbes linéaires à court terme Tendances très loin dans l'avenir. Les tendances évidentes aujourd'hui peuvent ralentir à l'avenir en raison de causes variées telles que l'obsolescence des produits, la concurrence accrue, les ralentissements cycliques ou les retournements dans une industrie. Pour cette raison, le lissage exponentiel simple obtient souvent une meilleure sortie de l'échantillon que ce qui pourrait être attendu autrement, malgré son extrapolation de tendance horizontale quotnaivequot. Les modifications de tendance amorties du modèle de lissage exponentiel linéaire sont aussi souvent utilisées dans la pratique pour introduire une note de conservatisme dans ses projections de tendance. Le modèle ERP à tendance amortie peut être mis en œuvre comme un cas particulier d'un modèle ARIMA, en particulier un modèle ARIMA (1,1,2). Il est possible de calculer des intervalles de confiance autour des prévisions à long terme produites par les modèles de lissage exponentiel, en les considérant comme des cas spéciaux de modèles ARIMA. La largeur des intervalles de confiance dépend de (i) l'erreur RMS du modèle, (ii) le type de lissage (simple ou linéaire) (iii) la valeur (S) de la constante de lissage et (iv) le nombre de périodes à venir que vous prévoyez. En général, les intervalles s'étalent plus rapidement lorsque 945 devient plus grand dans le modèle SES et ils s'étalent beaucoup plus rapidement lorsque linéaire plutôt que de simple lissage est utilisé. Ce sujet est abordé plus en détail dans la section des modèles ARIMA des notes. (Retour au début de la page.) 5.2 Lissage de la série temporelle Le lissage est habituellement effectué pour nous aider à mieux voir les tendances, par exemple, dans les séries chronologiques. Généralement lisser la rugosité irrégulière pour voir un signal plus clair. Pour les données saisonnières, nous pourrions lisser la saisonnalité afin que nous puissions identifier la tendance. Smoothing doesnt nous fournir un modèle, mais il peut être une bonne première étape dans la description de divers composants de la série. Le terme filtre est parfois utilisé pour décrire une procédure de lissage. Par exemple, si la valeur lissée pour un temps donné est calculée comme une combinaison linéaire d'observations pour les temps environnants, on pourrait dire que nous avons appliqué un filtre linéaire aux données (ce qui n'est pas le même que dire que le résultat est une droite, le chemin). L'utilisation traditionnelle du terme moyenne mobile est que, à chaque moment, nous déterminons des moyennes (éventuellement pondérées) des valeurs observées qui entourent un temps particulier. Par exemple, au temps t. Une moyenne mobile centrée de la longueur 3 avec des poids égaux serait la moyenne des valeurs aux instants t -1. T. Et t1. Afin d'éliminer la saisonnalité d'une série, nous pourrions mieux voir la tendance, nous utiliserions une moyenne mobile avec une longueur portée saisonnière. Ainsi, dans la série lissée, chaque valeur lissée a été moyennée à toutes les saisons. Cela peut être fait en regardant une moyenne mobile unilatérale dans laquelle vous la moyenne de toutes les valeurs pour les années précédentes valeur de données ou une moyenne mobile centrée dans laquelle vous utilisez des valeurs avant et après l'heure actuelle. Pour les données trimestrielles, par exemple, nous pourrions définir une valeur lissée pour le temps t comme (x t x t-1 x t-2 x t-3) 4, la moyenne de ce temps et des 3 trimestres précédents. Dans le code R, ce sera un filtre unilatéral. Une moyenne mobile centrée crée un peu d'une difficulté quand nous avons un nombre pair de périodes de temps dans la période saisonnière (comme nous le faisons habituellement). Pour lisser la saisonnalité dans les données trimestrielles. Afin d'identifier la tendance, la convention habituelle est d'utiliser la moyenne mobile lissée au temps t pour lisser la saisonnalité dans les données mensuelles. Pour déterminer la tendance, la convention usuelle consiste à utiliser la moyenne mobile lissée au temps t. C'est-à-dire que l'on applique le poids 124 aux valeurs t6 et t6 et le poids 112 à toutes les valeurs entre t5 et t5. Dans la commande Filtre R, spécifiez bien un filtre recto-verso lorsque nous voulons utiliser des valeurs qui viennent à la fois avant et après le lissage. À la page 71 de notre livre, les auteurs appliquent des poids égaux sur une moyenne mobile saisonnière centrée. Ça va aussi. Par exemple, un lissé trimestriel pourrait être lissé au temps t est fracture x frac x frac x frac x frac x Un mensuel lisse pourrait appliquer un poids de 113 à toutes les valeurs des temps t-6 à t6. Le code que les auteurs utilisent à la page 72 tire parti d'une commande rep qui répète une valeur un certain nombre de fois. Ils n'utilisent pas le paramètre filter dans la commande filter. Exemple 1 Production trimestrielle de bière en Australie Dans la leçon 1 et la leçon 4, nous avons examiné une série de production trimestrielle de bière en Australie. Le code R suivant crée une série lissée qui nous permet de voir le modèle de tendance et trace ce modèle de tendance sur le même graphique que la série chronologique. La seconde commande crée et stocke la série lissée dans l'objet appelé trendpattern. Notez que dans la commande filter, le paramètre nommé filter donne les coefficients pour notre lissage et les faces 2 font calculer un lissage centré. (Beerprod. dat) filtre de tendance (beerprod, filtre c (18, 14, 14, 14, 18), sides2) tracé (beerprod, type b, principale tendance moyenne mobile) lignes (trendpattern) Voici le résultat: Nous Pourrait soustraire le modèle de tendance des valeurs de données pour obtenir un meilleur regard sur la saisonnalité. Le résultat suit: Une autre possibilité pour lisser la série pour voir la tendance est le filtre unilatéral patternpattern2 filter (beerprod, filter c (14, 14, 14, 14), les côtés1). Avec ceci, la valeur lissée est la moyenne de l'année écoulée. Exemple 2. Chômage mensuel aux États-Unis Dans le devoir de la semaine 4, vous avez examiné une série mensuelle de chômage des États-Unis pour 1948-1978. Voici un lissage fait pour regarder la tendance. Trendunemployfilter (trendunemploy, trend2), trend2 () (trendunemploy, mainTrend in U. S. Unemployment, 1948-1978, xlab Year) Seule la tendance lissée est tracée. La seconde commande identifie les caractéristiques de temps de calendrier de la série. Cela fait que l'intrigue a un axe plus significatif. L'intrigue suit. Pour les séries non saisonnières, vous n'êtes pas obligé de lisser sur toute portée particulière. Pour lisser, vous devez expérimenter avec des moyennes mobiles de différentes portées. Ces durées de temps pourraient être relativement courtes. L'objectif est d'éliminer les bords rugueux pour voir quelle tendance ou modèle pourrait être là. Autres méthodes de lissage (section 2.4) La section 2.4 décrit plusieurs alternatives sophistiquées et utiles au lissage moyen mobile. Les détails peuvent sembler sommaires, mais thats ok parce que nous ne voulons pas s'embourber dans beaucoup de détails pour ces méthodes. Parmi les méthodes alternatives décrites à la section 2.4, la faible (régression pondérée localement) peut être la plus utilisée. Exemple 2 Suite La courbe suivante est une courbe de tendance lissée pour la série de chômage des États-Unis, trouvée à l'aide d'une lisse plus faible dans laquelle une quantité substantielle (23) a contribué à chaque estimation lissée. Notez que cela a lissé la série plus agressivement que la moyenne mobile. Les commandes utilisées étaient le chômage, le début (1948,1), le freq12), le lissage principal de Lowess de la tendance au chômage des États-Unis. Lissage exponentiel simple L'équation de prévision de base pour le lissage exponentiel simple est souvent Nous allons prévoir que la valeur de x à l'instant t1 soit une combinaison pondérée de la valeur observée à l'instant t et de la valeur pronostiquée à l'instant t. Bien que la méthode soit appelée méthode de lissage, elle est principalement utilisée pour la prévision à court terme. La valeur de est appelée constante de lissage. Pour une raison quelconque, 0.2 est un choix populaire par défaut des programmes. Cela donne un poids de 0,2 sur l'observation la plus récente et un poids de 0,2 0,8 sur les prévisions les plus récentes. Avec une valeur relativement faible de, le lissage sera relativement plus étendu. Avec une valeur relativement importante de, le lissage est relativement moins étendu, car un poids plus important sera mis sur la valeur observée. Il s'agit d'une simple méthode de prévision à une étape qui, à première vue, ne semble pas requérir de modèle pour les données. En fait, cette méthode est équivalente à l'utilisation d'un modèle ARIMA (0,1,1) sans constante. La procédure optimale consiste à adapter un modèle ARIMA (0,1,1) au jeu de données observé et à utiliser les résultats pour déterminer la valeur de. C'est optimal dans le sens de créer le meilleur pour les données déjà observées. Bien que l'objectif soit un lissage et une prévision à l'avance, l'équivalence avec le modèle ARIMA (0,1,1) soulève un bon point. Nous ne devrions pas appliquer aveuglément un lissage exponentiel car le processus sous-jacent pourrait ne pas être bien modélisé par un ARIMA (0,1,1). Considérons un ARIMA (0,1,1) avec la moyenne 0 pour les premières différences, xt - x t-1: début hat amp amp xt theta1 wt amp amp xt theta1 (xt - hat t) amp amp (1 theta1) xt - theta1hat tendance. Si on laisse (1 1) et donc - (1) 1, on voit l'équivalence à l'équation (1) ci-dessus. Pourquoi la méthode est appelée Lissage exponentiel Cela donne ce qui suit: commencer chapeau ampli ampli alpha xt (1 alpha) alpha x (1 alpha) chapeau ampli ampli alpha xt alpha (1 alpha) x (1 alpha) 2hat fin Continuer De cette manière en substituant successivement la valeur prévue sur le côté droit de l'équation. Ceci conduit à: hat alpha xt alpha (1 alpha) x alpha (1 alpha) 2 x points alpha (1-alpha) jx points alpha (1-alpha) x1 texte L'équation 2 montre que la valeur prévue est une moyenne pondérée De toutes les valeurs passées de la série, avec des poids exponentiellement changeants comme nous revenons dans la série. Optimal Exponential Smoothing in R Fondamentalement, il suffit d'adapter un ARIMA (0,1,1) aux données et de déterminer le coefficient. Nous pouvons examiner l'ajustement du lisse en comparant les valeurs prédites à la série réelle. Lissage exponentiel a tendance à être utilisé plus comme un outil de prévision que d'un vrai plus lisse, donc cherchait à voir si nous avons un bon ajustement. EXEMPLE 3. N 100 observations mensuelles du logarithme d'un indice des prix du pétrole aux États-Unis. La série de données est: Un ajustement ARIMA (0,1,1) dans R donne un coefficient MA (1) 0,3877. Ainsi, (1 1) 1,3877 et 1- -0,3877. L'équation exponentielle de prévision de lissage est chapeau 1.3877xt - 0.3877hat t Au temps 100, la valeur observée de la série est x 100 0.86601. La valeur prédite pour la série à ce moment est donc la prévision pour le temps 101 est le chapeau 1.3877x - 0.3877hat 1.3877 (0.86601) -0.3877 (0.856789) 0.8696 Voici comment bien le plus lisse s'adapte à la série. C'est un bon ajustement. C'est un bon signe pour la prévision, le but principal de cette plus lisse. Voici les commandes utilisées pour générer la sortie de cet exemple: oilindex scan (oildata. dat) tracé (oilindex, type b, registre principal des séries d'index d'huile) expsmoothfit arima (oilindex, commande c (0,1,1)) expsmoothfit Pour afficher les résultats de l'arima prédictions oilindex - expsmoothfitresiduals valeurs prédites plot (oilindex, typeb, principal Lissage exponentiel de Log of Oil Index) lignes (prédites) 1.3877oilindex100-0.3877predicteds100 prévision de temps 101 Double lissage exponentiel Le lissage exponentiel double pourrait être utilisé quand theres (À long terme ou à court terme), mais pas de saisonnalité. Essentiellement, la méthode crée une prévision en combinant des estimations exponentiellement lissées de la tendance (pente d'une droite) et le niveau (essentiellement l'interception d'une droite). Deux poids différents, ou paramètres de lissage, sont utilisés pour mettre à jour ces deux composants à chaque fois. Le niveau lissé est plus ou moins équivalent à un simple lissage exponentiel des valeurs de données et la tendance lissée est plus ou moins équivalente à un simple lissage exponentiel des premières différences. La procédure est équivalente à l'installation d'un modèle ARIMA (0,2,2), sans constante, elle peut être réalisée avec un ajustement ARIMA (0,2,2). (1-B) 2 xt (1theta1B théta2B2) p. NavigationMessages mobiles exponentiels pour les séries temporelles irrégulières Dans l'analyse des séries chronologiques, il est souvent nécessaire de lisser des fonctions qui réagissent rapidement aux changements du signal. Dans l'application typique, vous pouvez traiter un signal d'entrée en temps réel, et voulez calculer des choses telles que la valeur moyenne récente, ou obtenir une pente instantanée pour elle. Mais les signaux du monde réel sont souvent bruyants. Quelques échantillons bruyants rendent la valeur actuelle du signal, ou sa pente, très variable. Moyennes mobiles La fonction de lissage la plus simple est une moyenne mobile en fenêtres. À mesure que les échantillons arrivent, vous prenez une moyenne des valeurs N les plus récentes. Cela va lisser les pointes, mais introduit un délai 8211 ou de latence. Votre moyenne sera toujours retardée par la largeur de votre moyenne mobile. L'exemple ci-dessus est relativement coûteux à calculer. Pour chaque échantillon, vous devez itérer sur la taille entière de la fenêtre. Mais il existe des moyens moins coûteux de garder la somme de tous les échantillons dans la fenêtre dans un tampon et d'ajuster la somme à mesure que de nouveaux échantillons entrent en jeu. Un autre type de moyenne mobile est la moyenne mobile pondérée 8222 qui pondère pour chaque position dans la fenêtre d'échantillon. Avant de calculer la moyenne, multipliez chaque échantillon par le poids de cette position de fenêtre. Techniquement, cela s'appelle une 8220convolution8221. Une fonction de pondération typique applique une courbe en cloche à la fenêtre d'échantillon. Cela donne un signal qui est plus accordé au centre de la fenêtre, et encore un peu tolérant des échantillons bruyants. Dans l'analyse financière, vous utilisez souvent une fonction de pondération qui valorise les échantillons récents plus, pour donner une moyenne mobile qui suit plus étroitement les échantillons récents. Les échantillons plus âgés reçoivent progressivement moins de poids. Cela atténue un peu les effets de latence tout en donnant un lissage raisonnablement bon: Avec une moyenne pondérée, vous devez toujours itérer sur la taille de la fenêtre entière pour chaque échantillon (à moins que vous ne puissiez contraindre les poids autorisés à certaines fonctions). La moyenne mobile exponentielle Un autre type de moyenne est la moyenne mobile exponentielle, ou EMA. Cela est souvent utilisé lorsque la latence est critique, comme dans l'analyse financière en temps réel. Dans cette moyenne, les poids diminuent exponentiellement. Chaque échantillon est évalué en pourcentage inférieur au prochain échantillon le plus récent. Avec cette contrainte, vous pouvez calculer la moyenne mobile très efficacement. Où alpha est une constante qui décrit comment les poids des fenêtres diminuent avec le temps. Par exemple, si chaque échantillon devait être pondéré à 80% de la valeur de l'échantillon précédent, vous devez définir l'alpha 0.2. Le plus petit alpha devient le plus votre moyenne mobile est. (Par exemple, il devient plus lisse, mais moins réactif à de nouveaux échantillons). Les poids pour un EMA avec alpha0.20 Comme vous pouvez le voir, pour chaque nouvel échantillon, vous n'avez qu'à le faire en moyenne avec la valeur de la moyenne précédente. Donc le calcul est très très rapide. En théorie, tous les échantillons précédents contribuent à la moyenne actuelle, mais leur contribution devient de façon exponentielle plus petite au fil du temps. C'est une technique très puissante, et probablement la meilleure si vous voulez obtenir une moyenne mobile qui répond rapidement à de nouveaux échantillons, a de bonnes propriétés de lissage et est rapide à calculer. Le code est trivial: EMA pour Irregular Time Series L'EMA standard est très bien lorsque le signal est échantillonné à des intervalles de temps réguliers. Mais que faire si vos échantillons viennent à intervalles irréguliers Imaginez un signal continu qui est échantillonné à intervalles irréguliers. C'est la situation habituelle dans l'analyse financière. En théorie, il ya une fonction continue pour la valeur de tout instrument financier, mais vous ne pouvez échantillonner ce signal chaque fois que quelqu'un exécute réellement un métier. Donc, votre flux de données se compose d'une valeur, plus l'heure à laquelle il a été observé. Une façon de traiter cela est de convertir le signal irrégulier en un signal régulier, en interpolant entre les observations et le rééchantillonnage. Mais cela perd des données, et il réintroduit la latence. Il est possible de calculer directement une EMA pour une série temporelle irrégulière: Dans cette fonction, vous passez l'échantillon actuel à partir de votre signal, et l'échantillon précédent, et le temps écoulé entre les deux, et la valeur précédente retournée par cette fonction. Alors, comment ce travail a-t-il généré une onde sinusoïdale, puis l'a échantillonné à intervalles irréguliers, et a introduit environ 20 bruit. C'est le signal variera aléatoirement - 20 à partir du signal sinusoïdal original 8220true8221. Comment la moyenne mobile exponentielle irrégulière récupère-t-elle le signal? La ligne rouge est l'onde sinusoïdale d'origine 8211 échantillonnée à intervalles irréguliers. La ligne bleue est le signal avec le bruit ajouté. La ligne bleue est le seul signal que l'EMA voit. La ligne verte est l'EMA lissée. Vous pouvez le voir récupère assez bien le signal. Un peu vacillant, mais que pouvez-vous attendre d'un tel signal source bruyante? Il est décalé d'environ 15 vers la droite, parce que l'EMA ne introduire une certaine latence. Le plus lisse que vous voulez, plus la latence que vous verrez. Mais à partir de cela, vous pouvez par exemple calculer une pente instantanée pour un signal irrégulier bruyant. Que pouvez-vous faire avec ce Hmm8230. Ressources:


No comments:

Post a Comment