Friday 10 November 2017

Flytting Gjennomsnitt Avvik Deteksjon


Forfatterne undersøker hvordan syklister i Galileo-bærefasemålinger kan registreres mer effektivt ved hjelp av fire frekvenser. INNOVATION INSIGHTS med Richard Langley MER SATELLITER ELLER MER SIGNALER Det var spørsmålet satt til delegatene på GNSS Election 08, den stimulerende og morsomme underholdningen som ble levert på GPS World Leadership Dinner holdt sammen med Institute of Navigations møtet i Savannah i september 2008. Under debatten foran valget foreslo satellittpartiet at GNSS-brukersamfunnet ville bli bedre betjent av flere satellitter enn flere signaler. De hevdet at flere satellitter (mer enn de i den operative GPS-konstellasjonen) ville muliggjøre mer kontinuerlig og pålitelig posisjonering i byer, fjellområder og andre vanskelige omgivelser, og at de eldre GPS-signalene var tilstrekkelig. Greg Turetsky, en av kandidatene deres, sa at jeg ville opprettholde økonomisk sett at det var langt mer kostnadseffektivt for våre komponenter å ha flere av de samme satellittene for å gi dem mer av de samme tjenestene de liker i dag, på flere områder , i stedet for å skape nye ting som de ikke har bruk for. Signalpartiet, derimot, foreslo for flere signaler med mottakere som er i stand til å bruke dem for å gi høy nøyaktighet for et bredt spekter av GNSS-bruksområder. Signalpartskandidaten Javad Ashjaee opined, Vi er partiet i å bygge veier, generere nøyaktige kart, dyrke maten ved å automatisere landbruket, synkronisere kraftverkene dine. Vi jobber til og med på å fly automatisk til fly for å bruke luftrommet mer effektivt. Selv om det ble bestilt, ble valget vunnet av satellittpartiet, 62 stemmer til 46. Men begge sidene har tydeligvis tilbudt gunstige fremskritt til GNSS-brukersamfunnet, så hvorfor ikke jobbe sammen, få partiene til å inngå en allianse og gi begge satellitter og flere signaler Rask frem til 2016. Alliansen har skapt og vi har det beste fra begge verdener. Vi har to komplette GNSS-konstellasjoner, GPS og GLONASS, med to andre, Galileo og BeiDou, på sporet for ferdigstillelse de neste årene. Vi har også regionale systemer som enten leverer en uavhengig lokal posisjoneringstjeneste eller forsterker GPS med NavIC (også kjent som Indian Regional Navigation Satellite System) og QZSS. For ikke å nevne et økende antall satellittbaserte forsterkningssystem satellitter. Da jeg kompilerte The Almanac for august-utgaven, var det over 100 GNSS-satellitter som sendte signaler til brukere. Og ikke bare flere signaler fra flere satellitter, men mer teknologisk avanserte signaler på flere frekvenser. De mange signaler som nå overføres av GNSS-satellitter, fører allerede til videre fremskritt i posisjonering, navigering og timing, før fullstendige konstellasjoner som overfører disse signalene er på plass. Et godt tilfelle er Galileos Open Service, som overføres i E1- og E5-båndene. En modifisert versjon av binær offset-carrier (BOC) - modulasjon, kalt alternativ BOC eller AltBOC, brukes til å generere bredbånds E5-signalet. Dens struktur er slik at en mottaker kan spore og gjøre målinger på bare den nedre frekvensdelen av signalet sentrert på 1176.450 MHz (E5a), bare den øvre frekvensdelen sentrert på 1207.140 MHz (E5b), hele AltBOC-signalet sentrert på 1191.795 MHz (E5ab), eller en hvilken som helst kombinasjon av disse, inkludert alle tre. Ved å bruke alle tre sammen med E1-signalet får vi en firefrekvensposisjonering. Hva er fordelene ved å bruke fire frekvenser Det er flere, men i denne månedskolonnen forteller en nylig utdannet belønnet belgisk student og sin veileder oss hvordan syklister i Galileo-bærefasemålinger kan registreres mer effektivt og effektivt ved hjelp av fire frekvenser. Tilgjengeligheten av data som tilbys i Galileo GNSS Open Service på fire transportfrekvenser, åpner veien til nye flerfrekvensløsninger for sivile brukere. I undersøkelsen som ble rapportert i denne artikkelen, fokuserte vi på en av konsekvensene av signalsporingstap, utseendet på sykluslister, og hvordan bruken av de fire frekvensene kan bidra til å gjenkjenne dem. Cycle-slip deteksjon er et sentralt problem for applikasjoner med høy presisjon posisjonering. Alle brukere som har behov for å bestemme en presis og pålitelig posisjon, må være oppmerksomme på den mulige tilstedeværelsen av sykluslister i deres data, siden de kompromitterer datakvaliteten. Tradisjonelt ble to transportfrekvenser brukt til posisjonering for eksempel GPS L1 og L2 frekvensene. Mer nylig har tre-carrier posisjonering tillagt forbedret presisjon og nøyaktighet. Selv om bruk av en tredje bærefrekvens har gjort det mulig for oss å delvis løse problemløsningen for syklusglass, mangler eksisterende prosedyrer fremdeles noen aspekter. En av dagens største utfordringer er deteksjon av syklusglass under høy ionosfærisk aktivitet, og derfor fokuserte vi på denne spesifikke case-studien. Og siden bruken av tre frekvenser bidrar til å forbedre pålitelig syklusgjenkjenning, kan ikke bruken av en ytterligere fjerde frekvens ytterligere forbedre deteksjonsmulighetene. Siden Galileo leverer fire frekvenser i Open Service, trodde vi at vi kunne forbedre sikringsglasset gjenkjenning algoritme ytelse en gang til. Framework. I denne artikkelen introduseres en ny quad-frekvens syklus-slip deteksjonsalgoritme tilsynelatende, et uutforsket spor i litteraturen til nå. Algoritmen bruker uifferensierte bærefase observasjoner fra en stasjonær stasjonær mottaker. Først utviklet for etterbehandling, har algoritmen også blitt tilpasset sanntidsapplikasjoner. Denne algoritmen har til hensikt å forbedre syklus-slip deteksjon under høy ionosfærisk aktivitet. CYCLE SLIPS Selv om kode (pseudorange) målinger vanligvis brukes til standardposisjonering, må en hvilken som helst presis posisjoneringsapplikasjon bruke bærefasemålinger på grunn av deres bedre kvalitet. Dessverre er sistnevnte potensielt utsatt for sykluslister, og genererer en konstant forspenning i data, og hvis den ikke er oppdaget og ukorrigert, påvirker den avledede posisjonering. Bærefasemålinger er laget ved å observere beatfasen, det vil si forskjellen mellom den mottatte bæreren fra satellitten og en mottakergenerert kopi. Ved den første observasjonsperioden kan bare den fraksjonale delen av denne taktfasen måles, men heltallets offset mellom satellittsignalet og mottakerens replika er ukjent. Dette heltallet av sykluser kalles initialfelt-tvetydigheten og forblir konstant i observasjonsperioden. Bærefasen observerbar (mellom en satellitt i og en mottaker p), i meter, er gitt ved følgende ligning: hvor abonnementet f k indikerer begrepet avhengighet av frekvensen og på bærefasen observerbar. G er det geometriske uttrykket (det vil si en funksjon av det geometriske området mellom mottakeren og den sporede satellitten, den troposfæriske forsinkelsen, og satellitt - og mottakerens klokkeforstyrrelse), jeg er ionosfærisk forsinkelse, M er flerveisfeilen, HW står for satellitt - og mottakerens maskinvareforsinkelser, c er vakuumhastigheten til lys, N er initialfase-tvetydigheten, og er den tilfeldige feilen (også kalt fase-støy). Ved første observasjonstidspunktet initialiseres en heltallteller, og ettersom sporing fortsetter, økes den med en syklus hver gang slåfasen endres fra 2 til 0. Hvis mottakeren til og med kort fortaber signalet, blir tellingen suspendert og et helt antall sykluser går tapt. Dette tapet kan skyldes ulike årsaker (signalobstruksjon, rask forandring i bærefasen observerbar, og så videre). I observasjonsligningen vil syklusen vises som en endring i verdien av initialfase-tvetydigheten. Dermed vil en encyklussjikt innebære et fasemålsforskyvning på ca. 20 centimeter (lik bærebølgelengden), avhengig av den berørte bærefrekvens. Syklus-slip-størrelsen kan være hvilken som helst verdi fra en til tusenvis av sykluser. Ionospherisk forsinkelse er det eneste begrepet som muligens kan forveksles med et lite syklus. Faktisk, i løpet av en ionosfærisk forstyrrelseshendelse, vil denne forsinkelsesvariasjonen mellom to observasjonsperioder (med mellomrom med 30 sekunders intervaller) ofte nå 20 centimeter (størrelsen på en en-syklus i fasemåling) eller mer. Jonosfæren har to hovedkonsekvenser. For det første, som tidligere nevnt, kan slipsene skjules i observasjonslyd (inkludert ionosfærisk variabilitet) og ikke oppdaget. For det andre kan mottatt signalvariabilitet føre til tap av lås og dermed sykluslister. Mange forskjellige konfigurasjoner kan oppstå når signalet går tapt. Signalsporing kan avbrytes på en enkelt bærer som resulterer i en isolert syklusskive (ICS) eller samtidig på flere bærere. I andre tilfelle kan glidestørrelsen på de forskjellige bærerne være de samme (samtidige sykluslister av samme størrelse, eller SCS-SM) eller forskjellige (samtidige sykluslister av forskjellige størrelser, eller SCS-DM). Deteksjonshistorie. Den første syklusgjenkjenningsalgoritmen ved hjelp av uifferensierte observasjoner, Turbo Edit, ble utviklet i 1990 av Geoff Blewitt. Kode og fase målinger fra to transportfrekvenser blir brukt. Den har blitt implementert i mange databehandlingsprogrammer, for eksempel GIPSY-OASIS II, PANDA og Bernese. Turbo Edit algoritmen har blitt forbedret mange ganger. I sin nyeste versjon ble den tilpasset å oppdage sykluser under høy ionosfærisk aktivitet, men det er fortsatt en dual-frekvens teknikk. Tilgjengelighet av en tredje, samtidig signalfrekvens tillater utvikling av nye kombinasjoner av observerbare data. En støyfasefase-kunkombinasjon som eliminerer geometriske og førsteordens ionosfæriske termer ble utviklet av Andrew Simsky og anvendt på syklusgjenkjenning. Det har også blitt utført studier for å bestemme de beste kombinasjonene som skal benyttes ved trippelfrekvensposisjonering, og deretter i syklusgjenkjennelses - og korreksjonsalgoritmer. Disse algoritmene bruker både kode og fasemålinger, samt en tredobbeltfrekvensmetode utviklet av Maria Clara de Lacy og kolleger. Bekymring om sykluser og forholdet til ionosfærisk signatur i data er trending. I 2011 publiserte Zhizhao Liu et papir om bruk av endringshastigheten for totalt elektronisk innhold for å oppdage sykluser. På den annen side konkluderte Simon Banville og Richard Langley i et papir utgitt i 2013 at den økte målestøyen i forbindelse med en aktiv ionosfære gjør korrigeringssyklusen slipper en pågående utfordring, noe som krever videre etterforskning, mens Xiaohong Zhang og kollegaer, i et papir som ble utgitt i 2014, kom til samme konklusjon mens de prøvde å reparere sykluslister under scintillasjonshendelser. Se Fortsett lesing for en liste over de uthevede papirene i historien om syklusgjenoppretting og korreksjon. QUAD-FREQUENCY ALGORITHM Cycle-slip deteksjonsteknikker bruker testmengder (hvor syklusen er representert ved et hopp eller betydelig endring i mengden). Disse er knyttet til en diskontinuitetsdeteksjonsalgoritme, som har som mål å finne hoppet. Testingsmengder. Testmengder er lineære kombinasjoner av observasjoner. De adskiller seg i flere aspekter: de observerbare dataene (i vårt tilfelle bare fasemålinger), antall bærefrekvenser som brukes og indre egenskaper av kombinasjonen (geometrifri, ionosfærenfri og støynivået på kombinasjonen). I vår studie antok vi verdier for støyen på Galileo-bærefasemålinger som angitt i tabell 1. Tabell 1. Frekvenser tilgjengelig i Galileo Open Service. Triple-Frequency Simsky-kombinasjon. Vår algoritme er hovedsakelig basert på å utnytte tri-frekvensen Simsky-kombinasjonen. Det er en geometrifri og ionosfærenfri bærefasekombinasjon, i meter, som vist i ligning 2. Når fire frekvenser er tilgjengelige, kan fire trippelfrekvenskombinasjoner beregnes. To av dem er tilstrekkelig til å oppdage slips på noen av de fire frekvensene. Kombinasjonsvalget må først avhenge av presisjonen (gitt av S i TABELL 2), oppnådd ved å anvende varians-kovariansforplantningsloven til råmålestøy (se tabell 1). Presisjon er ikke den eneste faktoren som skal tas i betraktning ved valg av passende kombinasjoner. I hver kombinasjon har bærefrekvenser forskjellige virkninger på grunn av deres forskjellige bølgelengder: virkningen av en en-syklus-amplitude-glid på E1-frekvensen vil faktisk ikke være den samme som den på E5a, E5b eller E5ab (se tabell 2). Den minste effekten på en gitt kombinasjon er alltid den vanskeligste å oppdage. Tabell 2. Simsky-kombinasjoner. Effektiviteten av en gitt kombinasjon vil derfor avhenge av både effekten av den minste syklusen og kombinasjonsnøyaktigheten (gitt ved standardavviket): jo høyere forholdet mellom dem er, jo mer effektive kombinasjonen. Blant de fire kombinasjonsmulighetene er de to høyeste forholdene de som dannes av E5a-E5b-E5ab og E1-E5a-E5b kombinasjonene. Disse vil dermed være de som brukes i vår algoritme. Simsky-kombinasjonen gir oss mulighet til å oppdage ICS samt SCS-DM sykluslister. Likevel er denne kombinasjonen ufølsom for SCS-SM-slips på alle fire frekvensene (som er et sjeldent fenomen). Vi må derfor legge til en annen testmengde i vår algoritme. Dualfrekvens, geometrisk-fri kombinasjon. Den tofrekvente, geometrifrie (GF) - kombinasjonen, i meter, gjør at vi kan oppdage SCS-SM-slips. Det kan beregnes som følger: Dessverre påvirkes den rå dual-frekvens, geometrifrie kombinasjonen av ionosfærisk forsinkelse. For å redusere ionosfærisk jevn trend, beregnes en fjerde rekkefølge tidsforskjell. Likevel lider resultatet av raske variasjoner av ionosfærisk forsinkelse. Når fire frekvenser er tilgjengelige, kan seks dobbeltfrekvenskombinasjoner beregnes. En er tilstrekkelig til å oppdage tilstedeværelsen av samtidige sykluser av samme størrelse. Valget vil igjen avhenge av forholdet mellom kombinasjonspresisjon og den minste effekten av samtidige en-sykluser. På den annen side påvirker kombinasjonen resultatene presisjonen. På den annen side vil syklisten, dermed den minste effekten å oppdage, bli forsterket ved høy rekkefølge differensiering. Det beste forholdet oppnås med en fjerde rekkefølgeforskjell (se TABELL 3), selv om en jevn variasjon på grunn av ionosfæren allerede er fjernet i andre gradens differensiering (se figur 1). TABELL 3. Geometrifrie kombinasjoner. Figur 1. Tidsforskjellfri geometrifri kombinasjon: (a) Råkombinasjon, (b) Forskjellen i første rekkefølge, (c) Forskjellen i andre rekkefølge og (d) fjerde rekkefølgeforskjell. Selv om en kombinasjon er tilstrekkelig, vil vår tilnærming bruke to av dem til å dobbeltsjekke utgangene deres: E1-E5a og E1-E5ab, siden de gir de beste forholdene. Deteksjonsmetode. For å oppdage en diskontinuitet på grunn av en syklus i testmengden, er det nødvendig å etablere detektjonsterskler. Terskelverdier er en av nøkkelparametrene i syklusgjenkjenning, siden de fører til at det blir avgjort om syklusen er til stede eller ikke. Hvis terskelen er for restriktiv, kan noen ekte slips bli savnet (en falsk negativ). På den annen side, hvis det ikke er begrensende nok, kan diskontinuiteter som ikke samsvarer med en syklusglass bli oppdaget (falskt positivt). Det er viktig å merke, som vår studie høydepunkter, at det ikke er noen perfekt terskel som passer til alle behov og begrensninger. Valget må gjøres med tanke på stillingsapplikasjonen ved hånden. Terskelverdier gitt i denne artikkelen er representativ og ble empirisk bestemt for å være optimal i forhold til vårt mål om syklusglass deteksjon under høy ionosfærisk aktivitet. Resultater og videre diskusjoner om ulike terskler finnes i den første forfatterens avhandling (se videre lesing). Syklister vil påvirke den raske Simsky-kombinasjonen med et skifte i den gjennomsnittlige kombinasjonsverdien, mens den tidsforskjelde en vil bli påvirket av en spike. Påvisning ved bruk av Simsky-kombinasjon. Syklusgjenkjenning på tri-frekvens-Simsky-kombinasjonen utføres i to trinn i trinn (se figur 2). Fig. 2. Deteksjonsmetode for Simsky-kombinasjonen. Den første bruker en tidsforskjell kombinasjon for å oppdage potensielle sykluslister ved hjelp av et 20-observasjons-størrelse frem - og bakover-glidende gjennomsnittsvindu, hvor gjennomsnittlige og standardavviksstatistikkparametrene beregnes. Den nåværende epoken er sammenlignet med de forrige for å oppdage en spike, som kan tilsvare en syklus. To typer terskler brukes: statistisk (eller relativ) og absolutt. Som vist i figur 3. Ved hjelp av en statistisk terskel kan vi tilpasse deteksjon til inerti av statistiske parametere. Forutsatt støyen på observasjonene (her følger Simsky-kombinasjonene) følger en normal fordeling, inkluderer et konfidensintervall på 3-sigma rundt gjennomsnittet 95 prosent av observasjonene. Gitt forholdet mellom de to Simsky-kombinasjonene som ble brukt (beregnet tidligere), når suksessraten 100 prosent for begge kombinasjoner, noe som betyr at eventuelle ICS - og SCS-DM-slips på data vil bli oppdaget sikkert (ingen falske negativer). Likevel kan falske positiver oppstå fordi 5 prosent av dataene er statistisk utenfor 3-sigma-grensene. Figur 3. Statistiske og absolutte terskler. For å redusere denne hastigheten blir også en absolutt terskel påført, som er 0,4 ganger den minste effekten av en syklus på kombinasjonen (se tabell 2). Hvis vi kan ta figur 3 som et egnet eksempel på en ekstrem ionosfærisk forstyrrelse som fører til uvanlig høy variabilitet i kombinasjonsresultater, vil den absolutte terskelen mesteparten av tiden være langt høyere enn den statistiske og vil bidra til å redusere frekvensen av feiloppdagelser. Som en utgang fra dette første trinnet tildeles en flaggverdi til epoker med større verdier enn begge terskler, og som derfor potensielt påvirkes av sykluser. Når plasseringene av potensielle slips er oppnådd, består det andre trinnet i å sammenligne gjennomsnittet før og etter potensielle sykluslister for de flaggede epoker. En andre absolutt terskel påføres, som er 0,8 ganger den minste effekten. Hvis det finnes et annet potensielt syklus i deteksjonsvinduet, blir størrelsen på deteksjonsvinduet redusert for å unngå beregning av statistiske parametere på delvist skiftede data. Målet med det første trinnet er å oppdage potensielle slips. Derfor er det viktig å unngå å savne en ekte slip med lave terskelverdier, noe som ofte fører til feil positiv deteksjon. På den annen side har det andre trinnet til hensikt å skille de potensielle gjenværende falske positivene utadrettespydene i den raske kombinasjonen fra de virkelige syklus-glideskiftene i gjennomsnitt. Den teoretiske utførelsen av denne to-trinns tilnærmingen er 100 prosent: verken falske positive eller falske negativer skal oppstå. Deteksjon ved hjelp av geometrisk-fri kombinasjon. Siden den fjerde rekkefølge differensierte geometrifrie kombinasjonen påvirkes av en gjenværende ionosfærisk forsinkelse, kan den foregående prosedyren ikke påføres. Som en hvilken som helst tidsforskjell testmengde, vil glidebrytelsen fremstå som en spike i kombinasjonen. Derfor er det ingen måte å skille sykluslister fra utjevnere ved en gjennomsnittlig nivå sammenligning (andre trinn). Følgelig består gjenkjenningsmetoden kun av et frem-og-bakover-glidende gjennomsnittsvindu, hvor et 4-sigma konfidensintervall sammenlignes med den nåværende epokombinasjonsverdi. Faktisk, i dette tilfellet, har vi ikke råd til å møte falske positive på 5 prosent av epoker (fremkalt ved bruk av en 3-sigma-terskel) siden ingen ytterligere trinn kan settes opp for å eliminere gjenværende falske positiver. De teoretiske forestillinger av geometri-fri deteksjonsmetoden forventes også å nå 100 prosent. Igjen må det ikke oppstå falske positive eller falske negativer. Vær oppmerksom på at denne beregningen bare tar hensyn til forhold, og unnlater det faktum at den geometrifrie kombinasjonen også er følsom for ionosfærenes variabilitet. VALIDASJON Vi har testet quadfrekvensalgoritmen på 30 sekunders quad-frekvens Galileo observasjoner fra stasjonene GMSD (i Nakatane, Japan) og NKLG (i Libreville, Gabon). GMSD-observasjonene ble brukt til å teste algoritmenes robusthet mot simulerte spesielle tilfeller, mens NKLG-dataene ble brukt til å vurdere algoritmenes adferd for tilfeller møtt i ekvatorialområdet. Metodikk. Syklister ble kunstig satt inn i GMSD-dataene, og simulerte følgende syklusslipningsscenarier: ICS, SCS-DM og SCS-SM. Fordelen med en slik simuleringsmetode er at algoritmen kan lett sammenlignes med den allerede kjente løsningen. Videre var disse dataene blitt brukt til å bestemme om bruken av mer transportfrekvenser kunne øke syklusgjenkjenningsytelsen. Vi analyserte et 50-dagers NKLG datasett som dekker observasjoner fra 6. januar til 1. februar og 24. juni til 19. juli 2014. Denne prøven består av ulike jonosfæriske tilstander: rolige og ekstreme dager, samt typisk ekvatorial aktivitet . Siden solsyklusen topp skjedde i 2014, passer data fra det året perfekt til en studie av virkningene av høy ionosfærisk aktivitet. Vi brukte NKLG rådata for å oppnå et dobbeltmål. For det første ønsket vi å bestemme andelen epoker hvor små sykluser (en, to eller fem sykluser) ikke kunne skilles. Dette ble utført ved å sammenligne effekten (i meter) av slike scenarier til den øyeblikkelige terskelen som er forbundet med hver epoke. I tilfelle av en høy syklus-slip deteksjon terskel, kunne potensielt tilstede slips av en, to eller fem sykluser ikke detekteres. Fraksjonen av epoker på en dag for hvilken slike små sykluser ikke ville detekteres, for hver kombinasjon som ble brukt i algoritmen, syntes å være en egnet indikator for algoritmenes effektivitet i ekvatorialområdet. For det andre analyserte vi resultater ved å visuelt vurdere algoritmutgang ved hjelp av kombinasjonsgrafikk, og prøvde å svare på følgende spørsmål: Flappede epoker ser ut til å bli påvirket av sykluser. Er det faktiske syklusstreker som forblir uoppdagede resultater. Vi så nøye på resultatene fra både våre simuleringer og analysen av rå data. Simulering av spesielle saker. Sammenlignet med tilsvarende dual - og triple-frekvens-metoder, ga vår nye quadfrekvensalgoritme bedre resultater: alle infiserte sykluslister ble vellykket oppdaget og ingen falske positive ble lagt merke til. NKLG Raw Datasett Analyse. Valideringsprosessen ved hjelp av NKLG-rådata fremhever flere trender i algoritmresultater. Først av alt er det interessant å legge merke til at deteksjonen av isolerte slips samt slips av forskjellig størrelse (ved hjelp av Simsky-kombinasjonene) ble garantert for hver observasjonsperiode i hver analysert dag. Faktisk oversteg Simsky øyeblikkelige terskler aldri effekten av en glid med en-syklusamplitude. I tillegg, i 25 prosent av de analyserte dagene, kunne det også garanteres deteksjon av sykluser av samme størrelsesorden. For de resterende dagene kan det ikke garanteres noen samtidige sykluser, hvis amplituder er mindre enn fem sykluser, for noen observasjonsperioder, noe som med rimelighet kan forsømmes på grunn av den svært små sannsynligheten for å oppleve slike eksepsjonelle tilfeller. Dette skyldes virkningen av ionosfærisk variabilitet på den geometrifrie kombinasjonen, noe som induserer høye øyeblikkelige terskelverdier. Imidlertid lider både Simsky og geometrifrie kombinasjoner av falsk positiv gjenkjenning under ekstreme ionosfæriske hendelser: hvis en syklus er påvist, tilsvarer den noen ganger en utligger. Denne bivirkningen skyldes terskelvalgene vi lagde for å matche vårt opprinnelige formål å oppdage alle sykluslister sikkert, i stedet for å risikere å savne en av dem, selv om falske positiver er en del av resultatlisten. YTTERLIGERE FORBEDRINGER I tillegg til etterbehandlingsapplikasjoner har vi også vurdert en real-time-tilpasning av algoritmen. Realtidsbegrensningen påvirker både Simsky og geometrifrie deteksjonsmetoder. I denne konfigurasjonen kan det statistiske vinduet bare bevege seg fremover, som forsømmer syklusgjenkjennelse på de første 20 epokene. Videre kan den gjennomsnittlige nivåsammenligningen (se Simsky-deteksjonsmetoden beskrevet tidligere) ikke lenger vurderes fordi gjennomsnittet etter en potensiell syklusglass ikke kan beregnes i sanntidsbehandling. Selv om vår quadfrekvens detekteringsalgoritme lider av sanntidsbegrensningen, viser den seg fortsatt effektiv hvis sistnevnte er tatt hensyn til passende terskelvalg. Cycle-slip deteksjon er egentlig bare et første skritt, og syklus-slip korreksjon bør fullføre prosedyren for å unngå diskontinuiteter. Det skal imidlertid påpekes at bare å være oppmerksom på forekomsten av en syklus i et datasett er verdifull informasjon til en bruker, og i den tilsvarende epok kan parametrene i løsningen bli reinitialisert. Forbedret med en egnet sykluskorrigeringsmetode og en sanntidsfunksjon, kan algoritmen integreres direkte i en programvaremottaker, slik at det blir mulig å levere kontinuerlig og korrigert data til brukeren. KONKLUSJON I denne artikkelen har vi introdusert den første quad-frekvens syklus-slip deteksjon algoritmen, med en effektivitet som er klart et skritt fremover. Denne innovative gjenkjenningsmetoden åpner nye dører for mange forsknings - og kommersielle applikasjoner. Hver Galileo-bruker, enten sivil eller militær, vil kunne dra nytte av bedre posisjonering, spesielt under harde jonosfæriske forhold: ikke bare hvor ionosfæren er særlig rastløs, som i ekvatorielle og polare regioner, men også i alle bredder under en ionosfærisk forstyrrelse. Med hensyn til presis posisjonering er dette enda et skritt som forsterker Galileos konkurranseevne mot andre dual - eller triple-frekvenssystemer. ERKLÆRINGER Denne artikkelen er basert på papiret Cycle Slips Detection i Quad-Frequency Mode: Galileos Bidrag til en effektiv tilnærming under High Ionospheric Activity, den vinnende innsendingen til 20142015 Students Contest av Comit de Liaison des Gomtres Europens i Galileo, EGNOS, Copernicus kategori, som ble sponset av GSA, European Global Navigation Satellite Systems Agency. LAURA VAN DE VYVERE mottok en M. Sc. i geomatikk og geometrologi fra Universit de Lige, Belgia, i 2015. Hennes masteroppgave var dedikert til Galileo-syklusgjenkjenning under ekstrem ionosfærisk aktivitet. I 2015 kom hun til M3 Systems Belgium i Wavre som radionavigering prosjekt ingeniør og er for tiden involvert i GNSS reflektering og GNSS hybridisering prosjekter. REN WARNANT mottok en M. Sc. i fysikk i 1988 og en ph. d. i fysikk med en spesialitet i GNSS i 1996, både fra Universitetet Catholique de Louvain, Louvain-la-Neuve, Belgia. Han startet sin karriere som geodesist ved Det kongelige observatoriet i Belgia i 1988. Siden juni 2011 er han en heltidsprofessor og leder av Geodesy og GNSS Laboratory ved Universitetet i Lige hvor han er ansvarlig for utdanning innen rom geodesi og GNSS. YTTERLIGERE LESING Første forfatteres avhandling og prisvinnende papir Dtection des sauts de cycles en mode multi-frquence pour le systme Galileo av L. Van de Vyvere, mmoire (avhandling) for master og vitenskapelig gographiques orientation gomatique et gomtrologie, Universit de Lige, Belgia, juni 2015. Cycle Slips Detection i Quad-Frequency Mode: Galileos Bidrag til en effektiv tilnærming under High Ionospheric Activity av L. Van de Vyvere, den vinnende innsending til 20142015 Studentenes Contest of Comit de Liaison des Gomtres Europens i Galileo , EGNOS, Copernicus kategori, som ble sponset av GSA, European Global Navigation Satellite Systems Agency. Noen tidligere arbeider med syklus-gjenkjenning og reparasjon En effektiv to - og trefrekvensforbehandlingsmetode for Galileo og GPS-signaler av M. Lonchay, B. Bidaine og R. Warnant, i gjennomgangen av det tredje internasjonale kolloquium om vitenskapelige og grunnleggende aspekter av Galileo Program. København, Danmark, 31. august 2. september 2011. En ny automatisert syklusskjæringsdeteksjon og reparasjonsmetode for en enkelt dobbeltfrekvens GPS-mottaker av Z. Liu i Journal of Geodesy. Vol. 85, nr. 3, mars 2011, s. 171183, doi: 0.1007s00190-010-0426-y. Øyeblikkelig sanntidssyklus-slipkorreksjon av dobbeltfrekvens GPS-data av D. Kim og R. Langley i prosedyre av KIS 2001. Det internasjonale symposiet om kinematiske systemer i geodesi, geomatikk og navigasjon, Banff, Alberta, 58 juni 2001, s. 255264. En automatisert redigeringsalgoritme for GPS-data av G. Blewitt i geofysiske forskningsbokstaver. Vol. 17, nr. 3, mars 1990, s. 199202, doi: 10.1029GL017i003p00199. Forbedret presis punktposisjonering i forekomst av ionosfærisk scintillation av X. Zhang, F. Guo og P. Zhou i GPS Solutions. Vol. 18, nr. 1, jan. 2014, s. 5160, doi: 10.1007s10291-012-0309-1. Cycle Slip Detection og Reparasjon for ubestemte GPS observasjoner under High Ionospheric aktivitet av C. Cai, Z. Liu, P. Xia og W. Dai i GPS Solutions. Vol. 17, nr. 2, april 2013, s. 247260, doi: 10.1007s10291-012-0275-7. Mitigating virkningen av ionosfæriske sykluser i GNSS-observasjoner av S. Banville og R. B. Langley i Journal of Geodesy. Vol. 87, nr. 2, feb. 2013, s. 179193, doi: 10.1007s00190-012-0604-1. Real-Time Detection og Reparasjon av Cycle Slips i Triple-Frequency GNSS Measurements av Q. Zhao, B. Sun, Z. Dai, Z. Hu, C. Shi og J. Liu i GPS Solutions. Vol. 19, nr. 3, juli 2015, s. 381391, doi: 10.1007s10291-014-0396-2. Real-Time Cycle Slip Detection i Triple-Frequency GNSS av M. C. de Lacy, M. Reguzzoni og F. Sans i GPS Solutions. Vol. 16, nr. 3, juli 2012, s. 353362, doi: 10.1007s10291-011-0237-5. Del dette: Tawani - de mangler ikke alle poengene. Hva du sier må defineres ved hjelp av generiske termer. Du kan ikke gå med et enkelt eksempel. Uten generelle definisjoner, hvis 400 er 30, er det fortsatt en outlier Og hvis det er 14 og 9 Hvor stopper du Du trenger stddev39s, intervaller, kvartiler, for å gjøre det. ndash Daniel Daranas Feb 2 09 kl 17:05 Ved trimming fjerner du ikke utelukker du bare ikke inkluderer dem i beregningen. quotRemovequot kan tyde på at poeng ikke lenger er i datasettet. Og du fjerner ikke (eller ignorerer) dem fordi de er outliers kriteriet er (vanligvis) bare at de er i noen ekstremt brøkdel av dataene. En verdi som ikke er inkludert i et trimmet gjennomsnitt er ofte bare litt mer (eller mindre) enn den høyeste (laveste) verdien som følger med. ndash Nick Cox Dec 3 14 kl 16:48 Jeg vet ikke om det har et navn, men du kan lett komme opp med en rekke algoritmer for å avvise utestengere: Finn alle tallene mellom 10. og 90. prosentiler (gjør dette ved å sortere og avvise de første N10 og siste N10 tallene) og ta middelverdien av de gjenværende verdiene. Sort values, reject high and low values as long as by doing so, the meanstandard deviation change more than X. Sort values, reject high and low values as long as by doing so, the values in question are more than K standard deviations from the mean. The most common way of having a Robust (the usual word meaning resistant to bad data) average is to use the median . This is just the middle value in the sorted list (of half way between the middle two values), so for your example it would be 90.5 half way between 90 and 91. If you want to get really into robust statistics (such as robust estimates of standard deviation etc) I would recommend a lost of the code at The AGORAS group but this may be too advanced for your purposes. answered Feb 13 09 at 9:22 If all you have is one variable (as you imply) I think some of the respondents above are being over critical of your approach. Certainly other methods that look at things like leverage are more statistically sound however that implies you are doing modeling of some sort. If you just have for example scores on a test or age of senior citizens (plausible cases of your example) I think it is practical and reasonable to be suspicious of the outlier you bring up. You could look at the overall mean and the trimmed mean and see how much it changes, but that will be a function of your sample size and the deviation from the mean for your outliers. With egregious outliers like that, you would certainly want to look into te data generating process to figure out why thats the case. Is it a data entry or administrative fluke If so and it is likely unrelated to actual true value (that is unobserved) it seems to me perfectly fine to trim. If it is a true value as far as you can tell you may not be able to remove unless you are explicit in your analysis about it. answered Dec 3 14 at 13:58 My statistics textbook refers to this as a Sample Mean as opposed to a Population Mean. Sample implies there was a restriction applied to the full dataset, though no modification (removal) to the dataset was made. answered Mar 26 16 at 3:13 0. Welcome to the site. 1. Which book Please give a reference. 2. quotSample meanquot does not typically refer to a mean obtained after removing outliers. ndash Juho Kokkala Mar 26 16 at 8:06 It can be the median. Not always, but sometimes. I have no idea what it is called in other occasions. Hope this helped. (At least a little.)I am working with a large amount of time series. Disse tidsseriene er i utgangspunktet nettverksmålinger som kommer hvert 10. minutt, og noen av dem er periodiske (dvs. båndbredden), mens noen andre arent (dvs. mengden rutingstrafikk). Jeg vil gjerne ha en enkel algoritme for å gjøre en online utleder deteksjon. I utgangspunktet vil jeg beholde alle historiske data for hver tidsserie i minnet (eller på disken), og jeg vil oppdage en hvilken som helst utvider i et levende scenario (hver gang en ny prøve blir tatt). Hva er den beste måten å oppnå disse resultatene Jeg bruker for øyeblikket et glidende gjennomsnitt for å fjerne litt støy, men hva er de neste enkle ting som standardavvik, sint. mot hele datasettet virker det ikke bra (jeg kan ikke anta at tidsseriene er stasjonære), og jeg vil gjerne ha noe mer nøyaktig, helst en svart boks som: dobbelt outlierdetection (dobbel vektor, dobbel verdi) der vektoren er en rekke dobbeltholdige de historiske dataene, og returverdien er anomalitetspoeng for den nye samplingsverdien. spurte Aug 2 10 kl 20:37 Ja, jeg har antatt at frekvensen er kjent og spesifisert. Det er metoder for å estimere frekvensen automatisk, men det vil komplisere funksjonen betydelig. Hvis du må estimere frekvensen, kan du prøve å stille et eget spørsmål om det - og jeg vil nok gi svar. Men det trenger mer plass enn jeg har tilgjengelig i en kommentar. ndash Rob Hyndman Aug 3 10 kl 23:40 En god løsning vil ha flere ingredienser, blant annet: Bruk et motstandsdyktig, bevegelige vindu glatt for å fjerne ikke-stabilitet. Gi uttrykk for de opprinnelige dataene slik at residualene med hensyn til glatt er omtrent symmetrisk fordelt. Gitt dataene dine, er det sannsynlig at deres firkantede røtter eller logaritmer vil gi symmetriske gjenstander. Bruk kontroll diagrammet metoder, eller i det minste kontroll diagram tenkning, til residualene. Så langt som det siste går, viser kontrolldiagramtanken at konvensjonelle terskler som 2 SD eller 1,5 ganger IQR utover kvartilene virker dårlig, fordi de utløser for mange falske out-of-control signaler. Folk bruker vanligvis 3 SD i kontrolldiagramarbeid, hvorav 2,5 (eller til og med 3) ganger IQR utover kvartilene ville være et godt utgangspunkt. I have more or less outlined the nature of Rob Hyndmans solution while adding to it two major points: the potential need to re-express the data and the wisdom of being more conservative in signaling an outlier. Jeg er ikke sikker på at Loess er bra for en elektronisk detektor, men fordi det ikke fungerer bra på sluttpunktene. Du kan i stedet bruke noe så enkelt som et bevegelig medianfilter (som i Tukeys resistente utjevning). Hvis utjevnene ikke kommer i utbrudd, kan du bruke et smalt vindu (5 datapunkter, kanskje, som bare vil bryte ned med en utbrudd på 3 eller flere avvikere innenfor en gruppe på 5). Når du har utført analysen for å bestemme en god re-ekspresjon av dataene, vil du sannsynligvis ikke endre re-uttrykket. Derfor trenger nettleseren din bare å referere til de nyeste verdiene (det siste vinduet) fordi det ikke vil bruke de tidligere dataene i det hele tatt. Hvis du har veldig lange tidsserier, kan du gå videre for å analysere autokorrelasjon og sesongmessighet (som gjentatte daglige eller ukentlige svingninger) for å forbedre prosedyren. besvart aug 26 10 kl 18:02 John, 1,5 IQR er Tukey39s opprinnelige anbefaling for de lengste whiskers på en boksplott og 3 IQR er hans anbefaling for markeringspoeng som kvoter outliersquot (en riff på en populær 6039-setning). Dette er bygget inn i mange boxplot-algoritmer. Anbefalingen er teoretisk analysert i Hoaglin, Mosteller, Amp Tukey, Understanding Robust og Exploratory Data Analysis. ndash w huber 9830 okt 9 12 kl 21:38 Dette bekrefter tidsseriedata jeg har prøvd å analysere. Vinduet gjennomsnitt og også en standard standardavvik. ((x - avg) sd) gt 3 synes å være poengene jeg vil flagge som utelukker. Vel, vær så snill som advarsler, flagg jeg noe høyere enn 10 sd som ekstreme feilutviklere. Problemet jeg løper inn er det som er en ideell vinduslengde 395m med noe mellom 4-8 datapunkter. ndash NeoZenith Jun 29 16 at 8:00 Neo Din beste innsats kan være å eksperimentere med en delmengde av dataene dine og bekrefte konklusjonene dine med tester på resten. Du kan også gjennomføre en mer formell kryssvalidering (men det er nødvendig med forsiktighet med tidsseriedata på grunn av gjensidig avhengighet av alle verdiene). ndash w huber 9830 Jun 29 16 kl 12:10 (Dette svaret reagerte på et duplikat (nå lukket) spørsmål ved å oppdage utestående hendelser. Som presentert noen data i grafisk form.) Utleder detektering avhenger av dataens natur og hva du er villige til å anta om dem. Generelle metoder bygger på robust statistikk. Ånden i denne tilnærmingen er å karakterisere størstedelen av dataene på en måte som ikke påvirkes av noen avvikere og deretter peke på noen individuelle verdier som ikke passer inn i den karakteriseringen. Fordi dette er en tidsserie, legger det til komplikasjonen av å måtte (gjenoppdage) avvikere på en kontinuerlig basis. Hvis dette skal gjøres når serien utfolder seg, kan vi bare bruke eldre data for deteksjonen, ikke fremtidige data. For å beskytte mot de mange gjentatte tester vil vi gjerne bruke en metode som har svært lite falsk positiv rente. Disse overvejingene antyder at du kjører en enkel, robust flyttevinduutgangstest over dataene. Det er mange muligheter, men en enkel, lett forståelig og lett implementert en er basert på en løpende MAD: median absolutt avvik fra medianen. Dette er et sterkt robust mål for variasjon i dataene, i likhet med en standardavvik. En ekstern topp ville være flere MAD eller mer større enn medianen. Det er fortsatt noen tuning som skal gjøres. hvor mye av avvik fra hovedparten av dataene bør betraktes som eksternt og hvor langt tilbake i tid bør man se. La oss la disse være parametere for eksperimentering. Heres en R-implementering brukes på data x (1,2, ldots, n) (med n1150 å emulere dataene) med tilsvarende verdier y: Brukes til et datasett som den røde kurven illustrert i spørsmålet, produserer dette resultatet: Dataene vises i rødt, 30-dagers vinduet med median5MAD-grenseverdier i grått, og utjevningene - som bare er de dataværdiene over den grå kurven - i svart. (Terskelen kan bare beregnes fra begynnelsen av innledningsvinduet. For alle data i dette innledende vinduet brukes den første terskelen: derfor er den grå kurven flat mellom x0 og x30.) Effektene ved å endre parametrene er (a) øker verdien av vinduet en tendens til å glatte ut den grå kurven og (b) økende terskel vil øke den grå kurven. Å vite dette kan man ta et innledende segment av dataene og raskt identifisere verdier av parametrene som best adskiller de ytre toppene fra resten av dataene. Bruk disse parameterverdiene for å sjekke resten av dataene. Hvis et diagram viser at metoden er forverret over tid, betyr det at dataenes natur endrer seg og parametrene kan trenge å justeres. Legg merke til hvor lite denne metoden antar om dataene: De trenger ikke å bli distribuert normalt, de trenger ikke å vise noen periodicitet de ikke engang må være ikke-negative. Alt det antas, er at dataene oppfører seg på rimelig lignende måter over tid, og at de ytre toppene er synlig høyere enn resten av dataene. Hvis noen vil gjerne eksperimentere (eller sammenligne noen annen løsning med den som tilbys her), her er koden jeg brukte til å produsere data som de som er vist i spørsmålet. Jeg gjetter sofistikert tidsseriemodell vil ikke fungere for deg på grunn av den tiden det tar å oppdage avvikere ved hjelp av denne metoden. Derfor er det her en løsning: Først opprett en normal trafikkmønster i et år basert på manuell analyse av historiske data som står for tidspunkt på dagen, ukedag vs helg, måned på året etc. Bruk denne grunnlinjen sammen med en enkel mekanisme (for eksempel bevegelige gjennomsnitt foreslått av Carlos) for å oppdage avvikere. Du vil kanskje også vurdere den statistiske prosesskontrolllitteraturen for noen ideer. Ja, dette er akkurat det jeg gjør: til nå deler jeg signalet manuelt i perioder, slik at jeg for hver av dem kan definere et konfidensintervall der signalet skal være stasjonært, og derfor kan jeg bruke standardmetoder som som standardavvik. Det virkelige problemet er at jeg ikke kan bestemme det forventede mønsteret for alle signalene jeg må analysere, og derfor søker jeg etter noe mer intelligent. ndash gianluca Aug 2 10 kl 21:37 Her er en ide: Trinn 1: Implementer og estimer en generisk tidsseriemodell på en gang basert på historiske data. Dette kan gjøres offline. Trinn 2: Bruk den resulterende modellen til å oppdage avvikere. Trinn 3: Omkalibrere tidsseriemodellen (dette kan gjøres frakoblet), med en eller annen frekvens (kanskje hver måned), slik at trinn 2-deteksjon av utjevningsmidler ikke går for mye ut av dagens trafikkmønstre. Ville det fungere for konteksten din ndash user28 Aug 2 10 kl 22:24 Ja, dette kan fungere. Jeg tenkte på en lignende tilnærming (omdanner grunnlinjen hver uke, som kan være CPU-intensiv hvis du har hundrevis av univariate tidsserier for å analysere). BTW Det virkelige vanskelige spørsmålet er hva er den beste blackbox-stilalgoritmen for modellering av et helt generisk signal, vurderer støy, trendestimering og seasonalityquot. AFAIK, hver tilnærming i litteraturen krever en veldig hard quotparameter tuningquot-fase, og den eneste automatiske metoden jeg fant er en ARIMA-modell av Hyndman (robjhyndmansoftwareforecast). Jeg savner noe ndash gianluca Aug 2 10 kl 22:38 Igjen, dette virker ganske bra hvis signalet skal ha en sesongmessig sånn, men hvis jeg bruker en helt annen tidsserie (dvs. gjennomsnittlig TCP rundtur tid over tid ), vil denne metoden ikke fungere (siden det ville være bedre å håndtere det med en enkel global gjennomsnittlig og standardavvik ved å bruke et skyvevindu som inneholder historiske data). ndash gianluca Aug 2 10 kl 22:02 Med mindre du er villig til å implementere en generell tidsserie modell (som bringer inn sine ulemper med hensyn til latens osv.) er jeg pessimistisk at du vil finne en generell gjennomføring som samtidig er enkel nok å jobbe for alle slags tidsserier. ndash user28 Aug 2 10 kl 22:06 En annen kommentar: Jeg vet at et godt svar kan være quotso du kan estimere signalets periodicitet og bestemme algoritmen for å bruke i henhold til itquot, men jeg fant ikke en virkelig god løsning på denne andre problem (jeg spilte litt med spektralanalyse ved hjelp av DFT og tidsanalyse ved hjelp av autokorrelasjonsfunksjonen, men min tidsserie inneholder mye støy og slike metoder gir noen vanlige resultater mesteparten av tiden) ndash gianluca Aug 2 10 kl 22:06 A kommentere din siste kommentar: det er derfor jeg leter etter en mer generisk tilnærming, men jeg trenger en slags quotblack boxquot fordi jeg ikke kan gjøre noen antagelse om det analyserte signalet, og derfor kan jeg ikke opprette kvoteparameteren for læringalgoritmoten. ndash gianluca Aug 2 10 kl 22:09 Siden det er en tidsserie data, vil et enkelt eksponensielt filter en. wikipedia. orgwikiExponentialsmoothing glatte dataene. Det er et veldig godt filter siden du ikke trenger å samle gamle datapunkter. Sammenlign alle nyliggjorte dataverdier med sin ujevne verdi. Når avviket overskrider en bestemt forhåndsdefinert terskel (avhengig av hva du mener er en utjevneren i dataene dine), kan din utleder lett oppdages. besvart 30 april 15 kl. 8:50 Du kan bruke standardavviket fra de siste N-målingene (du må velge en egnet N). En god anomalie score ville være hvor mange standardavvik en måling er fra det bevegelige gjennomsnittet. svarte aug 2 10 kl 20:48 Takk for svaret ditt, men hva hvis signalet viser høy sesongmessighet (dvs. mange nettmålinger er preget av et daglig og ukentlig mønster på samme tid, for eksempel natt vs dag eller helg mot arbeidsdager) En tilnærming basert på standardavvik vil ikke fungere i det tilfellet. ndash gianluca Aug 2 10 kl 20:57 Hvis jeg for eksempel får en ny prøve hvert 10. minutt, og jeg gjør en ekstern oppdagelse av nettverksbåndbreddebruken av et selskap, i utgangspunktet klokka 18.00, vil dette tiltaket falle ned (dette er en forventet et totalt normalt mønster), og et standardavvik beregnet over et skyvevindu vil mislykkes (fordi det vil utløse et varsel sikkert). Samtidig, hvis målet faller ned klokka 16:00 (avviker fra vanlig utgangspunkt), er dette en ekte utvider. ndash gianluca aug 2 10 kl 20:58 hva jeg gjør er å gruppere målingene etter klokkeslett og ukedag, og sammenlign standardavvik av det. Fortsatt korrigerer ikke for ting som ferie og sommervinters sesongmessighet, men det er riktig det meste av tiden. Ulempen er at du virkelig trenger å samle et år med data for å få nok slik at stddev begynner å gi mening. Spektralanalyse registrerer periodicitet i stasjonære tidsserier. Frekvensdomene tilnærming basert på spektral tetthets estimering er en tilnærming jeg vil anbefale som ditt første skritt. Hvis uregelmessigheter i visse perioder betyr en mye høyere topp enn det som er typisk for den perioden, ville serien med slike uregelmessigheter ikke være stasjonær og spektral anslisning ikke ville være hensiktsmessig. Men hvis du antar at du har identifisert perioden som har uregelmessighetene, bør du kunne bestemme omtrent hva den normale topphøyden ville være, og da kan du sette en terskel på noe nivå over det gjennomsnittet for å utpeke de uregelmessige tilfellene. besvart 3 september 12 kl 14:59 Jeg foreslår ordningen nedenfor, som skal kunne implementeres på en dag eller så: Samle så mange prøver som du kan holde i minnet. Fjern åpenbare avvikere ved å bruke standardavviket for hvert attributt. Beregn og lagre korrelasjonsmatrisen og også gjennomsnittet av hvert attributt Beregn og lagre Mahalanobis avstandene til alle dine prøver. Beregne utløpsvanskeligheten: For den enkle prøven som du vil vite dens utjevnhet: Hent midlene, kovariansmatrise og Mahalanobis avstand s fra trening. Beregn Mahalanobis avstand d for prøven Returner prosentilen der d faller (ved hjelp av Mahalanobis avstandene fra treningen) Det vil være din outlier score: 100 er en ekstrem outlier. PS. Ved beregning av Mahalanobis avstanden. bruk korrelasjonsmatrisen, ikke kovariansmatrisen. Dette er mer robust hvis prøvemålingene varierer i enhet og nummer.

No comments:

Post a Comment