Miten (ja miksi) käyttää Outliers-toimintoa Excelissä
Poikkeama on arvo, joka on huomattavasti suurempi tai pienempi kuin suurin osa tietojesi arvoista. Kun käytät Exceliä tietojen analysoimiseksi, poikkeamat voivat heikentää tuloksia. Esimerkiksi tietosarjan keskiarvo voi todella kuvastaa arvojasi. Excel tarjoaa muutamia hyödyllisiä toimintoja, jotka auttavat hallitsemaan lähdöt, joten katsokaamme.
Nopea esimerkki
Alla olevassa kuvassa outlierit ovat kohtuullisen helposti havaittavissa - kahden Eric: lle osoitetun arvon ja 173: n arvon arvo Ryanille. Tällaisessa tietosarjassa on tarpeeksi helppoa havaita ja käsitellä näitä poikkeamia manuaalisesti.
Suuremmassa joukossa tietoja ei tapahdu. On mahdollista tunnistaa poikkeamat ja poistaa ne tilastollisista laskelmista, ja näin me tarkastelemme, miten tämä artikkeli tehdään.
Miten etsitään poikkeamia tietosi
Jos haluat löytää tietokokonaisuuden poikkeamat, käytämme seuraavia vaiheita:
- Laske 1. ja 3. kvartiilit (puhumme siitä, mitä ne ovat vain vähän).
- Arvioi interkvartiilialuetta (selitämme nämä myös hieman pidemmälle).
- Palauta tietokantamme ylä- ja alarajat.
- Näiden raja-arvojen avulla voit tunnistaa syrjäiset tietopisteet.
Näiden arvojen tallentamiseen käytetään alla olevassa kuvassa esitetyn tietosarjan oikealla puolella olevaa solualuetta.
Aloitetaan.
Ensimmäinen vaihe: Laske kvartiilit
Jos jaat tietosi neljänneksiksi, kutakin sarjaa kutsutaan kvartiiliksi. Alhaisin 25%: n numeroista muodostavat 1. kvartiilin, seuraavan 25%: n toisen kvartiilin ja niin edelleen. Otamme tämän vaiheen ensin, koska laajimmin käytetty määritelmä ulostulosta on datapiste, joka on enemmän kuin 1,5 interkvartiilialuetta (IQR) 1. kvartiilin alapuolella, ja 1,5 interkvartiilialuetta kolmannen kvartiilin yläpuolella. Näiden arvojen määrittämiseksi täytyy ensin selvittää, mitä kvartiilit ovat.
Excel tarjoaa QUARTILE-toiminnon kvartiilien laskemiseksi. Se vaatii kaksi tietoa: taulukko ja kvartsi.
= QUARTILE (array, quart)
ryhmä on arvojen valikoima. Ja gallona on numero, joka edustaa kvartiilia, jonka haluat palauttaa (esim. 1: lle 1: lle)st kvartiili, 2 toiselle kvartiilille jne.).
Huomautus: Excel 2010: ssä Microsoft julkaisi QUARTILE.INC- ja QUARTILE.EXC-toiminnot QUARTILE-toiminnon parannuksiksi. QUARTILE on taaksepäin yhteensopiva, kun käytät Excelin useita versioita.
Palataan esimerkkitaulukkoon.
Laske 1st Kvartiili voimme käyttää seuraavaa kaavaa solussa F2.
= QUARTILE (B2: B14,1)
Kun syötät kaavan, Excel tarjoaa luettelon quart-argumentin vaihtoehdoista.
3 lasketaanrd kvartiili, voimme syöttää kaavan kuten edellinen kaava F3, mutta käyttämällä kolmea yhden sijasta.
= QUARTILE (B2: B14,3)
Nyt meillä on soluissa näkyvät kvartiilidatapisteet.
Vaihe kaksi: Arvioi interquartile-alue
Interquartile-alue (tai IQR) on keskimääräinen 50% tietojesi arvoista. Se lasketaan ensimmäisen kvartiiliarvon ja kolmannen kvartiiliarvon välisenä erona.
Käytämme yksinkertaista kaavaa soluun F4, joka vähentää 1: nst kvartiili 3: stard neljännes:
= F3-F2
Nyt näemme näytettävän interkvartiilialueen.
Kolmas vaihe: Palauta alempi ja yläraja
Alemmat ja ylärajat ovat pienimpiä ja suurimpia arvoalueita, joita haluamme käyttää. Kaikki arvot, jotka ovat pienempiä tai suurempia kuin nämä sidotut arvot, ovat poikkeamia.
Laskemme alarajan rajan solussa F5 kertomalla IQR-arvon 1,5: llä ja vähentämällä sen sitten Q1-datapisteestä:
= F2- (1,5 * F4)
Huomautus: Tämän kaavan suluissa ei ole tarvetta, koska kertoluku laskee ennen vähennysosaa, mutta ne tekevät kaavasta helpommin luettavissa.
Laskettaessa ylempi raja solussa F6, kerrotaan IQR 1,5: llä, mutta tällä kertaa lisätä se Q3-tietopisteeseen:
= F3 + (1,5 * F4)
Neljäs vaihe: Tunnista poikkeamat
Nyt kun olemme saaneet kaikki taustalla olevat tiedot, on aika tunnistaa syrjäiset tietopisteet - ne, jotka ovat alemman raja-arvon alapuolella tai korkeammat kuin yläraja-arvo.
Käytämme OR-toimintoa suorittamaan tämän loogisen testin ja näyttämään nämä kriteerit täyttävät arvot syöttämällä seuraavan kaavan soluun C2:
= OR (B2 $ F $ 6)
Sitten kopioimme tämän arvon C3-C14-soluihimme. TRUE-arvo ilmaisee lähdön, ja kuten näette, meillä on kaksi tietoa.
Poikkeamien huomiotta jättäminen keskiarvoa laskettaessa
QUARTILE-toiminnon avulla laskemme IQR: n ja työskentelemme yleisimmin käytetyn outlier-määritelmän kanssa. Arvojen keskiarvoa laskettaessa ja poikkeavuuksien huomiotta jättämisestä on kuitenkin nopeampi ja helpompi käyttää. Tämä tekniikka ei tunnista lähdettä kuten aikaisemmin, mutta se antaa meille mahdollisuuden olla joustavia sen suhteen, mitä voimme harkita outlier-osastamme.
Tarvittavaa toimintoa kutsutaan nimellä TRIMMEAN, ja voit nähdä sen alla olevan syntaksin:
= TRIMMEAN (matriisi, prosenttia)
ryhmä on keskiarvot, joita haluat keskiarvoa. prosentti on tietopisteiden prosenttiosuus, joka jätetään pois tietosarjan ylä- ja alaosasta (voit syöttää sen prosentteina tai desimaaliarvona).
Syöttimme alla olevan kaavan esimerkkimme soluun D3 laskeaksemme keskiarvon ja sulkea pois 20% poikkeamista.
= TRIMMEAN (B2: B14, 20%)
Siellä on kaksi erilaista funktiota poikkeamien käsittelyyn. Haluatko tunnistaa ne joillakin raportointitarpeilla tai jättää ne pois laskelmista, kuten keskiarvoista, Excelillä on tarpeitasi vastaava toiminto.