Valvomaton koneoppiminen: Mikä on, algoritmit, esimerkki

Sisällysluettelo:

Anonim

Valvomaton oppiminen

Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjien ei tarvitse valvoa mallia. Sen sijaan se antaa mallille mahdollisuuden työskennellä itsenäisesti löytää malleja ja tietoja, joita aiemmin ei havaittu. Se käsittelee pääasiassa merkitsemättömiä tietoja.

Valvomaton oppimisalgoritmit

Valvomaton oppimisalgoritmien avulla käyttäjät voivat suorittaa monimutkaisempia prosessointitehtäviä valvottuun oppimiseen verrattuna. Vaikka valvomaton oppiminen voi olla arvaamattomampaa kuin muut luonnolliset oppimismenetelmät. Valvomatonta oppimisalgoritmia ovat klusterointi, poikkeavuuksien havaitseminen, hermoverkot jne.

Tässä opetusohjelmassa opit:

  • Esimerkki valvomattomasta koneoppimisesta
  • Miksi valvomaton oppiminen?
  • Valvomaton oppimisen tyypit
  • Ryhmittely
  • Ryhmittelytyypit
  • Yhdistys
  • Valvottu vs. valvomaton koneoppiminen
  • Valvomattoman koneoppimisen sovellukset
  • Valvomaton oppimisen haitat

Esimerkki valvomattomasta koneoppimisesta

Otetaanpa vauvan ja hänen perhekoiransa tapaus.

Hän tuntee ja tunnistaa tämän koiran. Muutama viikko myöhemmin perheenystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.

Vauva ei ole nähnyt tätä koiraa aiemmin. Mutta se tunnistaa monet piirteet (2 korvat, silmät, kävely 4 jalalla) ovat kuin hänen lemmikkikoiransa. Hän tunnistaa uuden eläimen koiraksi. Tämä on valvomatonta oppimista, jossa sinua ei opeteta, mutta opit tiedoista (tässä tapauksessa koirasta). Jos tämä olisi ollut valvottua oppimista, perheen ystävä olisi kertonut vauvalle, että se on koira.

Miksi valvomaton oppiminen?

Tässä ovat tärkeimmät syyt valvomattoman oppimisen käyttöön:

  • Valvomaton koneoppiminen löytää datasta kaikenlaisia ​​tuntemattomia malleja.
  • Valvomattomat menetelmät auttavat sinua löytämään ominaisuuksia, joista voi olla hyötyä luokittelussa.
  • Se tapahtuu reaaliajassa, joten kaikki lähtötiedot on analysoitava ja merkittävä oppijoiden läsnä ollessa.
  • Tunnistamattomia tietoja on helpompi hankkia tietokoneelta kuin leimattuja tietoja, jotka edellyttävät manuaalista puuttumista.

Valvomaton oppimisen tyypit

Valvomattomat oppimisongelmat ryhmitettiin edelleen klusterointi- ja assosiaatio-ongelmiksi.

Ryhmittely

Klusterointi on tärkeä käsite valvomattoman oppimisen yhteydessä. Se käsittelee pääasiassa rakenteen tai mallin löytämistä luokittelemattomien tietojen kokoelmasta. Klusterointialgoritmit käsittelevät tietojasi ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on tiedoissa. Voit myös muokata, kuinka monta klusteria algoritmiesi tulisi tunnistaa. Sen avulla voit säätää näiden ryhmien tarkkuutta.

Voit käyttää erilaisia ​​klustereita:

Yksinoikeus (osiointi)

Tässä klusterointimenetelmässä data ryhmitellään siten, että yksi data voi kuulua vain yhteen klusteriin.

Esimerkki: K-tarkoittaa

Taajama

Tässä klusterointitekniikassa jokainen data on klusteri. Kahden lähimmän klusterin iteratiiviset liitot vähentävät klustereiden määrää.

Esimerkki: hierarkkinen klusterointi

Päällekkäinen

Tässä tekniikassa sumeaa joukkoa käytetään tietojen klusterointiin. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on erillinen jäsenyysaste.

Täällä tiedot liitetään sopivaan jäsenarvoon. Esimerkki: Fuzzy C-Means

Todennäköinen

Tämä tekniikka käyttää todennäköisyysjakaumaa klustereiden luomiseen

Esimerkki: Avainsanojen seuraaminen

  • "ihmisen kenkä".
  • "naisten kenkä".
  • "naisten käsine".
  • "ihmisen käsine".

voidaan ryhmitellä kahteen luokkaan "kenkä" ja "käsine" tai "mies" ja "naiset".

Ryhmittelytyypit

  • Hierarkkinen ryhmittyminen
  • K tarkoittaa ryhmittelyä
  • K-NN (k lähintä naapuria)
  • Pääkomponenttianalyysi
  • Yksittäisen arvon hajoaminen
  • Riippumaton komponenttianalyysi

Hierarkkinen klusterointi:

Hierarkkinen klusterointi on algoritmi, joka rakentaa klustereiden hierarkian. Se alkaa kaikilla tiedoilla, jotka on osoitettu heidän omalle klusterilleen. Täällä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun vain yksi klusteri on jäljellä.

K tarkoittaa klusterointia

K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa sinua löytämään korkeimman arvon jokaiselle iteraatiolle. Aluksi valitaan haluttu joukko klustereita. Tässä klusterointimenetelmässä datapisteet on ryhmiteltävä k-ryhmiin. Suurempi k tarkoittaa pienempiä ryhmiä, joilla on enemmän rakeisuutta samalla tavalla. Alempi k tarkoittaa suurempia ryhmiä, joilla on vähemmän rakeisuutta.

Algoritmin tulos on ryhmä "tarroja". Se määrittää datapisteen yhdelle k-ryhmästä. K-tarkoittaa klusterointia, kukin ryhmä määritetään luomalla keskipiste kullekin ryhmälle. Centroidit ovat kuin klusterin sydän, joka sieppaa lähimmät pisteet ja lisää ne klusteriin.

K-keskimääräinen klusterointi määrittelee edelleen kaksi alaryhmää:

  • Agglomeratiivinen klusterointi
  • Dendrogrammi

Agglomeratiivinen klusterointi:

Tämäntyyppinen K-tarkoittaa klustereita alkaa kiinteällä määrällä klustereita. Se jakaa kaikki tiedot klustereiden tarkkaan määrään. Tämä klusterointimenetelmä ei vaadi ryhmien K määrää syötteenä. Agglomerointiprosessi alkaa muodostamalla kukin data yhtenä klusterina.

Tämä menetelmä käyttää jonkin verran etäisyysmittaa, vähentää klustereiden määrää (yksi kussakin iteraatiossa) yhdistämällä prosessi. Viimeiseksi meillä on yksi iso klusteri, joka sisältää kaikki objektit.

Dendrogrammi:

Dendrogram-klusterointimenetelmässä kukin taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa kahden liitosryhmän samankaltaisuuden tason. Lähempänä prosessin loppua ne ovat samanlaisia ​​klustereita, mikä on ryhmän löytäminen dendrogrammista, joka ei ole luonnollinen ja enimmäkseen subjektiivinen.

K- Lähimmät naapurit

K- lähin naapuri on yksinkertaisin koneoppimisen luokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki käytettävissä olevat tapaukset ja luokittelee uudet esiintymät samankaltaisuusmitan perusteella.

Se toimii erittäin hyvin, kun esimerkkien välillä on etäisyys. Oppimisnopeus on hidas, kun harjoitusjoukko on suuri, ja etäisyyden laskenta ei ole merkityksellistä.

Tärkeimpien komponenttien analyysi:

Jos haluat korkeampiulotteisen tilan. Sinun on valittava tälle tilalle perusta ja vain 200 sen tärkeintä pistettä. Tämä emäs tunnetaan pääkomponenttina. Valitsemasi osajoukko on uusi tila, joka on kooltaan pieni alkuperäiseen tilaan verrattuna. Se ylläpitää mahdollisimman paljon tietojen monimutkaisuutta.

Yhdistys

Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta. Tämä valvomaton tekniikka on mielenkiintoisten suhteiden löytämistä muuttujien välillä suurissa tietokannoissa. Esimerkiksi uuden kodin ostavat ihmiset todennäköisesti ostavat uusia huonekaluja.

Muita esimerkkejä:

  • Syöpäpotilaiden alaryhmä ryhmitelty niiden geeniekspressiomittausten perusteella
  • Ostajaryhmät selaus- ja ostohistoriansa perusteella
  • Elokuvaryhmä elokuvien katsojien antaman luokituksen perusteella

Valvottu vs. valvomaton koneoppiminen

Parametrit Ohjattu koneoppimistekniikka Valvomaton koneoppimistekniikka
Syöttötiedot Algoritmeja koulutetaan käyttämällä merkittyjä tietoja. Algoritmeja käytetään dataa vastaan, jota ei ole merkitty
Laskennallinen monimutkaisuus Ohjattu oppiminen on yksinkertaisempi menetelmä. Valvomaton oppiminen on laskennallisesti monimutkaista
Tarkkuus Erittäin tarkka ja luotettava menetelmä. Vähemmän tarkka ja luotettava menetelmä.

Valvomattoman koneoppimisen sovellukset

Joitakin valvomattomien koneoppimistekniikoiden sovelluksia ovat:

  • Klusterointi jakaa tietojoukon automaattisesti ryhmiin niiden samankaltaisuuden perusteella
  • Poikkeavuuksien havaitseminen voi löytää epätavallisia datapisteitä tietojoukostasi. Se on hyödyllinen vilpillisten tapahtumien löytämisessä
  • Yhdistyksen kaivostoiminta tunnistaa joukot kohteita, joita esiintyy usein yhdessä tietojoukossa
  • Piilevän muuttujan malleja käytetään laajasti tietojen esikäsittelyyn. Kuten tietojoukon ominaisuuksien määrän vähentäminen tai aineiston hajottaminen useiksi komponenteiksi

Valvomaton oppimisen haitat

  • Et voi saada tarkkaa tietoa tietojen lajittelusta, ja valvomaton oppimisessa käytettävät tiedot on merkitty eikä tunneta
  • Tulosten epätarkkuus johtuu siitä, että ihmiset eivät tiedä syötetietoja eivätkä merkitse niitä etukäteen. Tämä tarkoittaa, että kone vaatii tämän tekemistä itse.
  • Spektriluokat eivät aina vastaa informaatioluokkia.
  • Käyttäjän on käytettävä aikaa tulkitsemalla ja merkitsemällä luokitukset, jotka seuraavat tätä luokitusta.
  • Luokkien spektriominaisuudet voivat myös muuttua ajan myötä, joten et voi saada samaa luokkatietoa siirtyessäsi kuvasta toiseen.

Yhteenveto

  • Valvomaton oppiminen on koneoppimistekniikkaa, jossa sinun ei tarvitse valvoa mallia.
  • Valvomaton koneoppiminen auttaa sinua löytämään kaikenlaisia ​​tuntemattomia malleja tiedoista.
  • Klusterointi ja yhdistyminen ovat kahta valvomattoman oppimisen tyyppiä.
  • Neljä tyyppiä klusterointimenetelmiä ovat 1) yksinomainen 2) taajama 3) päällekkäinen 4) todennäköisyys.
  • Tärkeitä klusterointityyppejä ovat: 1) hierarkkinen klusterointi 2) K-tarkoittaa klusterointia 3) K-NN 4) pääkomponenttianalyysi 5) yksittäisen arvon hajoaminen 6) itsenäinen komponenttianalyysi.
  • Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta.
  • Valvotussa oppimisessa algoritmeja koulutetaan käyttämällä merkittyjä tietoja, kun taas valvomattomassa oppimisessa algoritmeja käytetään tietoihin, joita ei ole merkitty.
  • Poikkeavuuksien havaitseminen voi löytää tietojoukostasi tärkeitä datapisteitä, joista on hyötyä vilpillisten tapahtumien löytämisessä.
  • Valvomattoman oppimisen suurin haittapuoli on, että et voi saada tarkkaa tietoa tietojen lajittelusta.