Valvomaton oppiminen
Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjien ei tarvitse valvoa mallia. Sen sijaan se antaa mallille mahdollisuuden työskennellä itsenäisesti löytää malleja ja tietoja, joita aiemmin ei havaittu. Se käsittelee pääasiassa merkitsemättömiä tietoja.
Valvomaton oppimisalgoritmit
Valvomaton oppimisalgoritmien avulla käyttäjät voivat suorittaa monimutkaisempia prosessointitehtäviä valvottuun oppimiseen verrattuna. Vaikka valvomaton oppiminen voi olla arvaamattomampaa kuin muut luonnolliset oppimismenetelmät. Valvomatonta oppimisalgoritmia ovat klusterointi, poikkeavuuksien havaitseminen, hermoverkot jne.
Tässä opetusohjelmassa opit:
- Esimerkki valvomattomasta koneoppimisesta
- Miksi valvomaton oppiminen?
- Valvomaton oppimisen tyypit
- Ryhmittely
- Ryhmittelytyypit
- Yhdistys
- Valvottu vs. valvomaton koneoppiminen
- Valvomattoman koneoppimisen sovellukset
- Valvomaton oppimisen haitat
Esimerkki valvomattomasta koneoppimisesta
Otetaanpa vauvan ja hänen perhekoiransa tapaus.
Hän tuntee ja tunnistaa tämän koiran. Muutama viikko myöhemmin perheenystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.
Vauva ei ole nähnyt tätä koiraa aiemmin. Mutta se tunnistaa monet piirteet (2 korvat, silmät, kävely 4 jalalla) ovat kuin hänen lemmikkikoiransa. Hän tunnistaa uuden eläimen koiraksi. Tämä on valvomatonta oppimista, jossa sinua ei opeteta, mutta opit tiedoista (tässä tapauksessa koirasta). Jos tämä olisi ollut valvottua oppimista, perheen ystävä olisi kertonut vauvalle, että se on koira.
Miksi valvomaton oppiminen?
Tässä ovat tärkeimmät syyt valvomattoman oppimisen käyttöön:
- Valvomaton koneoppiminen löytää datasta kaikenlaisia tuntemattomia malleja.
- Valvomattomat menetelmät auttavat sinua löytämään ominaisuuksia, joista voi olla hyötyä luokittelussa.
- Se tapahtuu reaaliajassa, joten kaikki lähtötiedot on analysoitava ja merkittävä oppijoiden läsnä ollessa.
- Tunnistamattomia tietoja on helpompi hankkia tietokoneelta kuin leimattuja tietoja, jotka edellyttävät manuaalista puuttumista.
Valvomaton oppimisen tyypit
Valvomattomat oppimisongelmat ryhmitettiin edelleen klusterointi- ja assosiaatio-ongelmiksi.
Ryhmittely
Klusterointi on tärkeä käsite valvomattoman oppimisen yhteydessä. Se käsittelee pääasiassa rakenteen tai mallin löytämistä luokittelemattomien tietojen kokoelmasta. Klusterointialgoritmit käsittelevät tietojasi ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on tiedoissa. Voit myös muokata, kuinka monta klusteria algoritmiesi tulisi tunnistaa. Sen avulla voit säätää näiden ryhmien tarkkuutta.
Voit käyttää erilaisia klustereita:
Yksinoikeus (osiointi)
Tässä klusterointimenetelmässä data ryhmitellään siten, että yksi data voi kuulua vain yhteen klusteriin.
Esimerkki: K-tarkoittaa
Taajama
Tässä klusterointitekniikassa jokainen data on klusteri. Kahden lähimmän klusterin iteratiiviset liitot vähentävät klustereiden määrää.
Esimerkki: hierarkkinen klusterointi
Päällekkäinen
Tässä tekniikassa sumeaa joukkoa käytetään tietojen klusterointiin. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on erillinen jäsenyysaste.
Täällä tiedot liitetään sopivaan jäsenarvoon. Esimerkki: Fuzzy C-Means
Todennäköinen
Tämä tekniikka käyttää todennäköisyysjakaumaa klustereiden luomiseen
Esimerkki: Avainsanojen seuraaminen
- "ihmisen kenkä".
- "naisten kenkä".
- "naisten käsine".
- "ihmisen käsine".
voidaan ryhmitellä kahteen luokkaan "kenkä" ja "käsine" tai "mies" ja "naiset".
Ryhmittelytyypit
- Hierarkkinen ryhmittyminen
- K tarkoittaa ryhmittelyä
- K-NN (k lähintä naapuria)
- Pääkomponenttianalyysi
- Yksittäisen arvon hajoaminen
- Riippumaton komponenttianalyysi
Hierarkkinen klusterointi:
Hierarkkinen klusterointi on algoritmi, joka rakentaa klustereiden hierarkian. Se alkaa kaikilla tiedoilla, jotka on osoitettu heidän omalle klusterilleen. Täällä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun vain yksi klusteri on jäljellä.
K tarkoittaa klusterointia
K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa sinua löytämään korkeimman arvon jokaiselle iteraatiolle. Aluksi valitaan haluttu joukko klustereita. Tässä klusterointimenetelmässä datapisteet on ryhmiteltävä k-ryhmiin. Suurempi k tarkoittaa pienempiä ryhmiä, joilla on enemmän rakeisuutta samalla tavalla. Alempi k tarkoittaa suurempia ryhmiä, joilla on vähemmän rakeisuutta.
Algoritmin tulos on ryhmä "tarroja". Se määrittää datapisteen yhdelle k-ryhmästä. K-tarkoittaa klusterointia, kukin ryhmä määritetään luomalla keskipiste kullekin ryhmälle. Centroidit ovat kuin klusterin sydän, joka sieppaa lähimmät pisteet ja lisää ne klusteriin.
K-keskimääräinen klusterointi määrittelee edelleen kaksi alaryhmää:
- Agglomeratiivinen klusterointi
- Dendrogrammi
Agglomeratiivinen klusterointi:
Tämäntyyppinen K-tarkoittaa klustereita alkaa kiinteällä määrällä klustereita. Se jakaa kaikki tiedot klustereiden tarkkaan määrään. Tämä klusterointimenetelmä ei vaadi ryhmien K määrää syötteenä. Agglomerointiprosessi alkaa muodostamalla kukin data yhtenä klusterina.
Tämä menetelmä käyttää jonkin verran etäisyysmittaa, vähentää klustereiden määrää (yksi kussakin iteraatiossa) yhdistämällä prosessi. Viimeiseksi meillä on yksi iso klusteri, joka sisältää kaikki objektit.
Dendrogrammi:
Dendrogram-klusterointimenetelmässä kukin taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa kahden liitosryhmän samankaltaisuuden tason. Lähempänä prosessin loppua ne ovat samanlaisia klustereita, mikä on ryhmän löytäminen dendrogrammista, joka ei ole luonnollinen ja enimmäkseen subjektiivinen.
K- Lähimmät naapurit
K- lähin naapuri on yksinkertaisin koneoppimisen luokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki käytettävissä olevat tapaukset ja luokittelee uudet esiintymät samankaltaisuusmitan perusteella.
Se toimii erittäin hyvin, kun esimerkkien välillä on etäisyys. Oppimisnopeus on hidas, kun harjoitusjoukko on suuri, ja etäisyyden laskenta ei ole merkityksellistä.
Tärkeimpien komponenttien analyysi:
Jos haluat korkeampiulotteisen tilan. Sinun on valittava tälle tilalle perusta ja vain 200 sen tärkeintä pistettä. Tämä emäs tunnetaan pääkomponenttina. Valitsemasi osajoukko on uusi tila, joka on kooltaan pieni alkuperäiseen tilaan verrattuna. Se ylläpitää mahdollisimman paljon tietojen monimutkaisuutta.
Yhdistys
Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta. Tämä valvomaton tekniikka on mielenkiintoisten suhteiden löytämistä muuttujien välillä suurissa tietokannoissa. Esimerkiksi uuden kodin ostavat ihmiset todennäköisesti ostavat uusia huonekaluja.
Muita esimerkkejä:
- Syöpäpotilaiden alaryhmä ryhmitelty niiden geeniekspressiomittausten perusteella
- Ostajaryhmät selaus- ja ostohistoriansa perusteella
- Elokuvaryhmä elokuvien katsojien antaman luokituksen perusteella
Valvottu vs. valvomaton koneoppiminen
Parametrit | Ohjattu koneoppimistekniikka | Valvomaton koneoppimistekniikka |
Syöttötiedot | Algoritmeja koulutetaan käyttämällä merkittyjä tietoja. | Algoritmeja käytetään dataa vastaan, jota ei ole merkitty |
Laskennallinen monimutkaisuus | Ohjattu oppiminen on yksinkertaisempi menetelmä. | Valvomaton oppiminen on laskennallisesti monimutkaista |
Tarkkuus | Erittäin tarkka ja luotettava menetelmä. | Vähemmän tarkka ja luotettava menetelmä. |
Valvomattoman koneoppimisen sovellukset
Joitakin valvomattomien koneoppimistekniikoiden sovelluksia ovat:
- Klusterointi jakaa tietojoukon automaattisesti ryhmiin niiden samankaltaisuuden perusteella
- Poikkeavuuksien havaitseminen voi löytää epätavallisia datapisteitä tietojoukostasi. Se on hyödyllinen vilpillisten tapahtumien löytämisessä
- Yhdistyksen kaivostoiminta tunnistaa joukot kohteita, joita esiintyy usein yhdessä tietojoukossa
- Piilevän muuttujan malleja käytetään laajasti tietojen esikäsittelyyn. Kuten tietojoukon ominaisuuksien määrän vähentäminen tai aineiston hajottaminen useiksi komponenteiksi
Valvomaton oppimisen haitat
- Et voi saada tarkkaa tietoa tietojen lajittelusta, ja valvomaton oppimisessa käytettävät tiedot on merkitty eikä tunneta
- Tulosten epätarkkuus johtuu siitä, että ihmiset eivät tiedä syötetietoja eivätkä merkitse niitä etukäteen. Tämä tarkoittaa, että kone vaatii tämän tekemistä itse.
- Spektriluokat eivät aina vastaa informaatioluokkia.
- Käyttäjän on käytettävä aikaa tulkitsemalla ja merkitsemällä luokitukset, jotka seuraavat tätä luokitusta.
- Luokkien spektriominaisuudet voivat myös muuttua ajan myötä, joten et voi saada samaa luokkatietoa siirtyessäsi kuvasta toiseen.
Yhteenveto
- Valvomaton oppiminen on koneoppimistekniikkaa, jossa sinun ei tarvitse valvoa mallia.
- Valvomaton koneoppiminen auttaa sinua löytämään kaikenlaisia tuntemattomia malleja tiedoista.
- Klusterointi ja yhdistyminen ovat kahta valvomattoman oppimisen tyyppiä.
- Neljä tyyppiä klusterointimenetelmiä ovat 1) yksinomainen 2) taajama 3) päällekkäinen 4) todennäköisyys.
- Tärkeitä klusterointityyppejä ovat: 1) hierarkkinen klusterointi 2) K-tarkoittaa klusterointia 3) K-NN 4) pääkomponenttianalyysi 5) yksittäisen arvon hajoaminen 6) itsenäinen komponenttianalyysi.
- Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta.
- Valvotussa oppimisessa algoritmeja koulutetaan käyttämällä merkittyjä tietoja, kun taas valvomattomassa oppimisessa algoritmeja käytetään tietoihin, joita ei ole merkitty.
- Poikkeavuuksien havaitseminen voi löytää tietojoukostasi tärkeitä datapisteitä, joista on hyötyä vilpillisten tapahtumien löytämisessä.
- Valvomattoman oppimisen suurin haittapuoli on, että et voi saada tarkkaa tietoa tietojen lajittelusta.