Valvomaton koneoppiminen: Mikä on, algoritmit, esimerkki

Valvomaton oppiminen

Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjien ei tarvitse valvoa mallia. Sen sijaan se antaa mallille mahdollisuuden työskennellä itsenäisesti löytää malleja ja tietoja, joita aiemmin ei havaittu. Se käsittelee pääasiassa merkitsemättömiä tietoja.

Valvomaton oppimisalgoritmit

Valvomaton oppimisalgoritmien avulla käyttäjät voivat suorittaa monimutkaisempia prosessointitehtäviä valvottuun oppimiseen verrattuna. Vaikka valvomaton oppiminen voi olla arvaamattomampaa kuin muut luonnolliset oppimismenetelmät. Valvomatonta oppimisalgoritmia ovat klusterointi, poikkeavuuksien havaitseminen, hermoverkot jne.

Tässä opetusohjelmassa opit:

Esimerkki valvomattomasta koneoppimisesta
Miksi valvomaton oppiminen?
Valvomaton oppimisen tyypit
Ryhmittely
Ryhmittelytyypit
Yhdistys
Valvottu vs. valvomaton koneoppiminen
Valvomattoman koneoppimisen sovellukset
Valvomaton oppimisen haitat

Esimerkki valvomattomasta koneoppimisesta

Otetaanpa vauvan ja hänen perhekoiransa tapaus.

Hän tuntee ja tunnistaa tämän koiran. Muutama viikko myöhemmin perheenystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.

Vauva ei ole nähnyt tätä koiraa aiemmin. Mutta se tunnistaa monet piirteet (2 korvat, silmät, kävely 4 jalalla) ovat kuin hänen lemmikkikoiransa. Hän tunnistaa uuden eläimen koiraksi. Tämä on valvomatonta oppimista, jossa sinua ei opeteta, mutta opit tiedoista (tässä tapauksessa koirasta). Jos tämä olisi ollut valvottua oppimista, perheen ystävä olisi kertonut vauvalle, että se on koira.

Miksi valvomaton oppiminen?

Tässä ovat tärkeimmät syyt valvomattoman oppimisen käyttöön:

Valvomaton koneoppiminen löytää datasta kaikenlaisia tuntemattomia malleja.
Valvomattomat menetelmät auttavat sinua löytämään ominaisuuksia, joista voi olla hyötyä luokittelussa.
Se tapahtuu reaaliajassa, joten kaikki lähtötiedot on analysoitava ja merkittävä oppijoiden läsnä ollessa.
Tunnistamattomia tietoja on helpompi hankkia tietokoneelta kuin leimattuja tietoja, jotka edellyttävät manuaalista puuttumista.

Valvomaton oppimisen tyypit

Valvomattomat oppimisongelmat ryhmitettiin edelleen klusterointi- ja assosiaatio-ongelmiksi.

Ryhmittely

Klusterointi on tärkeä käsite valvomattoman oppimisen yhteydessä. Se käsittelee pääasiassa rakenteen tai mallin löytämistä luokittelemattomien tietojen kokoelmasta. Klusterointialgoritmit käsittelevät tietojasi ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on tiedoissa. Voit myös muokata, kuinka monta klusteria algoritmiesi tulisi tunnistaa. Sen avulla voit säätää näiden ryhmien tarkkuutta.

Voit käyttää erilaisia klustereita:

Yksinoikeus (osiointi)

Tässä klusterointimenetelmässä data ryhmitellään siten, että yksi data voi kuulua vain yhteen klusteriin.

Esimerkki: K-tarkoittaa

Taajama

Tässä klusterointitekniikassa jokainen data on klusteri. Kahden lähimmän klusterin iteratiiviset liitot vähentävät klustereiden määrää.

Esimerkki: hierarkkinen klusterointi

Päällekkäinen

Tässä tekniikassa sumeaa joukkoa käytetään tietojen klusterointiin. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on erillinen jäsenyysaste.

Täällä tiedot liitetään sopivaan jäsenarvoon. Esimerkki: Fuzzy C-Means

Todennäköinen

Tämä tekniikka käyttää todennäköisyysjakaumaa klustereiden luomiseen

Esimerkki: Avainsanojen seuraaminen

"ihmisen kenkä".
"naisten kenkä".
"naisten käsine".
"ihmisen käsine".

voidaan ryhmitellä kahteen luokkaan "kenkä" ja "käsine" tai "mies" ja "naiset".

Ryhmittelytyypit

Hierarkkinen ryhmittyminen
K tarkoittaa ryhmittelyä
K-NN (k lähintä naapuria)
Pääkomponenttianalyysi
Yksittäisen arvon hajoaminen
Riippumaton komponenttianalyysi

Hierarkkinen klusterointi:

Hierarkkinen klusterointi on algoritmi, joka rakentaa klustereiden hierarkian. Se alkaa kaikilla tiedoilla, jotka on osoitettu heidän omalle klusterilleen. Täällä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun vain yksi klusteri on jäljellä.

K tarkoittaa klusterointia

K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa sinua löytämään korkeimman arvon jokaiselle iteraatiolle. Aluksi valitaan haluttu joukko klustereita. Tässä klusterointimenetelmässä datapisteet on ryhmiteltävä k-ryhmiin. Suurempi k tarkoittaa pienempiä ryhmiä, joilla on enemmän rakeisuutta samalla tavalla. Alempi k tarkoittaa suurempia ryhmiä, joilla on vähemmän rakeisuutta.

Algoritmin tulos on ryhmä "tarroja". Se määrittää datapisteen yhdelle k-ryhmästä. K-tarkoittaa klusterointia, kukin ryhmä määritetään luomalla keskipiste kullekin ryhmälle. Centroidit ovat kuin klusterin sydän, joka sieppaa lähimmät pisteet ja lisää ne klusteriin.

K-keskimääräinen klusterointi määrittelee edelleen kaksi alaryhmää:

Agglomeratiivinen klusterointi
Dendrogrammi

Agglomeratiivinen klusterointi:

Tämäntyyppinen K-tarkoittaa klustereita alkaa kiinteällä määrällä klustereita. Se jakaa kaikki tiedot klustereiden tarkkaan määrään. Tämä klusterointimenetelmä ei vaadi ryhmien K määrää syötteenä. Agglomerointiprosessi alkaa muodostamalla kukin data yhtenä klusterina.

Tämä menetelmä käyttää jonkin verran etäisyysmittaa, vähentää klustereiden määrää (yksi kussakin iteraatiossa) yhdistämällä prosessi. Viimeiseksi meillä on yksi iso klusteri, joka sisältää kaikki objektit.

Dendrogrammi:

Dendrogram-klusterointimenetelmässä kukin taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa kahden liitosryhmän samankaltaisuuden tason. Lähempänä prosessin loppua ne ovat samanlaisia klustereita, mikä on ryhmän löytäminen dendrogrammista, joka ei ole luonnollinen ja enimmäkseen subjektiivinen.

K- Lähimmät naapurit

K- lähin naapuri on yksinkertaisin koneoppimisen luokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki käytettävissä olevat tapaukset ja luokittelee uudet esiintymät samankaltaisuusmitan perusteella.

Se toimii erittäin hyvin, kun esimerkkien välillä on etäisyys. Oppimisnopeus on hidas, kun harjoitusjoukko on suuri, ja etäisyyden laskenta ei ole merkityksellistä.

Tärkeimpien komponenttien analyysi:

Jos haluat korkeampiulotteisen tilan. Sinun on valittava tälle tilalle perusta ja vain 200 sen tärkeintä pistettä. Tämä emäs tunnetaan pääkomponenttina. Valitsemasi osajoukko on uusi tila, joka on kooltaan pieni alkuperäiseen tilaan verrattuna. Se ylläpitää mahdollisimman paljon tietojen monimutkaisuutta.

Yhdistys

Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta. Tämä valvomaton tekniikka on mielenkiintoisten suhteiden löytämistä muuttujien välillä suurissa tietokannoissa. Esimerkiksi uuden kodin ostavat ihmiset todennäköisesti ostavat uusia huonekaluja.

Muita esimerkkejä:

Syöpäpotilaiden alaryhmä ryhmitelty niiden geeniekspressiomittausten perusteella
Ostajaryhmät selaus- ja ostohistoriansa perusteella
Elokuvaryhmä elokuvien katsojien antaman luokituksen perusteella

Valvottu vs. valvomaton koneoppiminen

Parametrit	Ohjattu koneoppimistekniikka	Valvomaton koneoppimistekniikka
Syöttötiedot	Algoritmeja koulutetaan käyttämällä merkittyjä tietoja.	Algoritmeja käytetään dataa vastaan, jota ei ole merkitty
Laskennallinen monimutkaisuus	Ohjattu oppiminen on yksinkertaisempi menetelmä.	Valvomaton oppiminen on laskennallisesti monimutkaista
Tarkkuus	Erittäin tarkka ja luotettava menetelmä.	Vähemmän tarkka ja luotettava menetelmä.

Valvomattoman koneoppimisen sovellukset

Joitakin valvomattomien koneoppimistekniikoiden sovelluksia ovat:

Klusterointi jakaa tietojoukon automaattisesti ryhmiin niiden samankaltaisuuden perusteella
Poikkeavuuksien havaitseminen voi löytää epätavallisia datapisteitä tietojoukostasi. Se on hyödyllinen vilpillisten tapahtumien löytämisessä
Yhdistyksen kaivostoiminta tunnistaa joukot kohteita, joita esiintyy usein yhdessä tietojoukossa
Piilevän muuttujan malleja käytetään laajasti tietojen esikäsittelyyn. Kuten tietojoukon ominaisuuksien määrän vähentäminen tai aineiston hajottaminen useiksi komponenteiksi

Valvomaton oppimisen haitat

Et voi saada tarkkaa tietoa tietojen lajittelusta, ja valvomaton oppimisessa käytettävät tiedot on merkitty eikä tunneta
Tulosten epätarkkuus johtuu siitä, että ihmiset eivät tiedä syötetietoja eivätkä merkitse niitä etukäteen. Tämä tarkoittaa, että kone vaatii tämän tekemistä itse.
Spektriluokat eivät aina vastaa informaatioluokkia.
Käyttäjän on käytettävä aikaa tulkitsemalla ja merkitsemällä luokitukset, jotka seuraavat tätä luokitusta.
Luokkien spektriominaisuudet voivat myös muuttua ajan myötä, joten et voi saada samaa luokkatietoa siirtyessäsi kuvasta toiseen.

Yhteenveto

Valvomaton oppiminen on koneoppimistekniikkaa, jossa sinun ei tarvitse valvoa mallia.
Valvomaton koneoppiminen auttaa sinua löytämään kaikenlaisia tuntemattomia malleja tiedoista.
Klusterointi ja yhdistyminen ovat kahta valvomattoman oppimisen tyyppiä.
Neljä tyyppiä klusterointimenetelmiä ovat 1) yksinomainen 2) taajama 3) päällekkäinen 4) todennäköisyys.
Tärkeitä klusterointityyppejä ovat: 1) hierarkkinen klusterointi 2) K-tarkoittaa klusterointia 3) K-NN 4) pääkomponenttianalyysi 5) yksittäisen arvon hajoaminen 6) itsenäinen komponenttianalyysi.
Yhdistämissääntöjen avulla voit luoda assosiaatioita suurten tietokantojen dataobjektien joukosta.
Valvotussa oppimisessa algoritmeja koulutetaan käyttämällä merkittyjä tietoja, kun taas valvomattomassa oppimisessa algoritmeja käytetään tietoihin, joita ei ole merkitty.
Poikkeavuuksien havaitseminen voi löytää tietojoukostasi tärkeitä datapisteitä, joista on hyötyä vilpillisten tapahtumien löytämisessä.
Valvomattoman oppimisen suurin haittapuoli on, että et voi saada tarkkaa tietoa tietojen lajittelusta.

Valvomaton koneoppiminen: Mikä on, algoritmit, esimerkki

Sisällysluettelo:

Valvomaton oppiminen

Valvomaton oppimisalgoritmit

Esimerkki valvomattomasta koneoppimisesta

Miksi valvomaton oppiminen?

Valvomaton oppimisen tyypit

Ryhmittely

Yksinoikeus (osiointi)

Taajama

Päällekkäinen

Todennäköinen

Ryhmittelytyypit

Hierarkkinen klusterointi:

K tarkoittaa klusterointia

Agglomeratiivinen klusterointi:

Dendrogrammi:

K- Lähimmät naapurit

Tärkeimpien komponenttien analyysi:

Yhdistys

Valvottu vs. valvomaton koneoppiminen

Valvomattoman koneoppimisen sovellukset

Valvomaton oppimisen haitat

Yhteenveto

# 84: Alatunnisteen siirtäminen WordPressiin - CSS-temppuja

# 88: Galleria-palkin rakentaminen - CSS-temppuja

# 86: Gallerian valokuvaus - CSS-temppuja

# 89: Galleriapalkin säätäminen - CSS-temppuja

# 90: Yksittäisten sivujen määrittäminen galleriaan CSS-temppuja

Halutut ominaisuudet Selenium WebDriver -ohjelmassa

Kuinka löytää kaikki / rikki linkit Selenium Webdriver -sovelluksella

Gecko (Marionette) -ajurin seleeni: Lataa, asenna, käytä Firefoxin kanssa

Kuinka ladata & Asenna TestNG Eclipse for Selenium WebDriver -sovellukseen

Dynaamisten verkkopöytien käsittely Selenium WebDriver -ohjelmalla

# 009: Paikallisen Dev-ympäristön luominen - CSS-temppuja

# 007: Photoshop-kuvakkeet ja teksti navigointiin - CSS-temppuja

# 010: HTML: n kirjoittamisen aloittaminen - CSS-temppuja

# 011: CSS-säätiön normalisointi - CSS-temppuja

# 013: CSSing-navigointirakenne - CSS-temppuja