Mikä on sekaannusmatriisi?
Sekaannusmatriisi on suorituskyvyn mittaustekniikka koneoppimisen luokittelulle. Se on eräänlainen taulukko, joka auttaa sinua tuntemaan luokitusmallin suorituskyvyn testitiedoissa, jotta todelliset arvot ovat tiedossa. Termi sekaannusmatriisi itsessään on hyvin yksinkertainen, mutta siihen liittyvä terminologia voi olla hieman hämmentävä. Tässä annetaan tälle tekniikalle yksinkertainen selitys.
Tässä opetusohjelmassa opit,
- Mikä on sekaannusmatriisi?
- Neljä sekaannusmatriisin lopputulosta
- Esimerkki sekaannusmatriisista:
- Sekoitusmatriisin laskeminen
- Muut tärkeät termit sekaannusmatriisin avulla
- Miksi tarvitset sekaannusmatriisia?
Neljä sekaannusmatriisin lopputulosta
Sekaannusmatriisi visualisoi luokittelijan tarkkuuden vertaamalla todellisia ja ennustettuja luokkia. Binaarinen sekaannusmatriisi koostuu neliöistä:

- TP: Todellinen positiivinen: Ennustetut arvot on ennustettu oikein todellisiksi positiivisiksi
- FP: Ennustetut arvot ennustivat virheellisesti todellisen positiivisen. ts. negatiiviset arvot ennustetaan positiivisiksi
- FN: False Negative: Positiiviset arvot ennustetaan negatiivisiksi
- TN: Todellinen negatiivinen: Ennustetut arvot ennustetaan oikein todellisina negatiivisina
Voit laskea tarkkuustestin sekaannusmatriisista:
Esimerkki sekaannusmatriisista:
Confusion Matrix on hyödyllinen koneoppimismenetelmä, jonka avulla voit mitata palautus-, tarkkuus-, tarkkuus- ja AUC-ROC-käyrää. Alla on esimerkki termien tosi positiivinen, tosi negatiivinen, väärä negatiivinen ja tosi negatiivinen tuntemisesta.
Todellinen positiivinen:
Olet ennakoinut positiivisen ja se osoittautuu totta. Olet esimerkiksi ennustanut, että Ranska voittaa maailmancupin, ja se voitti.
Todellinen negatiivinen:
Kun olet ennustanut negatiivisen, ja se on totta. Olit ennustanut, ettei Englanti voittaisi ja se hävisi.
Väärä positiivinen:
Ennustuksesi on positiivinen ja väärä.
Olit ennustanut Englannin voittavan, mutta se hävisi.
Väärä negatiivinen:
Ennustuksesi on negatiivinen ja tulos on myös väärä.
Olit ennustanut, ettei Ranska voittaisi, mutta se voitti.
Muista, että kuvaamme ennustetut arvot joko tosi tai väärä tai positiivinen ja negatiivinen.
Sekoitusmatriisin laskeminen
Tässä on vaiheittainen prosessi sekaannusmatriisin laskemiseksi tiedonlouhinnassa
- Vaihe 1) Ensinnäkin sinun on testattava tietojoukko sen odotettavissa olevilla tulosarvoilla.
- Vaihe 2) Ennusta testiryhmän kaikki rivit.
- Vaihe 3) Laske odotetut ennusteet ja tulokset:
- Kunkin luokan oikeiden ennusteiden kokonaismäärä.
- Kunkin luokan virheellisten ennusteiden kokonaismäärä.
Sen jälkeen nämä numerot järjestetään alla annetuilla menetelmillä:
- Jokainen matriisin rivi liittyy ennustettuun luokkaan.
- Jokainen matriisin sarake vastaa todellista luokkaa.
- Oikean ja väärän luokituksen kokonaismäärä syötetään taulukkoon.
- Luokan oikeiden ennusteiden summa menee ennustettuun sarakkeeseen ja kyseisen luokan arvon odotettuun riviin.
- Luokan virheellisten ennusteiden summa menee kyseisen luokan arvon odotettuun riviin ja kyseisen luokan arvon ennustettuun sarakkeeseen.
Muut tärkeät termit sekaannusmatriisin avulla
- Positiivinen ennustearvo (PVV): Tämä on hyvin lähellä tarkkuutta. Yksi merkittävä ero kahden aikavälin välillä on se, että PVV ottaa huomioon esiintyvyyden. Tilanteessa, jossa luokat ovat täysin tasapainossa, positiivinen ennustearvo on sama kuin tarkkuus.
- Nullivirhesuhde: Tätä termiä käytetään määrittämään, kuinka monta kertaa ennustuksesi olisi väärä, jos pystyt ennustamaan enemmistöluokan. Voit pitää sitä perustason mittarina luokittelijan vertailussa.
- F-pisteet: F1-pisteet ovat todellisen positiivisen (palautus) ja tarkkuuden painotettu keskiarvo.
- Roc-käyrä: Roc-käyrä näyttää todelliset positiiviset hinnat väärän positiivisen suhteen eri leikkauspisteissä. Se osoittaa myös kompromissin herkkyyden (palautus ja spesifisyys tai todellinen negatiivinen osuus) välillä.
- Tarkkuus: Tarkkuusmittari näyttää positiivisen luokan tarkkuuden. Se mittaa, kuinka todennäköisesti positiivisen luokan ennuste on oikea.
Suurin pistemäärä on 1, kun luokittelija luokittelee kaikki positiiviset arvot täydellisesti. Pelkkä tarkkuus ei ole kovin hyödyllinen, koska siinä jätetään huomioimatta negatiivinen luokka. Metriikka on yleensä pariliitetty Recall-metriikkaan. Takaisinkutsua kutsutaan myös herkkyydeksi tai todelliseksi positiiviseksi nopeudeksi.
- Herkkyys : Herkkyys laskee oikein havaittujen positiivisten luokkien suhteen. Tämä mittari kertoo kuinka hyvä malli on tunnistaa positiivinen luokka.
Miksi tarvitset sekaannusmatriisia?
Tässä on sekaannusmatriisin käytön etuja / etuja.
- Se osoittaa, kuinka mikä tahansa luokitusmalli sekoittuu, kun se tekee ennusteita.
- Sekaannusmatriisi antaa sinulle käsityksen luokittelijan tekemistä virheistä, mutta myös virheiden tyyppeistä.
- Tämä erittely auttaa sinua voittamaan rajoituksen, joka koskee yksinomaan luokitustarkkuuden käyttöä.
- Sekaannusmatriisin jokainen sarake edustaa kyseisen ennustetun luokan esiintymiä.
- Jokainen sekaannusmatriisin rivi edustaa todellisen luokan esiintymiä.
- Se tarjoaa oivalluksen paitsi luokittelijan tekemistä virheistä myös tehtävistä virheistä.