Tässä opetusohjelmassa opit -
- NLTK: n asentaminen Windowsiin
- Pythonin asentaminen Windowsiin
- NLTK: n asentaminen Maciin / Linuxiin
- NLTK: n asentaminen Anacondan kautta
- NLTK-tietojoukko
- Kuinka ladata kaikki NLTK-paketit
- NLP-komentosarjan suorittaminen
- Kuinka ajaa NLTK-komentosarja
NLTK: n asentaminen Windowsiin
Tässä osassa opitaan, kuinka NLTK-asennus tehdään päätelaitteen kautta (komentokehote Windowsissa).
Alla annettu ohje perustuu oletukseen, että sinulla ei ole pythonia asennettuna. Joten ensimmäinen askel on asentaa python.
Pythonin asentaminen Windowsiin:
Vaihe 1) Siirry linkkiin https://www.python.org/downloads/ , ja valitse uusin versio Windows.
Huomaa : Jos et halua ladata uusinta versiota, voit käydä latausvälilehdessä ja nähdä kaikki julkaisut.
Vaihe 2) Napsauta ladattua tiedostoa
Vaihe 3) Valitse Mukauta asennusta
Vaihe 4) Napsauta SEURAAVA
Vaihe 5) Seuraavassa näytössä
- Valitse lisäasetukset
- Anna mukautettu asennussijainti. Minun tapauksessani C-aseman kansio valitaan käytön helpottamiseksi
- Napsauta Asenna
Vaihe 6) Napsauta Sulje-painiketta, kun asennus on valmis.
Vaihe 7) Kopioi Scripts-kansion polku.
Vaihe 8) Windowsin komentokehotteessa
- Siirry pip-kansion sijaintiin
- Anna komento asentaaksesi NLTK
pip3 install nltk
- Asennus on suoritettava onnistuneesti
HUOMAUTUS : Python2: lle käytä commandpip2 install nltk -ohjelmaa
Vaihe 9) Etsi ja avaa PythonShell Windowsin Käynnistä-valikossa
Vaihe 10) Voit tarkistaa, onko asennus oikea antamalla alla olevan komennon
import nltk
Jos virheitä ei näy, asennus on valmis.
NLTK: n asentaminen Maciin / Linuxiin
NLTK: n asentaminen Mac / Unixiin vaatii python-paketinhallinnan pipin asentamaan nltk: n. Jos pipiä ei ole asennettu, noudata seuraavia ohjeita prosessin loppuun saattamiseksi
Vaihe 1) Päivitä pakettihakemisto kirjoittamalla alla oleva komento
sudo apt update
Vaihe2) Python 3: n asentaminen:
sudo apt install python3-pip
Voit asentaa pipin myös easy_install-ohjelmalla.
sudo apt-get install python-setuptools python-dev build-essential
Nyt easy_install on asennettu. Suorita alla oleva komento asentaaksesi pip
sudo easy_install pip
Vaihe 3) Asenna NLTK seuraavalla komennolla
sudo pip install -U nltksudo pip3 install -U nltk
NLTK: n asentaminen Anacondan kautta
Vaihe 1) Asenna anaconda (jota voidaan käyttää myös erilaisten pakettien asentamiseen) käymällä osoitteessa https://www.anaconda.com/products/individual ja valitsemalla, mikä python-versio sinun on asennettava anacondalle.
Huomaa: Katso tästä oppaasta tarkat ohjeet anacondan asentamiseksi
Vaihe 2) Anaconda-kehotteessa
- Anna komento
conda install -c anaconda nltk
- Tarkista pakettipäivitys, päivitä, asenna tiedot ja kirjoita kyllä
- NLTK ladataan ja asennetaan
NLTK-tietojoukko
NLTK-moduulissa on käytettävissä useita tietojoukkoja, jotka sinun on ladattava käytettäväksi. Teknisesti sitä kutsutaan korpukseksi . Osa esimerkeistä on ohitetut sanat , Gutenberg , framenet_v15 , large_grammars ja niin edelleen.
Kuinka ladata kaikki NLTK-paketit
Vaihe 1) Suorita Python-tulkki Windowsissa tai Linuxissa
Vaihe 2)
- Anna komennot
import nltknltk.download ()
- NLTK ladattu ikkuna avautuu. Napsauta Lataa-painiketta ladataksesi tietojoukon. Tämä prosessi vie aikaa internetyhteytesi perusteella
HUOMAUTUS: Voit muuttaa lataussijaintia napsauttamalla Tiedosto> Muuta lataushakemistoa
Vaihe 3) Testaa asennettu data seuraavalla koodilla
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Tuomaristo', 'sanoi',…]
NLP-komentosarjan suorittaminen
Aiomme keskustella siitä, kuinka NLP-komentosarja suoritetaan paikallisella tietokoneellamme. Markkinoilla on monia luonnollisen kielenkäsittelyn kirjastoja. Joten kirjaston valinta riippuu vaatimusten täyttämisestä. Tässä on luettelo NLP-kirjastoista.
Kuinka ajaa NLTK-komentosarja
Vaihe1) Kopioi koodi suosikkikoodieditorissasi ja tallenna tiedosto nimellä " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Koodin selitys:
- Tässä ohjelmassa tavoitteena oli poistaa kaiken tyyppiset välimerkit annetusta tekstistä. Tuodaan "RegexpTokenizer", joka on NLTK-moduuli. Se poistaa kaikki ilmaisut, symbolit, merkit, numeeriset tai mitä tahansa mitä haluat.
- Olet juuri siirtänyt säännöllisen lausekkeen "RegexpTokenizer" -moduuliin.
- Lisäksi me merkitsimme sanan käyttämällä "tokenize" -moduulia. Lähtö tallennetaan muuttujaan "filterdText".
- Ja tulosti ne käyttämällä "print ()".
Vaihe 2) Komentokehotteessa
- Siirry sijaintiin, johon olet tallentanut tiedoston
- Suorita komento Python NLTKsample.py
Tämä näyttää tuotoksen seuraavasti:
['Hei', 'Guru99', 'Sinä', 'sinulla', 'rakenna', 'a', 'erittäin', 'hyvä', 'sivusto', 'ja', 'minä', 'rakkaus', ' vierailulla ',' sinun ',' sivustolla ']