Similarity Search with Gensim

Gensim – Topic modelling for humans

https://radimrehurek.com/gensim/
- Volně dostupná open-source Python knihovna.
- Implementuje celou řadu algoritmů pro strojové učení.
Použití ilustrují skvělé tutorialy dostupné na webu.
Pokud použijte, ve svém TeXovém dokumentu citujte pomocí BibTeXu:

  @inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      note={\url{http://is.muni.cz/publication/884893/en}},
      language={English}
}

Gensim pro podobnostní vyhledávání

Použití virtuálního stroje

ZIP archiv s virtuálním strojem si zkopírujte z kolujícího flash disku, stáhněte z internetu, anebo nejlépe použijte lokální kopii připravenou přímo na vašem počítači v učebně.
Rozbalte ZIP do libovolného adresáře a připojte virtuální stroj do VirtualBoxu.
Nastartujte stroj a přihlaste se.
- login: pv211
- heslo: pv211
V případě potřeby můžete měnit konfiguraci a instalovat další software.
- Můžete neomezeně použít sodo bez zadávání hesla.
- Heslo uživatele root je opět pv211.
Když nastartujete Firefox, máte na liště záložek nachystáno několik užitečných odkazů.
Stroj je připraven pro snadné předávání dat z hostitele přes sdílenou složku.
- Pohlídejte si, že se sdílená složka v nastavení VirtualBoxu jmenuje VirtualBox_Share.
- Po startu virtuálního stroje můžete složku snadno připojit příkazem sudo mount ~/_shared_folder/.
  - Tím zajistíte sdílení obsahu složky mezi hostitelem a virtuálním strojem.

Gensim

V adresáři ~/similarity-search-with-gensim jsou připravena data a prostředí pro snadné vyzkoušení nástroje Gensim pro podobnostní vyhledávání.

Jako testovací data použijme 250 náhodně vybraných předzpracovaných stránek z anglické Wikipedie:

Wikipedia XML dump se dá stáhnout ze stránek Wikipedie.
- Konkrétně se jednalo o archiv s poslední exportovanou verzí článků.
Data pro vás jsou již připravena v souboru ~/similarity-search-with-gensim/wiki-tabbed.tsv:
- Soubor je v TSV (Tab-Separated Values, tabulátorem oddělené hodnoty) formátu:
  article_title<tab>section_heading<tab>section_content<tab>section_heading<tab>section_content...
- Z XML do byl převeden s použitím pomocných API poskytovaných přímo Gensim.

Dokumentované programování s Jupyter Notebook

Skvělým nástrojem pro dokumentované experimentování (nejen) v Pythonu je Jupyter Notebook.

Nástroj spustí na počítači malý lokální webový server.
Přes webové rozhraní pak můžete prohlížet soubory, přistupovat k emulátoru terminálu a zejména vytvářet speciál webové stránky kombinující Markdown a Python kód (případně kód v jiných jazycích, pokud si instalujete potřebnou podporu).
- Úryvky kódu mohou být spuštěny a výstup je zaznamenán do webové stránky.
- Webovou stránku je pak možné uložit včetně výstupů pro pozdější použití.
  - Možný je i export do různých formátů včetně HTML a PDF.
Pozor! Mějte na paměti, že webový server spuštěný Jupyter Notebookem je vůbec nebo jen velmi slabě autentizovaný a často bez zapnutého šifrování spojení!
- Bez patřičného nastavení bezpečnosti jej nepoužívejte na žádném sdíleném počítači (aisa.fi.muni.cz apod.) nebo počítači bez správně nastaveného firewallu – každý uživatel daného počítače (nebo kdokoliv, kdo k němu má přístup po síti) má plný přístup k shellu daného stroje pod vaší identitou, tj. má naprosto stejná práva a přístup k datům jako vy, včetně možnosti použít SSH pro přihlášení dále!
- Možnosti zabezpečení viz dokumentace autentizace a šifrování spojení.

Gesim prakticky

Příprava Python prostředí

Python má dobrou podporu pro používání tzv. virtuálních prostředí, které umožňují vytvořit „kontejner“ s instalací konkrétní verze Pythonu a různých modulů. Daných „kontejnerů“ je pak možné mít připraveno více a dle potřeby mezi nimi snadno přepínat.

$ cd ~/similarity-search-with-gensim/
$ mkvirtualenv gensim-jupyter-notebook
$ pip install -U pip  # instalace nejnovější verze správce Python balíčků
$ pip install numpy  # Instalace modulu NumPy
$ pip install gensim jupyter pattern # Instalace modulů Gensim, Jupyter Notebook a Pattern
$ pip freeze > requirements.txt  # Uložení seznamu všech modulů a jejich přesných verzí
# Pokud budeme chtít později někde vytvořit stejné běhové prostředí, můžeme identický seznam modulů v identických verzí instalovat jednoduše příkazem:
#  pip install -r requirements.txt
# Soubor `requirements.txt` je tedy velmi dobrý kandidát na umístění do Git/Subversion/... repositáře vedle zdrojových kódu vašeho Python projektu.

Spuštění Jupyter Notebook

$ jupyter notebook

V konzoly uvidíte log Jupyter Notebok webového serveru.
- Na začátku vidíte URL, na které je dostupné webové rozhraní.
- Webové rozhraní by se mělo při spuštění automaticky otevřít ve výchozím webovém prohlížeči.
Kořenovým adresářem pro práci bude adresář, ve kterém jste příkaz jupyter notebook spustili.
- V našem případě tedy ~/similarity-search-with-gensim/.

Práce s Gensim v Jupyter Notebook

Ve webovém rozhraní otevřete soubor similarity-search-with-gensim.ipynb.

Jedná se o uložený Jupyter Notebook, který již obsahuje předpřipravený ukázkový kód.
Když vyberete buňku, můžete její obsah editovat stiskem klávesy Enter.
Klávesová zkratka Ctrl + Enter provede spuštění obsahu buňky.
Stav spuštění je v rámci daného notebooku globální.
- Tj. pokud např. v jedné buňce nastavíte do proměnné nějakou hodnotu, bude tato proměnná s touto hodnotou od té chvíle dostupná při dalším spuštění kódu v libovolné buňce atd.
- Je proto vhodné, aby buňky od shora dolů na sebe logicky navazovaly, aby se dal celý notebook „přehrát“ od začátku do konce.
- Pokud se při experimentech dostanete do „nedefinovaného“ nebo nechtěného stavu, můžete stav jednoduše restartovat:
  - Z horní lišty vyberte menu Kernel (jako kernel se označuje sezení interpretru Pythonu, které vykonává spuštěné příkazy a definuje tak globální stav notebooku).
  - Vyberte žádanou akci:
    - Restart – jen restartuje kernel, nemaže výstupy v notebooku ani nespouští nový běh.
    - Restart & Clean Output – restartuje kernel a navíc smaže všechny výstupy v notebooku.
    - Restart & Run All – restartuje kernel, smaže všechny výstupy v notebooku a postupně od začátku do konce spustí všechny buňky.

Vyzkoušejte si

Krok po kroku projděte předpřipravený obsah notebooku similarity-search-with-gensim.ipynb.
- Přečtěte si a pochopte logiku kódu.
Zkopírujte notebook do nového souboru similarity-search-with-gensim-lda.ipynb a tam upravte kód tak, aby místo algoritmu LSI používal algoritmus LDA.
- Zkopírování souboru:
  - Z unixové konzole:
    - cp -via similarity-search-with-gensim.ipynb similarity-search-with-gensim-lda.ipynb
  - Z webového rozhraní Jupyter Notebooku:
    1. Vybrat similarity-search-with-gensim.ipynb.
    2. Kliknout na Duplicate.
    3. Vybrat similarity-search-with-gensim-Copy1.ipynb
    4. Kliknout na Rename.
      - Zadat similarity-search-with-gensim-lda.ipynb.
- Použití LDA místo LSI viz dokumentace API LSI a LDA (respektive multicore LDA).
Do notebooku similarity-search-with-gensim.ipynb přidejte kód, který se bude dotazovat obsahem souboru ~/similarity-search-with-gensim/dwarf-rabbit-wikipedia.html, tj. hledat dokumenty podobné tomuto dokumentu staženému z Wikipedie.
- Ze souboru je třeba extrahovat jen obsahový text, tj. ignorovat navigační menu, záhlaví, zápatí apod.
  - Soubor dwarf-rabbit-wikipedia.html je well-formed XML. Můžete proto využít nástroje pro práci s XML:
    - Python nabízí např. moduly xml.etree.ElementTree nebo LXML.
    - Pro jednoduchost můžete filtrování provést např. ignorováním všeho krom textového obsahu elementů <p> (odstavce).
- Extrahovaný text je třeba vyčistit a tokenizovat. Můžete využít obdobný postup, který byl ukázán v původním notebooku similarity-search-with-gensim.ipynb.