@inproceedings{rehurek_lrec,
title = {{Software Framework for Topic Modelling with Large Corpora}},
author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
booktitle = {{Proceedings of the LREC 2010 Workshop on New
Challenges for NLP Frameworks}},
pages = {45--50},
year = 2010,
month = May,
day = 22,
publisher = {ELRA},
address = {Valletta, Malta},
note={\url{http://is.muni.cz/publication/884893/en}},
language={English}
}
pv211
pv211
sodo
bez zadávání hesla.root
je opět pv211
.VirtualBox_Share
.sudo mount ~/_shared_folder/
. V adresáři ~/similarity-search-with-gensim
jsou připravena data a prostředí pro snadné vyzkoušení nástroje Gensim pro podobnostní vyhledávání.
Jako testovací data použijme 250 náhodně vybraných předzpracovaných stránek z anglické Wikipedie:
~/similarity-search-with-gensim/wiki-tabbed.tsv
: article_title<tab>section_heading<tab>section_content<tab>section_heading<tab>section_content...
Skvělým nástrojem pro dokumentované experimentování (nejen) v Pythonu je Jupyter Notebook.
aisa.fi.muni.cz
apod.) nebo počítači bez správně nastaveného firewallu – každý uživatel daného počítače (nebo kdokoliv, kdo k němu má přístup po síti) má plný přístup k shellu daného stroje pod vaší identitou, tj. má naprosto stejná práva a přístup k datům jako vy, včetně možnosti použít SSH pro přihlášení dále!Python má dobrou podporu pro používání tzv. virtuálních prostředí, které umožňují vytvořit „kontejner“ s instalací konkrétní verze Pythonu a různých modulů. Daných „kontejnerů“ je pak možné mít připraveno více a dle potřeby mezi nimi snadno přepínat.
$ cd ~/similarity-search-with-gensim/
$ mkvirtualenv gensim-jupyter-notebook
$ pip install -U pip # instalace nejnovější verze správce Python balíčků
$ pip install numpy # Instalace modulu NumPy
$ pip install gensim jupyter pattern # Instalace modulů Gensim, Jupyter Notebook a Pattern
$ pip freeze > requirements.txt # Uložení seznamu všech modulů a jejich přesných verzí
# Pokud budeme chtít později někde vytvořit stejné běhové prostředí, můžeme identický seznam modulů v identických verzí instalovat jednoduše příkazem:
# pip install -r requirements.txt
# Soubor `requirements.txt` je tedy velmi dobrý kandidát na umístění do Git/Subversion/... repositáře vedle zdrojových kódu vašeho Python projektu.
$ jupyter notebook
jupyter notebook
spustili. ~/similarity-search-with-gensim/
.Ve webovém rozhraní otevřete soubor similarity-search-with-gensim.ipynb
.
Enter
.Ctrl + Enter
provede spuštění obsahu buňky.Kernel
(jako kernel se označuje sezení interpretru Pythonu, které vykonává spuštěné příkazy a definuje tak globální stav notebooku).Restart
– jen restartuje kernel, nemaže výstupy v notebooku ani nespouští nový běh.Restart & Clean Output
– restartuje kernel a navíc smaže všechny výstupy v notebooku.Restart & Run All
– restartuje kernel, smaže všechny výstupy v notebooku a postupně od začátku do konce spustí všechny buňky.similarity-search-with-gensim.ipynb
. similarity-search-with-gensim-lda.ipynb
a tam upravte kód tak, aby místo algoritmu LSI používal algoritmus LDA. cp -via similarity-search-with-gensim.ipynb similarity-search-with-gensim-lda.ipynb
similarity-search-with-gensim.ipynb
.Duplicate
.similarity-search-with-gensim-Copy1.ipynb
Rename
. similarity-search-with-gensim-lda.ipynb
.similarity-search-with-gensim.ipynb
přidejte kód, který se bude dotazovat obsahem souboru ~/similarity-search-with-gensim/dwarf-rabbit-wikipedia.html
, tj. hledat dokumenty podobné tomuto dokumentu staženému z Wikipedie. dwarf-rabbit-wikipedia.html
je well-formed XML. Můžete proto využít nástroje pro práci s XML: xml.etree.ElementTree
nebo LXML.<p>
(odstavce).similarity-search-with-gensim.ipynb
.