# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева, НИУ ВШЭ*

## Обработка текста и облака слов

Установим библиотку `wordcloud`:

In [None]:
!pip install wordcloud

Импортируем библиотеку `pandas` для работы с таблицами, модуль `plt` из библиотеки `matplotlib` для построения графиков и функцию `WordCloud` для создания облака слов:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

Магическая строка для того, чтобы графики отображались прямо здесь, в ipynb-файле:

In [None]:
%matplotlib inline

Загрузим данные по новостям из файла Excel:

In [None]:
news = pd.read_excel("nplus1.xlsx")

In [None]:
news

Теперь приступим к обработке текста и облакам слов.

In [None]:
text = " ".join(news["text"])
text = text.lower()

In [None]:
wordcloud = WordCloud().generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
f = open("stopwords-ru.txt")
lines = f.readlines()

In [None]:
ru_stopwords = [w.strip() for w in lines] 

In [None]:
wordcloud = WordCloud(stopwords = ru_stopwords).generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
!pip install pymorphy2

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [None]:
p = morph.parse('стали')[0]
p.normal_form

In [None]:
words = text.split()

In [None]:
final = []
for w in words:
    if w not in ru_stopwords:
        final.append(w)

In [None]:
len(final)

In [None]:
len(set(final))

In [None]:
norm_words = []
for f in set(final):
    p = morph.parse(f)[0]
    norm_words.append(p.normal_form)
norm_words

In [None]:
text = " ".join(norm_words)

In [None]:
wordcloud = WordCloud(stopwords = ru_stopwords).generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

In [None]:
tokenizer = RegexTokenizer()
model = FastTextSocialNetworkModel(tokenizer=tokenizer)

In [None]:
results = model.predict(news["text"], k=5)

In [None]:
results

In [None]:
res = pd.DataFrame(results)

In [None]:
df = pd.concat([news, res], axis = 1)