# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева, НИУ ВШЭ*

## Работа с API ВКонтакте: собираем посты со стены

Загружаем модули и библиотеки, необходимые для работы:

In [226]:
import requests
import time
import pandas as pd

Для начала давайте посмотрим на документацию API и посмотрим, как к нему формировать запросы: https://dev.vk.com/api/api-requests.

В прошлый раз по инструкции мы получили доступ к API, вспомним шаги.

In [73]:
# вводим id своего приложения
# и проходим по ссылке с этим id

app_id = input("Enter your client id: ")
url = f"https://oauth.vk.com/authorize?client_id={app_id}&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token"
print(url)

Enter your client id: 8106141
https://oauth.vk.com/authorize?client_id=8106141&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token


In [74]:
# копируем токен доступа

token = input("Enter your token here: ")

Enter your token here: 35b4e67084ce980f4b42e87c5d577f503af52cc7778fd9533a3afa2d0e6368b01841bb4dcab93f77a9a21


На этом практическом занятии мы будем выгружать посты из сообщества [Цитатник ВШЭ](https://vk.com/hseteachers). Сохраним в переменные версию API, ссылку для метода работы со стеной сообщества и название сообщества:

In [75]:
v = "5.131"
main_wall = "https://api.vk.com/method/wall.get"
domain = "hseteachers"

Функция `get()` из библиотеки `requests` умеет подставлять в запрос необходимые параметры и объединять их с помощью `?` и `&`. Сохраним необходимые параметры в виде словаря:

In [120]:
params_wall = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "v" : v}

А теперь сформируем запрос и выгрузим результаты в формате JSON – в Python данные в таком формате будут представлены в виде словаря:

In [122]:
req_wall = requests.get(main_wall, params = params_wall)
json_wall = req_wall.json()
# json_wall

Извлечём из этого большого словаря элемент, который хранит непосредственно результаты – список из маленьких словарей с информацией о постах (1 словарь = 1 пост):

In [123]:
items_wall = json_wall['response']['items']

Посмотрим на один элемент такого списка:

In [124]:
i = items_wall[0]
i

Поработаем с ним!

### Задача 1

Извлечь из элемента `i` следующие компоненты:

* id поста;
* дата поста;
* текст поста;
* число лайков;
* число репостов;
* число просмотров;
* число комментариев.

In [None]:
# YOUR CODE HERE

### Задача 2

Напишите функцию `get_posts()`, которая принимает на вход словарь, аналогичный сохранённому в `i`, и возвращает список из следующих характеристик:

* id поста;
* дата поста;
* текст поста;
* число лайков;
* число репостов;
* число просмотров;
* число комментариев.

In [None]:
# YOUR CODE HERE

### Задача 3

Примените функцию `get_posts()` ко всем элементам списка `items_wall` и сохраните полученные результаты в список `posts`. 

In [None]:
# YOUR CODE HERE

In [126]:
posts = []

for i in items_wall:
    p = get_posts(i)
    posts.append(p)

### Задача 4

Прочитайте в документации к API ВКонтакте про аргумент `offset` в методе `wall.get`. Используя полученную информацию и блоки кода ниже, выгрузите и сохраните в список `items_more` данные ещё по 6000 постам на стене сообщества.

**Подсказка:** чтобы расширять список правильным образом, используйте метод `.extend()`, а не `.append()`, он добавляет не один элемент, а сразу несколько (см. примеры ниже).

In [244]:
# с append()

A = []
for i in range(5):
    B = [1, 2, 3]
    A.append(B)
print(A)

[[1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3]]


In [245]:
# с extend()

A = []
for i in range(5):
    B = [1, 2, 3]
    A.extend(B)
print(A)

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]


In [127]:
params_wall_long = {"access_token" : token, 
              "domain" : domain, 
              "count" : 100,
              "offset" : 100,
              "v" : v}

In [128]:
# CHANGE CODE HERE

items_more = []  

req_wall_long = requests.get(main_wall, params = params_wall_long)
json_wall_long = req_wall_long.json()
items_wall_long = json_wall_long['response']['items']

Теперь извлечём из каждого элемента `items_more` нужную информацию и расширим список `posts`, который у нас уже был до этого:

In [129]:
for i in items_more:
    p = get_posts(i)
    posts.append(p)

In [246]:
len(posts)  # все идёт по плану

6100

Преобразуем результат в датафрейм, добавим названия столбцов:

In [248]:
dat = pd.DataFrame(posts)
dat.columns = ["id", "timestamp", "post", "likes", 
               "reposts", "views", "comments"]

Несколько строк датафрейма для примера:

In [None]:
dat.head()

Разобьём текст поста по `#`, чтобы извлечь тэги:

In [None]:
with_tags = dat["post"].str.split("#", expand = True)
with_tags

Основная информация – это первые два тэга, имя преподавателя и курс (по крайней мере, в большинстве случаев это так). Заберём для дальнейшей работы только их:

In [190]:
small = with_tags.loc[:, 0:2]
small.columns = ["text", "teacher", "course"]

Склеим датафрейм `dat` с датафреймом `small` по столбцам:

In [191]:
final = pd.concat([dat, small], axis = 1)

Заполним пропуски – добавим «пустой» текст в ячейки, где нет никаких значений:

In [192]:
final = final.fillna("")

Избавимся от лишних пробелов и отступов в текстовых данных:

In [238]:
final["text"] = final["text"].apply(lambda x: x.strip())
final["teacher"] = final["teacher"].apply(lambda x: x.strip())
final["course"] = final["course"].apply(lambda x: x.strip())

Осталось поработать с форматом времени в столбце `timestamp`.

In [222]:
final["timestamp"]

0       1648034700
1       1647948300
2       1647861900
3       1647775500
4       1647689100
           ...    
6095    1639409700
6096    1639398900
6097    1639388100
6098    1639323300
6099    1639312500
Name: timestamp, Length: 6100, dtype: int64

In [251]:
t = final["timestamp"][0]
t

1648034700

Импортируем из модуля `datetime` функцию `datetime`, она поможет нам получить дату и время в привычном формате:

In [None]:
from datetime import datetime

In [None]:
datetime.utcfromtimestamp(t)

In [233]:
datetime.utcfromtimestamp(t).strftime('%Y-%m-%d %H:%M:%S')

'2022-03-23 11:25:00'

Напишем функцию для преобразования временной метки:

In [235]:
def time_transform(t):
    r = datetime.fromtimestamp(t).strftime('%Y-%m-%d %H:%M:%S')
    return r

Применим её ко всем элементам столбца:

In [239]:
final["datetime"] = final["timestamp"].apply(time_transform)

Теперь можем разбить дату-время по пробелу, чтобы получить отдельные столбцы с датой и временем (механизм нам уже известен, мы разбивали пост по `#` выше):

In [255]:
dt = final["datetime"].str.split(" ", expand = True)
dt.columns = ["date", "time"]

In [257]:
final = pd.concat([final, dt], axis = 1)