python

Работа с Anaconda на примере поиска корреляции курсов криптовалют

  • четверг, 8 марта 2018 г. в 03:14:35
https://habrahabr.ru/post/350500/
  • Открытые данные
  • Визуализация данных
  • Python
  • Open source
  • Data Mining




Цель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.

Шаг 1 — Настройка рабочей среды.


Единственные навыки, которые вам понадобятся, это базовое понимание Python.

Шаг 1.1 — Установка Anaconda

Дистрибутив Anaconda можно скачать на официальном сайте.
Установка проходит в стандартном Step-by-Step режиме.

Шаг 1.2 — Настройка рабочей среды проекта

После того, как Anaconda будет установлена, нужно создать и активировать новую среду для организации наших зависимостей.

Зачем использовать среды? Если вы планируете разрабатывать несколько проектов Python на своем компьютере, полезно хранить зависимости (программные библиотеки и пакеты) отдельно, чтобы избежать конфликтов. Anaconda создаст специальный каталог среды для зависимостей каждого проекта, чтобы все было организовано и разделено.

Сделать это можно либо через командную строку

conda create --name cryptocurrency-analysis python=3.6

run source activate cryptocurrency-analysis

(Linux/macOS)

или

activate cryptocurrency-analysis

(Windows)

либо через Anaconda Navigator



В данном случае среда активируется автоматически

Затем необходимо установить необходимые зависимости NumPy, Pandas, nb_conda, Jupiter, Plotly, Quandl.

conda install numpy pandas nb_conda jupyter plotly quandl

либо через Anaconda Navigator, поочередно каждый пакет



Это может занять несколько минут.

Шаг 1.3 — Запуск Jupyter Notebook

Так же существует вариант через командную строку jupyter notebook и откройте браузер на http://localhost:8888/

и через Anaconda Navigator



Шаг 1.4 — Импорт зависимостей

После того, как вы откроете пустой Jupyter Notebook, первое, что нужно сделать — это импорт необходимых зависимостей.

import os
import numpy as np
import pandas as pd
import pickle
import quandl
from datetime import datetime

Затем импорт и активация автономного режима Plotly.

import plotly.offline as py
import plotly.graph_objs as go
import plotly.figure_factory as ff
py.init_notebook_mode(connected=True)

Шаг 2 — Получение данных о ценах на биткоин


Теперь, когда все настроено, мы готовы начать извлечение данных для анализа. Начнем с того, что получим данные о ценах используя бесплатный API от Quandl.

Шаг 2.1 — Определение функции Quandl
Начнем с того, что определим функцию для загрузки и кэширования наборов данных из Quandl.

def get_quandl_data(quandl_id):
    '''Download and cache Quandl dataseries'''
    cache_path = '{}.pkl'.format(quandl_id).replace('/','-')
    try:
        f = open(cache_path, 'rb')
        df = pickle.load(f)   
        print('Loaded {} from cache'.format(quandl_id))
    except (OSError, IOError) as e:
        print('Downloading {} from Quandl'.format(quandl_id))
        df = quandl.get(quandl_id, returns="pandas")
        df.to_pickle(cache_path)
        print('Cached {} at {}'.format(quandl_id, cache_path))
    return df

Мы используем pickle для сериализации и сохранения загруженных данных в виде файла, что позволит нашему сценарию повторно не загружать одни и те же данные при каждом запуске скрипта.

Функция вернет данные в виде набора данных pandas.

Шаг 2.2 — Получение курса биткоина на бирже Kraken

Реализуем это следующим образом:

btc_usd_price_kraken = get_quandl_data('BCHARTS/KRAKENUSD')

Для проверки корректности отрабатывания скрипта мы можем посмотреть первые 5 строк полученного ответа используя метод head().

btc_usd_price_kraken.head()

Результат:
Date Open High Low Close Volume (BTC) Volume (Currency) Weighted Price
2014-01-07 874.67040 892.06753 810.00000 810.00000 15.622378 13151.472844 841.835522
2014-01-08 810.00000 899.84281 788.00000 824.98287 19.182756 16097.329584 839.156269
2014-01-09 825.56345 870.00000 807.42084 841.86934 8.158335 6784.249982 831.572913
2014-01-10 839.99000 857.34056 817.00000 857.33056 8.024510 6780.220188 844.938794
2014-01-11 858.20000 918.05471 857.16554 899.84105 18.748285 16698.566929 890.671709

И построить график для визуализации полученного массива

btc_trace = go.Scatter(x=btc_usd_price_kraken.index, y=btc_usd_price_kraken['Weighted Price'])
py.iplot([btc_trace])



Здесь мы используем Plotly для генерации наших визуализаций. Это менее традиционный выбор, чем некоторые из более известных библиотек, таких как Matplotlib, но я думаю, что Plotly — отличный выбор, поскольку он создает полностью интерактивные диаграммы с использованием D3.js.

Шаг 2.3 — Получение курса биткоина на нескольких биржах

Характер обмена заключается в том, что ценообразование определяется предложением и спросом, поэтому ни одна биржа не содержит «истинной цены» Биткойна. Чтобы решить эту проблему мы будем извлекать дополнительно данные из трех более крупных бирж для расчета совокупного индекса цены.

Мы будем загружать данные каждой биржи в словарь.

exchanges = ['COINBASE','BITSTAMP','ITBIT']

exchange_data = {}

exchange_data['KRAKEN'] = btc_usd_price_kraken

for exchange in exchanges:
    exchange_code = 'BCHARTS/{}USD'.format(exchange)
    btc_exchange_df = get_quandl_data(exchange_code)
    exchange_data[exchange] = btc_exchange_df

Шаг 2.4 — Объединение всех цен в единый набор данных

Определим простую функцию для объединения данных.

def merge_dfs_on_column(dataframes, labels, col):
    series_dict = {}
    for index in range(len(dataframes)):
        series_dict[labels[index]] = dataframes[index][col]
        
    return pd.DataFrame(series_dict)

Затем объединим все данные по столбцу «Weighted Price».

btc_usd_datasets = merge_dfs_on_column(list(exchange_data.values()), list(exchange_data.keys()), 'Weighted Price')

Теперь посмотрим последние пять строк, используя метод tail (), чтобы убедиться, что все выглядит нормально и так как мы хотели.

btc_usd_datasets.tail()

Результат:
Date BITSTAMP COINBASE ITBIT KRAKEN avg_btc_price_usd
2018-02-28 10624.382893 10643.053573 10621.099426 10615.587987 10626.030970
2018-03-01 10727.272600 10710.946064 10678.156872 10671.653953 10697.007372
2018-03-02 10980.298658 10982.181881 10973.434045 10977.067909 10978.245623
2018-03-03 11332.934468 11317.108262 11294.620763 11357.539095 11325.550647
2018-03-04 11260.751253 11250.771211 11285.690725 11244.836468 11260.512414

Шаг 2.5 — Сравнение наборов данных о ценах.

Следующим логическим шагом является визуализация сравнения полученных цен. Для этого мы определим вспомогательную функцию, которая построит график для каждой из бирж при помощи Plotly.

def df_scatter(df, title, seperate_y_axis=False, y_axis_label='', scale='linear', initial_hide=False):
    label_arr = list(df)
    series_arr = list(map(lambda col: df[col], label_arr))
    
    layout = go.Layout(
        title=title,
        legend=dict(orientation="h"),
        xaxis=dict(type='date'),
        yaxis=dict(
            title=y_axis_label,
            showticklabels= not seperate_y_axis,
            type=scale
        )
    )
    
    y_axis_config = dict(
        overlaying='y',
        showticklabels=False,
        type=scale )
    
    visibility = 'visible'
    if initial_hide:
        visibility = 'legendonly'
        
    trace_arr = []
    for index, series in enumerate(series_arr):
        trace = go.Scatter(
            x=series.index, 
            y=series, 
            name=label_arr[index],
            visible=visibility
        )
        
        if seperate_y_axis:
            trace['yaxis'] = 'y{}'.format(index + 1)
            layout['yaxis{}'.format(index + 1)] = y_axis_config    
        trace_arr.append(trace)

    fig = go.Figure(data=trace_arr, layout=layout)
    py.iplot(fig)

И вызовем ее

df_scatter(btc_usd_datasets, 'Цена биткоина на биржах (USD) ')

Результат:



Теперь удалим все нулевые значения, так как мы знаем, что цена никогда не была равна нулю в периоде, который мы рассматриваем.

btc_usd_datasets.replace(0, np.nan, inplace=True)

И пересоздадим график

df_scatter(btc_usd_datasets, 'Bitcoin Price (USD) By Exchange')

Результат:



Шаг 2.6 — Расчет средней цены

Теперь мы можем вычислить новый столбец, содержащий среднесуточную цену биткоина на всех биржах.

btc_usd_datasets['avg_btc_price_usd'] = btc_usd_datasets.mean(axis=1)

Этот новый столбец является нашим индексом цены биткоина. Построим его график, чтобы убедиться, что он выглядит нормально.

btc_trace = go.Scatter(x=btc_usd_datasets.index, y=btc_usd_datasets['avg_btc_price_usd'])
py.iplot([btc_trace])

Результат:



Мы будем использовать эти данные позже, чтобы конвертировать обменные курсы других криптовалют в USD.

Шаг 3 — Получение данных по альтернативным криптовалютам



Теперь, когда у нас есть массив данных с ценами биткойна, давайте возьмем некоторые данные об альтернативных криптовалютах.

Шаг 3.1 — Определение функций для работы с Poloniex API.

Для получения данных мы будем использовать API Poloniex. Определим две вспомогательные функции для загрузки и кэширования JSON данных из этого API.

Сначала мы определим функцию get_json_data, которая будет загружать и кэшировать данные JSON из предоставленного URL.

def get_json_data(json_url, cache_path):
    try:        
        f = open(cache_path, 'rb')
        df = pickle.load(f)   
        print('Loaded {} from cache'.format(json_url))
    except (OSError, IOError) as e:
        print('Downloading {}'.format(json_url))
        df = pd.read_json(json_url)
        df.to_pickle(cache_path)
        print('Cached response at {}'.format(json_url, cache_path))
    return df

Затем мы определим функцию для форматирования HTTP-запросов Poloniex API и вызова нашей новой функции get_json_data для сохранения полученных данных.

base_polo_url = 'https://poloniex.com/public?command=returnChartData&currencyPair={}&start={}&end={}&period={}'
start_date = datetime.strptime('2015-01-01', '%Y-%m-%d') 
end_date = datetime.now() 
pediod = 86400 

def get_crypto_data(poloniex_pair):
    json_url = base_polo_url.format(poloniex_pair, start_date.timestamp(), end_date.timestamp(), pediod)
    data_df = get_json_data(json_url, poloniex_pair)
    data_df = data_df.set_index('date')
    return data_df

Эта функция на входе получает пару криптовалют например, «BTC_ETH» и вернет исторические данные по обменному курсу двух валют.

Шаг 3.2 — Загрузка данных из Poloniex

Некоторые из рассматриваемых альтернативных криптовалют нельзя купить на биржах напрямую за USD. По этой причине мы будем загружать обменный курс на биткоин для каждой из них, а затем будем использовать существующие данные о ценах биткоина для преобразования этого значения в USD.

Мы загрузим данные об обмене для девяти популярных криптовалют — Ethereum, Litecoin, Ripple, Ethereum Classic, Stellar, Dash, Siacoin, Monero, and NEM.

altcoins = ['ETH','LTC','XRP','ETC','STR','DASH','SC','XMR','XEM']
altcoin_data = {}
for altcoin in altcoins:
    coinpair = 'BTC_{}'.format(altcoin)
    crypto_price_df = get_crypto_data(coinpair)
    altcoin_data[altcoin] = crypto_price_df

Теперь у нас есть 9 наборов данных, каждый из которых содержит исторические среднедневные биржевые соотношения биткона к альтернативной криптовалюте.

Мы можем просмотреть последние несколько строк таблицы цен на Ethereum, чтобы убедиться, что она выглядит нормально.

altcoin_data['ETH'].tail()

date close high low open quoteVolume volume weightedAverage
2018-03-01 0.079735 0.082911 0.079232 0.082729 17981.733693 1454.206133 0.080871
2018-03-02 0.077572 0.079719 0.077014 0.079719 18482.985554 1448.732706 0.078382
2018-03-03 0.074500 0.077623 0.074356 0.077562 15058.825646 1139.640375 0.075679
2018-03-04 0.075111 0.077630 0.074389 0.074500 12258.662182 933.480951 0.076149
2018-03-05 0.075373 0.075700 0.074723 0.075277 10993.285936 826.576693 0.075189

Шаг 3.3 — Конвертирование цен в USD.

Так как теперь у нас есть обменный курс на биткоин для каждой криптовалюты и у нас есть индекс исторических цен биткоина в USD, мы можем напрямую рассчитать цену в USD для каждой альтернативной криптовалюты.

for altcoin in altcoin_data.keys():
    altcoin_data[altcoin]['price_usd'] =  altcoin_data[altcoin]['weightedAverage'] * btc_usd_datasets['avg_btc_price_usd']

Этим мы создали новый столбец в каждом наборе данных альтернативных криптовалют с ценами в USD.

Затем мы можем повторно использовать нашу функцию merge_dfs_on_column, чтобы создать комбинированный набор данных о цене в USD для каждой из криптовалют.

combined_df = merge_dfs_on_column(list(altcoin_data.values()), list(altcoin_data.keys()), 'price_usd')

Теперь добавим в набор данных цены биткоина в качестве конечного столбца.

combined_df['BTC'] = btc_usd_datasets['avg_btc_price_usd']

В результате мы имеем набор данных, содержащий ежедневные цены в USD для десяти криптовалют, которые мы рассматриваем.

Используем нашу функцию df_scatter, чтобы отобразить все цены криптовалют на графике.

df_scatter(combined_df, 'Цены Криптовалют (USD)', seperate_y_axis=False, y_axis_label='(USD)', scale='log')

Этот график дает довольно солидную «общую картину» того, как обменные курсы каждой валюты менялись в течение последних нескольких лет.



В данном примере мы используем логарифмическую шкалу оси Y, чтобы сравнить все валюты на одном и том же участке. Вы можете попробовать различные значения параметров (например, scale = 'linear'), чтобы получить разные точки зрения на данные.

Шаг 3.4 — Вычисление корреляции криптовалют.

Вы можете заметить, что обменные курсы криптовалюты, несмотря на их совершенно разные ценности и волатильность, кажутся слегка коррелированными. И как видно по всплеску в апреле 2017 года, даже небольшие колебания, похоже, происходят синхронно на всем рынке.

Мы можем проверить нашу корреляционную гипотезу, используя метод Pandas corr (), который вычисляет коэффициент корреляции Пирсона для каждого столбца в наборе данных по отношению друг к другу. При вычислении также используем метод pct_change (), который преобразует каждую ячейку в наборе данных из абсолютного значения цены в процентное изменение.

Сначала мы вычислим корреляции для 2016 года.

combined_df_2016 = combined_df[combined_df.index.year == 2016]
combined_df_2016.pct_change().corr(method='pearson')

Результат:
DASH ETC ETH LTC SC STR XEM XMR XRP BTC
DASH 1.000000 0.003992 0.122695 -0.012194 0.026602 0.058083 0.014571 0.121537 0.088657 -0.014040
ETC 0.003992 1.000000 -0.181991 -0.131079 -0.008066 -0.102654 -0.080938 -0.105898 -0.054095 -0.170538
ETH 0.122695 -0.181991 1.000000 -0.064652 0.169642 0.035093 0.043205 0.087216 0.085630 -0.006502
LTC -0.012194 -0.131079 -0.064652 1.000000 0.012253 0.113523 0.160667 0.129475 0.053712 0.750174
SC 0.026602 -0.008066 0.169642 0.012253 1.000000 0.143252 0.106153 0.047910 0.021098 0.035116
STR 0.058083 -0.102654 0.035093 0.113523 0.143252 1.000000 0.225132 0.027998 0.320116 0.079075
XEM 0.014571 -0.080938 0.043205 0.160667 0.106153 0.225132 1.000000 0.016438 0.101326 0.227674
XMR 0.121537 -0.105898 0.087216 0.129475 0.047910 0.027998 0.016438 1.000000 0.027649 0.127520
XRP 0.088657 -0.054095 0.085630 0.053712 0.021098 0.320116 0.101326 0.027649 1.000000 0.044161
BTC -0.014040 -0.170538 -0.006502 0.750174 0.035116 0.079075 0.227674 0.127520 0.044161 1.000000

Коэффициенты, близкие к 1 или -1, означают, что данные сильно коррелируют или обратно коррелируют соответственно, а коэффициенты, близкие к нулю, означают, что значения имеют тенденцию колебаться независимо друг от друга.

Чтобы визуализировать эти результаты, мы создадим еще одну вспомогательную функцию.

def correlation_heatmap(df, title, absolute_bounds=True):
    heatmap = go.Heatmap(
        z=df.corr(method='pearson').as_matrix(),
        x=df.columns,
        y=df.columns,
        colorbar=dict(title='Pearson Coefficient'),
    )
    
    layout = go.Layout(title=title)
    
    if absolute_bounds:
        heatmap['zmax'] = 1.0
        heatmap['zmin'] = -1.0
        
    fig = go.Figure(data=[heatmap], layout=layout)
    py.iplot(fig)

correlation_heatmap(combined_df_2016.pct_change(), "Корреляция криптовалют (2016)")



Здесь темно-красные значения представляют собой сильные корреляции, а синие значения представляют собой сильные обратные корреляции. Все остальные цвета представляют собой разную степень слабых/несуществующих корреляций.

Что говорит нам этот график? По сути, это показывает, что было очень мало статистически значимой связи между тем, как цены разных криптовалют колебались в течение 2016 года.

Теперь, чтобы проверить нашу гипотезу о том, что криптотермины стали более коррелированными в последние месяцы, повторим те же тесты, используя данные за 2017 и 2018 года.

combined_df_2017 = combined_df[combined_df.index.year == 2017]
combined_df_2017.pct_change().corr(method='pearson')

Результат:
DASH ETC ETH LTC SC STR XEM XMR XRP BTC
DASH 1.000000 0.387555 0.506911 0.340153 0.291424 0.183038 0.325968 0.498418 0.091146 0.307095
ETC 0.387555 1.000000 0.601437 0.482062 0.298406 0.210387 0.321852 0.447398 0.114780 0.416562
ETH 0.506911 0.601437 1.000000 0.437609 0.373078 0.259399 0.399200 0.554632 0.212350 0.410771
LTC 0.340153 0.482062 0.437609 1.000000 0.339144 0.307589 0.379088 0.437204 0.323905 0.420645
SC 0.291424 0.298406 0.373078 0.339144 1.000000 0.402966 0.331350 0.378644 0.243872 0.325318
STR 0.183038 0.210387 0.259399 0.307589 0.402966 1.000000 0.339502 0.327488 0.509828 0.230957
XEM 0.325968 0.321852 0.399200 0.379088 0.331350 0.339502 1.000000 0.336076 0.268168 0.329431
XMR 0.498418 0.447398 0.554632 0.437204 0.378644 0.327488 0.336076 1.000000 0.226636 0.409183
XRP 0.091146 0.114780 0.212350 0.323905 0.243872 0.509828 0.268168 0.226636 1.000000 0.131469
BTC 0.307095 0.416562 0.410771 0.420645 0.325318 0.230957 0.329431 0.409183 0.131469 1.000000

correlation_heatmap(combined_df_2017.pct_change(), "Корреляция криптовалют (2017)")



combined_df_2018 = combined_df[combined_df.index.year == 2018]
combined_df_2018.pct_change().corr(method='pearson')

DASH ETC ETH LTC SC STR XEM XMR XRP BTC
DASH 1.000000 0.775561 0.856549 0.847947 0.733168 0.717240 0.769135 0.913044 0.779651 0.901523
ETC 0.775561 1.000000 0.808820 0.667434 0.530840 0.551207 0.641747 0.696060 0.637674 0.694228
ETH 0.856549 0.808820 1.000000 0.700708 0.624853 0.630380 0.752303 0.816879 0.652138 0.787141
LTC 0.847947 0.667434 0.700708 1.000000 0.683706 0.596614 0.593616 0.765904 0.644155 0.831780
SC 0.733168 0.530840 0.624853 0.683706 1.000000 0.615265 0.695136 0.626091 0.719462 0.723976
STR 0.717240 0.551207 0.630380 0.596614 0.615265 1.000000 0.790420 0.642810 0.854057 0.669746
XEM 0.769135 0.641747 0.752303 0.593616 0.695136 0.790420 1.000000 0.744325 0.829737 0.734044
XMR 0.913044 0.696060 0.816879 0.765904 0.626091 0.642810 0.744325 1.000000 0.668016 0.888284
XRP 0.779651 0.637674 0.652138 0.644155 0.719462 0.854057 0.829737 0.668016 1.000000 0.712146
BTC 0.901523 0.694228 0.787141 0.831780 0.723976 0.669746 0.734044 0.888284 0.712146 1.000000

correlation_heatmap(combined_df_2018.pct_change(), "Корреляция криптовалют (2018)")



И вот мы видим то, о чем и предполагали — почти все криптовалюты стали более взаимосвязанными друг с другом по всем направлениям.

На этом будем считать, что введение в работу с данными в Anaconda успешно пройдено.