news.shamcode.ru | MapReduce на Go: превратите ваши большие данные в понятную карту и удобный редьюс

Привет, Хабр!

Часто задается вопрос: как эффективно и быстро обработать огромные объемы информации? Ответом на этот вызов стала концепция MapReduce, разработанная в недрах Google.

MapReduce — это парадигма программирования, созданная для обработки и генерации больших объемов данных с использованием параллельных распределенных алгоритмов. Основная фича проста: сначала данные разбиваются на небольшие части (фаза Map), а затем результаты этих частей агрегируются в финальный результат (фаза Reduce).

Зачем?

Масштабируемость: MapReduce позволяет распределять задачи на множество узлов, что значительно ускоряет обработку больших данных.
Производительность: Параллельное выполнение задач маппинга и редьюсинга обеспечивает порой очень высокую скорость обработки.
Устойчивость к ошибкам: Встроенные механизмы MapReduce обеспечивают восстановление после сбоев, что плюсик к надежности.
Простота использования: Разработчику нужно лишь определить функции Map и Reduce, а остальное берет на себя фреймворк.

В статье рассмотрим как реализовать MapReduce на Go, какие оптимизации можно применить для улучшения производительности и приведем примеры использования.

MapReduce

Архитектура

Mapper
- Маппер отвечает за обработку входных данных и преобразование их в промежуточные пары ключ-значение. На этапе маппинга входные данные разбиваются на более мелкие части, что позволяет их обрабатывать параллельно.
- Каждый маппер получает часть входных данных, выполняет над ними определенные операции (например, разбиение текста на слова) и выдает пары ключ-значение (например, слово и количество его вхождений). Благодаря тому, что мапперы работают независимо друг от друга, этот этап легко масштабируется на большое количество узлов.
Reducer
- Редьюсер собирает промежуточные пары ключ-значение, сгруппированные по ключам, и выполняет над ними завершающие операции, такие как суммирование или среднее арифметическое.
- Редьюсер получает все значения, ассоциированные с каждым уникальным ключом, и производит конечные результаты обработки (например, общее количество вхождений каждого слова). Как и мапперы, редьюсеры работают параллельно, обрабатывая различные группы ключей.
Shuffler
- Шафлер выполняет сортировку и группировку промежуточных данных, созданных мапперами, перед передачей их редьюсерам. Он гарантирует, что все данные с одинаковыми ключами будут обработаны одним редьюсером. После завершения этапа маппинга, промежуточные данные сортируются по ключам и распределяются между редьюсерами.
- Шафлер также работает параллельно.
Master Node
- Координирующий узел управляет всей работой системы MapReduce. Он распределяет задачи маппинга и редьюсинга между рабочими узлами, отслеживает их состояние и обрабатывает сбои.
- Координирующий узел распределяет входные данные между мапперами, собирает промежуточные результаты, передает их шффлеру и распределяет задачи редьюсинга.
- Этот узел также отвечает за повторное выполнение задач, если какой-либо рабочий узел выходит из строя.

Реализация в коде

Реализуем такой процесс:

Координирующий узел получает запрос на выполнение задачи и разбивает входные данные на фрагменты.
Рабочие узлы маппинга получают эти фрагменты и выполняют операции преобразования, генерируя промежуточные пары ключ-значение.
Шффлер сортирует и группирует эти промежуточные данные, распределяя их между редьюсерами.
Рабочие узлы редьюсинга получают сгруппированные данные и выполняют завершающие операции, генерируя конечные результаты.
Координирующий узел собирает результаты от всех редьюсеров и возвращает их пользователю или сохраняет в базе данных.

Приступим.

Координирующий узел управляет всем процессом, начиная с получения входных данных и их разбиения на фрагменты, и заканчивая сбором конечных результатов от редьюсеров:

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"
    "sync"
)

// структура для хранения задачи
type Task struct {
    filename string
}

// Главная функция
func main(г) {
    // файл с данными
    filename := "input.txt"
    // число мапперов и редьюсеров
    numMappers := 3
    numReducers := 2

    // создаем канал для передачи задач мапперам
    mapTasks := make(chan Task, numMappers)
    // создаем канал для передачи промежуточных данных шффлеру
    intermediateData := make(chan map[string]int, numMappers)
    // создаем канал для передачи данных редьюсерам
    reduceTasks := make(chan map[string]int, numReducers)

    var wg sync.WaitGroup

    // запуск мапперов
    for i := 0; i < numMappers; i++ {
        wg.Add(1)
        go mapper(mapTasks, intermediateData, &wg)
    }

    // запуск шафлера
    go shuffler(intermediateData, reduceTasks, numMappers)

    // запуск редьюсеров
    for i := 0; i < numReducers; i++ {
        wg.Add(1)
        go reducer(reduceTasks, &wg)
    }

    // разбиение файла на задачи и отправка мапперам
    file, err := os.Open(filename)
    if err != nil {
        log.Fatalf("Не удалось открыть файл: %s", err)
    }
    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        mapTasks <- Task{filename: scanner.Text()}
    }
    close(mapTasks)

    // ожидание завершения всех горутин
    wg.Wait()
    close(intermediateData)
    close(reduceTasks)

    fmt.Println("MapReduce завершен.")
}

Мапперы получают фрагменты входных данных и преобразуют их в промежуточные пары ключ-значение:

// функция маппера
func mapper(tasks <-chan Task, intermediateData chan<- map[string]int, wg *sync.WaitGroup) {
    defer wg.Done()

    for task := range tasks {
        file, err := os.Open(task.filename)
        if err != nil {
            log.Fatalf("Не удалось открыть файл: %s", err)
        }
        defer file.Close()

        scanner := bufio.NewScanner(file)
        counts := make(map[string]int)
        for scanner.Scan() {
            line := scanner.Text()
            words := strings.Fields(line)
            for _, word := range words {
                counts[word]++
            }
        }
        intermediateData <- counts
    }
}

Шафлер сортирует и группирует промежуточные данные, распределяя их между редьюсерами:

// функция шафлера
func shuffler(intermediateData <-chan map[string]int, reduceTasks chan<- map[string]int, numMappers int) {
    aggregatedData := make(map[string]int)

    for i := 0; i < numMappers; i++ {
        for data := range intermediateData {
            for key, value := range data {
                aggregatedData[key] += value
            }
        }
    }

    reduceTasks <- aggregatedData
}

Редьюсеры получают сгруппированные данные и выполняют завершающие операции, генерируя конечные результаты:

// функция редьюсера
func reducer(reduceTasks <-chan map[string]int, wg *sync.WaitGroup) {
    defer wg.Done()

    for task := range reduceTasks {
        finalCounts := make(map[string]int)
        for key, value := range task {
            finalCounts[key] += value
        }
        // выводим результаты
        for word, count := range finalCounts {
            fmt.Printf("%s: %d\n", word, count)
        }
    }
}

Координирующий узел собирает результаты от всех редьюсеров и возвращает их пользователю или сохраняет в БД:

// главная функция
func main() {
    // пример файла с данными
    filename := "input.txt"
    // число мапперов и редьюсеров
    numMappers := 3
    numReducers := 2

    // создаем канал для передачи задач мапперам
    mapTasks := make(chan Task, numMappers)
    // создаем канал для передачи промежуточных данных шафлеру
    intermediateData := make(chan map[string]int, numMappers)
    // создаем канал для передачи данных редьюсерам
    reduceTasks := make(chan map[string]int, numReducers)

    var wg sync.WaitGroup

    // запуск мапперов
    for i := 0; i < numMappers; i++ {
        wg.Add(1)
        go mapper(mapTasks, intermediateData, &wg)
    }

    // запуск шафлера
    go shuffler(intermediateData, reduceTasks, numMappers)

    // запуск редьюсеров
    for i := 0; i < numReducers; i++ {
        wg.Add(1)
        go reducer(reduceTasks, &wg)
    }

    // разбиение файла на задачи и отправка мапперам
    file, err := os.Open(filename)
    if err != nil {
        log.Fatalf("Не удалось открыть файл: %s", err)
    }
    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        mapTasks <- Task{filename: scanner.Text()}
    }
    close(mapTasks)

    // ожидание завершения всех горутин
    wg.Wait()
    close(intermediateData)
    close(reduceTasks)

    fmt.Println("MapReduce завершен.")
}

В каких кейсах MapReduce находит применение

Обработка логов

Обработка логов — это типикал задача для MapReduce, особенно там, где объемы логов могут достигать терабайтов данных ежедневно. Логи могут включать информацию о системных событиях, пользовательских действиях, ошибках и многом другом.

Map: На этапе маппинга каждый лог‑файл обрабатывается для извлечения ключевых данных, таких как временные метки, типы событий и идентификаторы пользователей. Каждый маппер генерирует промежуточные пары ключ‑значение, где ключом может быть, например, тип события, а значением — информация об этом событии.
Shuffle: На этапе шффлинга данные сортируются и группируются по ключам, что позволяет собрать все события одного типа вместе.
Reduce: На этапе редьюсинга агрегируются и анализируются данные. Например, подсчитывается количество каждого типа событий, определяется количество уникальных пользователей и анализируются временные метки для выявления пиков активности.

Анализ текстов

Map: Каждый документ разбивается на отдельные слова, которые затем преобразуются в пары ключ‑значение, где ключ — это слово, а значение — единица.
Shuffle: Пары ключ‑значение сортируются и группируются по ключам, что позволяет собрать все вхождения каждого слова вместе.
Reduce: В редьюсерах подсчитывается количество вхождений каждого слова, что позволяет получить частотный словарь.

Анализ Clickstream

Анализ clickstream данных позволяет понимать поведение пользователей на их веб‑сайтах и мобильных приложениях.

Map: Каждый clickstream лог обрабатывается для извлечения данных о действиях пользователя.
Shuffle: Данные сортируются и группируются по пользователям или сессиям, что позволяет собрать всю информацию о действиях одного пользователя вместе.
Reduce: В редьюсерах анализируются данные о поведении пользователей, что позволяет выявить популярные страницы, типичные пути пользователей и потенциальные узкие места в пользовательском интерфейсе.

MapReduce позволяет решать сложные задачи анализа данных, распределяя нагрузку и тем самым обеспечивая высокую производительность и масштабируемость.

В заключение напомню о ближайших открытых уроках:

18 июля: Дженерики в Go. На вебинаре вы узнаете механизмы обобщенного программирования с использованием дженериков. Мы рассмотрим внутренние механизмы работы дженериков в Go, а также примеры использования. Запись по ссылке
25 июля: Как сделать быстрорастущий сервис с помощью трейсинга? На вебинаре мы наглядно рассмотрим работу сервиса под нагрузкой и найдем запрос с помощью трейсинга. Покажем кейсы, когда уже есть логирование. Запись по ссылке