Запись Запросов в ClickHouse с использованием Данных GitHub

Этот набор данных содержит все коммиты и изменения для репозитория ClickHouse. Он может быть сгенерирован с использованием встроенного инструмента git-import, поставляемого с ClickHouse.

Сгенерированные данные предоставляют файл tsv для каждой из следующих таблиц:

commits - коммиты со статистикой.
file_changes - файлы, измененные в каждом коммите с информацией об изменении и статистикой.
line_changes - каждая измененная строка в каждом измененном файле в каждом коммите с полной информацией о строке и информацией о предыдущем изменении этой строки.

На 8 ноября 2022 года каждый TSV имеет приблизительно следующий размер и количество строк:

commits - 7.8M - 266,051 строк
file_changes - 53M - 266,051 строк
line_changes - 2.7G - 7,535,157 строк

Генерация данных

Это необязательно. Мы распространяем данные бесплатно - смотрите Скачивание и вставка данных.

git clone git@github.com:ClickHouse/ClickHouse.git
cd ClickHouse
clickhouse git-import --skip-paths 'generated\.cpp|^(contrib|docs?|website|libs/(libcityhash|liblz4|libdivide|libvectorclass|libdouble-conversion|libcpuid|libzstd|libfarmhash|libmetrohash|libpoco|libwidechar_width))/' --skip-commits-with-messages '^Merge branch '

Это займет около 3 минут (на 8 ноября 2022 года на MacBook Pro 2021) для завершения для репозитория ClickHouse.

Полный список доступных опций можно получить из встроенной справки инструмента.

clickhouse git-import -h

Эта справка также предоставляет DDL для каждой из вышеупомянутых таблиц, например:

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Эти запросы должны работать на любом репозитории. Не стесняйтесь исследовать и сообщать о своих находках. Несколько рекомендаций относительно времени выполнения (на ноябрь 2022 года):

Linux - ~/clickhouse git-import - 160 минут

Скачивание и вставка данных

Следующие данные могут быть использованы для воспроизведения рабочей среды. В качестве альтернативы этот набор данных доступен в play.clickhouse.com - смотрите Запросы для получения дополнительных сведений.

Сгенерированные файлы для следующих репозиториев можно найти ниже:

ClickHouse (8 ноября 2022 года)
Linux (8 ноября 2022 года)

Чтобы вставить эти данные, подготовьте базу данных, выполнив следующие запросы:

DROP DATABASE IF EXISTS git;
CREATE DATABASE git;

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.file_changes
(
    change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.line_changes
(
    sign Int8,
    line_number_old UInt32,
    line_number_new UInt32,
    hunk_num UInt32,
    hunk_start_line_number_old UInt32,
    hunk_start_line_number_new UInt32,
    hunk_lines_added UInt32,
    hunk_lines_deleted UInt32,
    hunk_context LowCardinality(String),
    line LowCardinality(String),
    indent UInt8,
    line_type Enum('Empty' = 0, 'Comment' = 1, 'Punct' = 2, 'Code' = 3),

    prev_commit_hash String,
    prev_author LowCardinality(String),
    prev_time DateTime,

    file_change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    file_lines_added UInt32,
    file_lines_deleted UInt32,
    file_hunks_added UInt32,
    file_hunks_removed UInt32,
    file_hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Вставьте данные, используя INSERT INTO SELECT и функцию s3. Например, ниже мы вставляем файлы ClickHouse в каждую из их соответствующих таблиц:

commits

INSERT INTO git.commits SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/commits.tsv.xz', 'TSV', 'hash String,author LowCardinality(String), time DateTime, message String, files_added UInt32, files_deleted UInt32, files_renamed UInt32, files_modified UInt32, lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32')

0 rows in set. Elapsed: 1.826 sec. Processed 62.78 thousand rows, 8.50 MB (34.39 thousand rows/s., 4.66 MB/s.)

file_changes

INSERT INTO git.file_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/file_changes.tsv.xz', 'TSV', 'change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6), path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32, commit_hash String, author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 2.688 sec. Processed 266.05 thousand rows, 48.30 MB (98.97 thousand rows/s., 17.97 MB/s.)

line_changes

INSERT INTO git.line_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/line_changes.tsv.xz', 'TSV', '    sign Int8, line_number_old UInt32, line_number_new UInt32, hunk_num UInt32, hunk_start_line_number_old UInt32, hunk_start_line_number_new UInt32, hunk_lines_added UInt32,\n    hunk_lines_deleted UInt32, hunk_context LowCardinality(String), line LowCardinality(String), indent UInt8, line_type Enum(\'Empty\' = 0, \'Comment\' = 1, \'Punct\' = 2, \'Code\' = 3), prev_commit_hash String, prev_author LowCardinality(String), prev_time DateTime, file_change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6),\n    path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), file_lines_added UInt32, file_lines_deleted UInt32, file_hunks_added UInt32, file_hunks_removed UInt32, file_hunks_changed UInt32, commit_hash String,\n    author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 50.535 sec. Processed 7.54 million rows, 2.09 GB (149.11 thousand rows/s., 41.40 MB/s.)

Запросы

Инструмент предлагает несколько запросов через свой вывод справки. Мы ответили на них в дополнение к некоторым дополнительным вспомогательным вопросам. Эти запросы имеют примерно возрастающую сложность по сравнению с произвольным порядком инструмента.

Этот набор данных доступен в play.clickhouse.com в базах данных git_clickhouse. Мы предоставляем ссылку на эту среду для всех запросов, адаптируя имя базы данных по мере необходимости. Обратите внимание, что результаты игры могут отличаться от представленных здесь из-за различий во времени сбора данных.

История одного файла

Самые простые запросы. Здесь мы рассматриваем все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку они, вероятно, более интересные, мы сортируем по самым последним сообщениям первыми.

Генерация данных​

Скачивание и вставка данных​

Запросы​

История одного файла​

Найти текущие активные файлы​

Список файлов с наибольшим количеством модификаций​

В какой день недели обычно происходят коммиты?​

История подкаталога/файла - количество строк, коммитов и участников за время​

Список файлов с максимальным количеством авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей​

Распределение участников по документации и коду за месяц​

Авторы с самым разнообразным влиянием​

Любимые файлы для автора​

Самые большие файлы с наименьшим количеством авторов​

Распределение коммитов и строк кода по времени; по дням недели, авторам; для конкретных подкаталогов​

Матрица авторов, показывающая, какие авторы перерабатывают код других авторов​

Кто является автором с наибольшим процентом вкладов по дням недели?​

Распределение возраста кода по репозиторию​

Какой процент кода для автора был удалён другими авторами?​

Список файлов, которые были переписаны наибольшее количество раз​

Какой день недели имеет наибольшие шансы остаться в репозитории?​

Файлы отсортированные по среднему возрасти кода​

Кто чаще всего пишет больше тестов / CPP кода / комментариев?​

Как меняются коммиты автора со временем в отношении % кода/комментариев?​

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?​

Какое худшее время для написания кода с точки зрения высокой вероятности переписывания?​

Код каких авторов является самым «липким»?​

Наибольшее количество последовательных дней коммитов автором​

История коммитов файла построчно​

Нерешенные вопросы​

Git blame​

Связанный контент​

Генерация данных

Скачивание и вставка данных

Запросы

История одного файла

Найти текущие активные файлы

Список файлов с наибольшим количеством модификаций

В какой день недели обычно происходят коммиты?

История подкаталога/файла - количество строк, коммитов и участников за время

Список файлов с максимальным количеством авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей

Распределение участников по документации и коду за месяц

Авторы с самым разнообразным влиянием

Любимые файлы для автора

Самые большие файлы с наименьшим количеством авторов

Распределение коммитов и строк кода по времени; по дням недели, авторам; для конкретных подкаталогов

Матрица авторов, показывающая, какие авторы перерабатывают код других авторов

Кто является автором с наибольшим процентом вкладов по дням недели?

Распределение возраста кода по репозиторию

Какой процент кода для автора был удалён другими авторами?

Список файлов, которые были переписаны наибольшее количество раз

Какой день недели имеет наибольшие шансы остаться в репозитории?

Файлы отсортированные по среднему возрасти кода

Кто чаще всего пишет больше тестов / CPP кода / комментариев?

Как меняются коммиты автора со временем в отношении % кода/комментариев?

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?

Какое худшее время для написания кода с точки зрения высокой вероятности переписывания?

Код каких авторов является самым «липким»?

Наибольшее количество последовательных дней коммитов автором

История коммитов файла построчно

Нерешенные вопросы

Git blame

Связанный контент