Перейти к основному содержимому
Перейти к основному содержимому

Функции для замены в строках

Общие функции строк и функции для поиска в строках описаны отдельно.

overlay

Заменяет часть строки input на другую строку replace, начиная с 1-индексированного offset.

Синтаксис

overlay(s, replace, offset[, length])

Параметры

  • s: Строковый тип String.
  • replace: Строковый тип String.
  • offset: Целочисленный тип Int (1-индексированный). Если offset отрицательный, то он считается от конца строки s.
  • length: Необязательный. Целочисленный тип Int. length указывает длину фрагмента внутри входной строки s, который будет заменён. Если length не указан, количество байт, удалённых из s, равно длине replace; в противном случае удаляются length байт.

Возвращаемое значение

  • Значение типа String.

Пример

SELECT overlay('My father is from Mexico.', 'mother', 4) AS res;

Результат:

┌─res──────────────────────┐
│ My mother is from Mexico.│
└──────────────────────────┘
SELECT overlay('My father is from Mexico.', 'dad', 4, 6) AS res;

Результат:

┌─res───────────────────┐
│ My dad is from Mexico.│
└───────────────────────┘

overlayUTF8

Заменяет часть строки input на другую строку replace, начиная с 1-индексированного offset.

Предполагается, что строка содержит корректный текст в кодировке UTF-8. Если это предположение нарушено, то исключение не выбрасывается, и результат будет неопределённым.

Синтаксис

overlayUTF8(s, replace, offset[, length])

Параметры

  • s: Строковый тип String.
  • replace: Строковый тип String.
  • offset: Целочисленный тип Int (1-индексированный). Если offset отрицательный, он считается от конца входной строки s.
  • length: Необязательный. Целочисленный тип Int. length указывает длину фрагмента внутри входной строки s, который будет заменён. Если length не указан, количество символов, удалённых из s, равно длине replace; в противном случае удаляются length символов.

Возвращаемое значение

  • Значение типа String.

Пример

SELECT overlay('Mein Vater ist aus Österreich.', 'der Türkei', 20) AS res;

Результат:

┌─res───────────────────────────┐
│ Mein Vater ist aus der Türkei.│
└───────────────────────────────┘

replaceOne

Заменяет первое вхождение подстроки pattern в haystack на строку replacement.

Синтаксис

replaceOne(haystack, pattern, replacement)

replaceAll

Заменяет все вхождения подстроки pattern в haystack на строку replacement.

Синтаксис

replaceAll(haystack, pattern, replacement)

Альяс: replace.

replaceRegexpOne

Заменяет первое вхождение подстроки, соответствующей регулярному выражению patternсинтаксисе re2), в haystack на строку replacement.

replacement может содержать подстановки \0-\9. Подстановки \1-\9 соответствуют 1-й по 9-й группе захвата (подсовпадение), подстановка \0 соответствует полному совпадению.

Чтобы использовать символ \ в строках pattern или replacement, экранируйте его с помощью \. Также имейте в виду, что строковые литералы требуют дополнительного экранирования.

Синтаксис

replaceRegexpOne(haystack, pattern, replacement)

Пример

Преобразование ISO-даты в американский формат:

SELECT DISTINCT
    EventDate,
    replaceRegexpOne(toString(EventDate), '(\\d{4})-(\\d{2})-(\\d{2})', '\\2/\\3/\\1') AS res
FROM test.hits
LIMIT 7
FORMAT TabSeparated

Результат:

2014-03-17      03/17/2014
2014-03-18      03/18/2014
2014-03-19      03/19/2014
2014-03-20      03/20/2014
2014-03-21      03/21/2014
2014-03-22      03/22/2014
2014-03-23      03/23/2014

Копирование строки десять раз:

SELECT replaceRegexpOne('Hello, World!', '.*', '\\0\\0\\0\\0\\0\\0\\0\\0\\0\\0') AS res

Результат:

┌─res────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ Hello, World!Hello, World!Hello, World!Hello, World!Hello, World!Hello, World!Hello, World!Hello, World!Hello, World!Hello, World! │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

replaceRegexpAll

Как replaceRegexpOne, но заменяет все вхождения шаблона.

Альяс: REGEXP_REPLACE.

Пример

SELECT replaceRegexpAll('Hello, World!', '.', '\\0\\0') AS res

Результат:

┌─res────────────────────────┐
│ HHeelllloo,,  WWoorrlldd!! │
└────────────────────────────┘

В качестве исключения, если регулярное выражение сработало на пустой подстроке, замена не выполняется более одного раза, например:

SELECT replaceRegexpAll('Hello, World!', '^', 'here: ') AS res

Результат:

┌─res─────────────────┐
│ here: Hello, World! │
└─────────────────────┘

regexpQuoteMeta

Добавляет обратный слэш перед символами, имеющими специальное значение в регулярных выражениях: \0, \\, |, (, ), ^, $, ., [, ], ?, *, +, {, :, -.

Эта реализация немного отличается от re2::RE2::QuoteMeta. Она экранирует нулевой байт как \0 вместо \x00 и экранирует только необходимые символы. Для получения дополнительной информации смотрите RE2

Синтаксис

regexpQuoteMeta(s)

format

Форматирует строку pattern с указанными значениями (строками, целыми числами и т. д.), аналогично форматированию в Python. Строка шаблона может содержать поля замены, окружённые фигурными скобками {}. Всё, что не содержится в скобках, считается буквальным текстом и копируется в выходные данные. Символ фигурной скобки можно экранировать двумя скобками: {{ '{{' }} и {{ '}}' }}. Имена полей могут быть числами (начиная с нуля) или пустыми (в этом случае они получают последовательно увеличивающиеся номера).

Синтаксис

format(pattern, s0, s1, ...)

Пример

SELECT format('{1} {0} {1}', 'World', 'Hello')
┌─format('{1} {0} {1}', 'World', 'Hello')─┐
│ Hello World Hello                       │
└─────────────────────────────────────────┘

С неявными номерами:

SELECT format('{} {}', 'Hello', 'World')
┌─format('{} {}', 'Hello', 'World')─┐
│ Hello World                       │
└───────────────────────────────────┘

translate

Заменяет символы в строке s, используя однонаправленное сопоставление символов, определённое строками from и to. from и to должны быть постоянными строками ASCII. Если from и to имеют одинаковый размер, каждое вхождение 1-го символа from в s заменяется на 1-й символ из to, 2-й символ from в s заменяется на 2-й символ из to и т. д. Если from содержит больше символов, чем to, все вхождения символов в конце from, которые не имеют соответствующего символа в to, будут удалены из s. Нечастичные символы в s функцией не изменяются.

Синтаксис

translate(s, from, to)

Пример

SELECT translate('Hello, World!', 'delor', 'DELOR') AS res

Результат:

┌─res───────────┐
│ HELLO, WORLD! │
└───────────────┘

Аргументы from и to имеют разную длину:

SELECT translate('clickhouse', 'clickhouse', 'CLICK') AS res

Результат:

┌─res───┐
│ CLICK │
└───────┘

translateUTF8

Как translate, но предполагается, что s, from и to являются строками в кодировке UTF-8.

Синтаксис

translateUTF8(s, from, to)

Параметры

  • s: Строковый тип String.
  • from: Строковый тип String.
  • to: Строковый тип String.

Возвращаемое значение

  • Значение типа String.

Примеры

Запрос:

SELECT translateUTF8('Münchener Straße', 'üß', 'us') AS res;
┌─res──────────────┐
│ Munchener Strase │
└──────────────────┘

printf

Функция printf форматирует данную строку с указанными значениями (строками, целыми числами, числами с плавающей запятой и т. д.), аналогично функции printf в C++. Строка формата может содержать спецификаторы формата, начинающиеся с символа %. Всё, что не содержится в % и следующем спецификаторе формата, рассматривается как буквальный текст и копируется в выходные данные. Литерал % может быть экранирован с помощью %%.

Синтаксис

printf(format, arg1, arg2, ...)

Пример

Запрос:

select printf('%%%s %s %d', 'Hello', 'World', 2024);
┌─printf('%%%s %s %d', 'Hello', 'World', 2024)─┐
│ %Hello World 2024                            │
└──────────────────────────────────────────────┘