Урок доступен в видеоформате

Оператор REGEXP для регулярных выражений

Оператор REGEXP (или его синоним RLIKE) в MySQL используется для поиска и обработки строковых данных с помощью регулярных выражений.

Урок доступен в видеоформате

Оператор регулярных выражений ~

Операторы ~ и ~* в PostgreSQL используются для поиска и обработки строковых данных с помощью регулярных выражений.

Регулярные выражения предоставляют мощные возможности для сложных шаблонов поиска, которые трудно реализовать с помощью оператора LIKE.

Когда использовать регулярные выражения вместо LIKE?

Оператор LIKE удобен для простых шаблонов поиска, таких как поиск строк, начинающихся или заканчивающихся на определённый набор символов, или содержащих определённые подстроки. Однако, если требуется более сложный и гибкий поиск, например, поиск по нескольким условиям или использование специальных символов и диапазонов, операторы регулярных выражений станут незаменимым инструментом.

Важно помнить, что LIKE сопоставляет строку со всем шаблоном целиком, а регулярное выражение ищет совпадение внутри строки. Если нужно проверить именно начало или конец строки, используйте специальные символы ^ и $.

Синтаксис регулярных выражений

MySQL 8.1
... WHERE table_field REGEXP 'pattern';

Где pattern — это регулярное выражение, задающее шаблон поиска.

MySQL 8.1
... WHERE table_field ~ 'pattern';   -- с учетом регистра
... WHERE table_field ~* 'pattern';  -- без учета регистра

Где pattern — это регулярное выражение, задающее шаблон поиска.

Важные нюансы

Регистронезависимость

По умолчанию регулярные выражения в MySQL не чувствительны к регистру. Например, выражение REGEXP 'abc' найдёт строку и abc, и Abc, и ABC.
Специальные символы

Некоторые символы имеют особое значение в регулярных выражениях и требуют экранирования (например, ., *, +, ?, [, ], (, ), {, }, |, \).

Для экранирования таких символов используйте двойной обратный слеш — \\.

Регистрозависимость

По умолчанию регулярные выражения в PostgreSQL чувствительны к регистру.
- Оператор ~ — с учетом регистра
- Оператор ~* — без учета регистра
Специальные символы

Некоторые символы имеют особое значение в регулярных выражениях и требуют экранирования (например, ., *, +, ?, [, ], (, ), {, }, |, \).

Для экранирования таких символов используйте одинарный обратный слеш — \.

Специальные символы и структуры

Символы и структуры	Чему соответствует
*	0 или более экземпляров предшествующего шаблона
+	1 или более экземпляров предшествующего шаблона
.	Любой одиночный символ
?	0 или 1 экземпляр предшествующего шаблона
^	Соответствует началу строки
$	Соответствует окончанию строки
[abc]	Любой символ, указанный в квадратных скобках
[^abc]	Любой символ, не указанный в квадратных скобках
[A-Z], [А-Я]	Соответствует любой заглавной букве латинского и кириллического алфавита соответственно
[a-z], [а-я]	Соответствует любой строчной букве латинского и кириллического алфавита соответственно
[0-9]	Соответствует любой цифре
p1\|p2\|p3	Соответствует любому из паттернов p1 или p2 или p3
{n}	n экземпляров предшествующего шаблона
{m,n}	от m до n экземпляров предшествующего шаблона

Примеры с объяснением

Получим всех пользователей, чьи имена начинаются на «John»:

MySQL 8.1
SELECT * FROM Users WHERE name REGEXP '^John'

MySQL 8.1
SELECT * FROM Users WHERE name ~ '^John'

id	name	email	email_verified_at	password	phone_number
18	John Travolta	wainwrig@msn.com	2016-11-19T12:30:43.000Z	fzjhl0v82o0amalr8649	+1 202 555 0176
28	Johnny Depp	cgarcia@yahoo.ca	2017-05-26T01:19:06.000Z	qpp6hbnae42cdhmxlk4j	+7 401 195 7363

Это выражение ищет строки, начинающиеся с «John». Символ ^ указывает на начало строки.

Выведем все школьные предметы, название которых оканчивается на букву «e» или «y»:
```
MySQL 8.1
SELECT * FROM  Subject WHERE name REGEXP '[ey]$'
```
```
MySQL 8.1
SELECT * FROM  Subject WHERE name ~ '[ey]$'
```
id name
2 Russian language
3 Literature
5 Chemistry
6 Geography
7 History
8 Biology
9 English language
11 Physical Culture
13 Technology

В этом примере, [ey] определяет список возможных значений для паттерна $, определяющего, на что должна заканчиваться строка.

Найдём всех пользователей, чей адрес электронной почты oканчивается на «@outlook.com» или на «@icloud.com»:

MySQL 8.1
SELECT * FROM Users WHERE email REGEXP '@(outlook\\.com|icloud\\.com)$'

MySQL 8.1
SELECT * FROM Users WHERE email ~ '@(outlook\.com|icloud\.com)$'

id	name	email	email_verified_at	password	phone_number
7	Samuel L. Jackson	moonlapse@outlook.com	2018-07-19T11:16:13.000Z	i6yvht95527z3idgqx9y	+1 202 555 0162
13	Steve Martin	nelson@outlook.com	2016-07-29T04:25:00.000Z	w76yphg3kvzg77ilmxfs	+1 202 555 0138
29	Pierce Brosnan	treeves@icloud.com	2019-03-08T01:56:00.000Z	lqiwecclne9rv8woo2go	+7 401 749 3620
30	Sean Connery	jschauma@icloud.com	2016-05-21T00:45:17.000Z	lyh4jkdxkvtvulvqi5db	+7 401 511 6783
31	Bruce Willis	kewley@icloud.com	2016-12-08T20:18:59.000Z	0ofa2khvnptiackbssv0	+375 154 771 3462

Здесь также используется $ для обозначения конца строки и | для указания нескольких вариантов.

Найдём всех пользователей, чей номер телефона не содержит цифр «2» и «8»:

MySQL 8.1
SELECT * FROM Users WHERE phone_number REGEXP '^[^28]*$'

MySQL 8.1
SELECT * FROM Users WHERE phone_number ~ '^[^28]*$'

id	name	email	email_verified_at	password	phone_number
27	Brad Pitt	kewley@optonline.net	2017-02-11T05:45:15.000Z	829j2ygocn8btzae49kv	+7 401 741 3797
28	Johnny Depp	cgarcia@yahoo.ca	2017-05-26T01:19:06.000Z	qpp6hbnae42cdhmxlk4j	+7 401 195 7363

В этом примере символ [^28] обозначает любой символ, кроме «2» и «8», а * означает любое количество таких символов. Символы ^ и $ указывают на начало и конец строки соответственно, гарантируя, что вся строка соответствует шаблону.

Найдём всех пользователей, чей номер телефона начинается на «+7»
```
MySQL 8.1
SELECT name, phone_number FROM Users WHERE phone_number REGEXP '^\\+7'
```
```
MySQL 8.1
SELECT name, phone_number FROM Users WHERE phone_number ~ '^\+7'
```
name phone_number
Hideo Kojima +7 401 452 0052
ClINT Eastwood +7 401 722 0912
Brad Pitt +7 401 741 3797
Johnny Depp +7 401 195 7363
Pierce Brosnan +7 401 749 3620
Sean Connery +7 401 511 6783

В этом примере ^ означает начало строки. То есть, мы ищем строки, которые начинаются с определённого шаблона.

Поскольку + является специальным символом в регулярных выражениях, его нужно экранировать двойным обратным слэшем (\\), чтобы он воспринимался как обычный символ +. В результате, \\+ соответствует знаку + в строке.

Поскольку + является специальным символом в регулярных выражениях, его нужно экранировать одинарным обратным слэшем (\), чтобы он воспринимался как обычный символ +. В результате, \+ соответствует знаку + в строке.