Программирование на языке Ruby
Программирование на языке Ruby читать книгу онлайн
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
Дополнительный материал вы также найдете в разделе 3.13.
3.2. Компиляция регулярных выражений
Для компиляции регулярных выражений предназначен метод
Regexp.compile
Regexp.new
pat1 = Regexp.compile("^foo.*") # /^foo.*/
pat2 = Regexp.compile(/bar$/i) # /bar/ (i не переносится)
Если второй параметр задан, обычно это поразрядное объединение (ИЛИ) каких-либо из следующих констант:
Regexp::EXTENDED
Regexp::IGNORECASE
Regexp::MULTILINE
nil
options = Regexp::MULTILINE || Regexp::IGNORECASE
pat3 = Regexp.compile("^foo", options)
pat4 = Regexp.compile(/bar/, Regexp::IGNORECASE)
Третий параметр, если он задан, включает поддержку многобайтных символов. Он может принимать одно из четырех значений:
"N" или "n" означает отсутствие поддержки
"Е" или "е" означает EUC
"S" или "s" означает Shift-JIS
"U" или "u" означает UTF-8
Литеральное регулярное выражение можно задавать и не вызывая метод
new
pat1 = /^fоо.*/
pat2 = /bar$/i
Более подробная информация приводится в главе 4.
3.3. Экранирование специальных символов
Метод класса
Regexp.escape
str1 = "[*?]"
str2 = Regexp.escape(str1) # "[*?]"
Синонимом является метод
Regexp.quote
3.4. Якоря
Якорь — это специальное выражение, соответствующее позиции в строке, а не конкретному символу или последовательности символов. Позже мы увидим, что это простой частный случай утверждения нулевой длины, то есть соответствия, которое не продвигает просмотр исходной строки ни на одну позицию.
Наиболее употребительные якоря уже были представлены в начале главы. Простейшими из них являются
^
$
string = "abcXdefXghi"
/def/ =~ string # 4
/аbс/ =~ string # 0
/ghi/ =~ string # 8
/^def/ =~ string # nil
/def$/ =~ string # nil
/^аbс/ =~ string # 0
/ghi$/ =~ string # 8
Впрочем, я немного уклонился от истины. Эти якоря на самом деле соответствуют началу и концу не строки символов (string), а строки текста (line). Вот что произойдет, если те же самые образцы применить к строке, внутри которой есть символы новой строки:
string = "abcndefnghi"
/def/ =~ string # 4
/abc/ =~ string # 0
/ghi/ =~ string # 8
/^def/ =~ string # 4
/def$/ =~ string # 4
/^abc/ =~ string # 0
/ghi$/ =~ string # 8
Однако имеются якоря
A
Z
string = "abcndefnghi"
/Adef/ =~ string # nil
/defZ/ =~ string # nil
/Aabc/ =~ string # 0
/ghiZ/ =~ string # 8
Якорь
z
Z
string = "abcndefnghi"
str2 << "n"
/ghiZ/ =~ string # 8
/Aabc/ =~ str2 # 8
/ghiz/ =~ string # 8
/ghiz/ =~ str2 # nil
Можно также устанавливать соответствие на границе слова с помощью якоря
b
B
gsub
str = "this is a test"
str.gsub(/b/,"|") # "|this| |is| |a| |test|"
str.gsub(/В/, "-") # "t-h-i-s i-s a t-e-s-t"
He существует способа отличить начало слова от конца.
3.5. Кванторы
Немалая часть аппарата регулярных выражений связана с обработкой необязательных элементов и повторений. Элемент, за которым следует вопросительный знак, необязателен; он может присутствовать или отсутствовать, а общее соответствие зависит от прочих частей регулярного выражения. (Этот квантор имеет смысл применять только к подвыражению ненулевой длины, но не к якорям.)
pattern = /ax?b/
pat2 = /а[xy]?b/
pattern =~ "ab" # 0
pattern =~ "acb" # nil
pattern =~ "axb" # 0
pat2 =~ "ayb" # 0