Программирование на языке Ruby
Программирование на языке Ruby читать книгу онлайн
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
UTF-8 — одна из самых распространенных и гибких кодировок в мире. Она применяется с начала 1990-х годов и является кодировкой по умолчанию XML-документов. В этой главе мы будем иметь дело главным образом именно с UTF-8.
4.2. Кодировки в пост-ASCII мире
«Век ASCII» прошел, хотя не все еще осознали этот факт. Многие допущения, которые программисты делали в прошлом, уже несправедливы. Нам необходимо новое мышление.
Есть две идеи, которые, на мой взгляд, являются основополагающими, почти аксиомами. Во-первых, строка не имеет внутренней интерпретации. Она должна интерпретироваться в соответствии с некоторым внешним стандартом. Во-вторых, байт и символ — не одно и то же; символ может состоять из одного или нескольких байтов. Есть и другие уроки, но это самое важное.
Эти факты оказывают на программирование тонкое влияние. Рассмотрим сначала, как следует работать с символьными строками по-современному.
4.2.1. Библиотека jcode и переменная $KCODE
Чтобы использовать в Ruby разные наборы символов, вы должны знать о глобальной переменной
$KCODEa ASCIIn NONE (ASCII)е EUCs SJISu UTF-8Для ясности можно пользоваться и полными названиями (например,
$KCODE<b>="</b>UTF-8"О кодировке ASCII мы уже знаем. EUC и Shift-JIS (SJIS) нам малоинтересны. Мы сосредоточимся на значении UTF-8.
Установив значение
$KCODEinspectp$KCODE$KCODE = "n"# Для справки: французское слово "épée"# обозначает разновидность меча (sword).eacute = ""eacute << 0303 << 0251 # U+00E9sword = eacute + "p" + eacute + "e"p eacute # "303251"p sword # "303251p303251e"$KCODE = "u"p eacute # "é"p sword # "épée"Регулярные выражения в режиме UTF-8 тоже становятся несколько «умнее».
$KCODE = "n"letters = sword.scan(/(.)/)# [["303"], ["251"], ["p"], ["303"], ["251"], ["e"]]puts letters.size # 6$KCODE = "u"letters = sword.scan(/(.)/)# [["é"], ["p"], ["é"], ["e"]]puts letters.size # 4Библиотека
jcodejlengtheach_charrequireВ следующем разделе мы снова рассмотрим некоторые типичные операции со строками и регулярными выражениями. Заодно поближе познакомимся с
jcode4.2.2. Возвращаясь к строкам и регулярным выражениям
При работе с UTF-8 некоторые операции ничем не отличаются. Например, конкатенация строк выполняется так же, как и раньше:
"éр" + "éе" # "épée""éр" << "éе" # "épée"Поскольку UTF-8 не имеет состояния, то для проверки вхождения подстроки тоже ничего специально делать не нужно:
"épée".include?("é") # trueОднако при написании интернациональной программы некоторые типичные допущения все же придется переосмыслить. Ясно, что символ больше не эквивалентен байту. При подсчете символов или байтов надо думать о том, что именно мы хотим сосчитать и для чего. То же относится к числу итераций.
По общепринятому соглашению, кодовую позицию часто представляют себе как «программистский символ». Это еще одна полуправда, но иногда она оказывается полезной.
Метод
jlengthlength$KCODE = "u"require 'jcode'sword = "épée"sword.jlength # 4sword.length # 6Такие методы, как
upcasecapitalize$KCODE = "u"sword.upcase # "ÉPÉE"sword.capitalize # "épée"Если вы не пользуетесь монолитной формой, то в некоторых случаях метод может сработать, поскольку латинские буквы отделены от диакритических знаков. Но в общем случае работать не будет — в частности, для турецкого, немецкого, голландского и любого другого языка с нестандартными правилами преобразования регистра.
