Программирование на языке Ruby

Name: Программирование на языке Ruby
Author: Фултон Хэл--

На нашем литературном портале можно бесплатно читать книгу Программирование на языке Ruby, Фултон Хэл-- . Жанр: Программирование. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале bazaknig.info.

Жанр: Компьютеры и Интернет / Программирование

Название: Программирование на языке Ruby

Автор: Фултон Хэл

Дата добавления: 16 январь 2020

Количество просмотров: 1 050

Читать онлайн

Программирование на языке Ruby читать книгу онлайн

Программирование на языке Ruby - читать бесплатно онлайн , автор Фултон Хэл

Ruby — относительно новый объектно-ориентированный язык, разработанный Юкихиро Мацумото в 1995 году и позаимствовавший некоторые особенности у языков LISP, Smalltalk, Perl, CLU и других. Язык активно развивается и применяется в самых разных областях: от системного администрирования до разработки сложных динамических сайтов. Книга является полноценным руководством по Ruby — ее можно использовать и как учебник, и как справочник, и как сборник ответов на вопросы типа «как сделать то или иное в Ruby». В ней приведено свыше 400 примеров, разбитых по различным аспектам программирования, и к которым автор дает обстоятельные комментарии. Издание предназначено для программистов самого широкого круга и самой разной квалификации, желающих научиться качественно и профессионально работать на Ruby.

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

ВПЕРЕД

Перейти на страницу:

Возможно, вы думаете, что неакцентированные символы в некотором смысле эквивалентны своим акцентированным вариантам. Это почти всегда не так. Здесь мы имеем дело с разными символами. Убедимся в этом на примере метода

count

$KCODE = "u"

sword.count("e") # 1 (не 3)

Но для составных (не монолитных) символов верно прямо противоположное. В этом случае латинская буква распознается.

Метод

count

возвращает сбивающий с толку результат, когда ему передается многобайтовый символ. Метод

jcount

ведет себя в этом случае правильно:

$KCODE = "u"

sword.count("eé") # 5 (не 3)

sword.jcount("eé") # 3

Существует вспомогательный метод

mbchar?

, который определяет, есть ли в строке многобайтовые символы.

$KCODE = "u"

sword.mbchar? # 0 (смещение первого многобайтового символа)

"foo".mbchar? # nil

В библиотеке

jcode

переопределены также методы

chop

delete

squeeze

succ

tr

tr_s

. Применяя их в режиме UTF-8, помните, что вы работаете с версиями, «знающими о многобайтовости». При попытке манипулировать многобайтовыми строками без библиотеки

jcode

вы можете получить странные или ошибочные результаты.

Можно побайтно просматривать строку, как обычно, с помощью итератора

each_byte

. А можно просматривать посимвольно с помощью итератора

each_char

. Второй способ имеет дело с односимвольными строками, первый (в текущей версии Ruby) — с однобайтными целыми. Разумеется, мы в очередной раз приравниваем кодовую позицию к символу. Несмотря на название, метод

each_char

на самом деле перебирает кодовые позиции, а не символы.

$KCODE = "u"

sword.each_byte {|x| puts x } # Шесть строк с целыми числами.

sword.each_char {|x| puts x } # Четыре строки со строками.

Если вы запутались, не переживайте. Все мы через это проходили. Я попытался свести все вышесказанное в таблицу 4.1.

Таблица 4.1. Составные и монолитные формы

Монолитная форма "é"
Название символа	Глиф	Кодовая позиция	Байты UTF-8	Примечания
Строчная латинская e с акутом	é	U+00E9	0xC3 0хА9	Один символ, одна кодовая позиция, один байт
Составная форма "é"
Название символа	Глиф	Кодовая позиция	Байты UTF-8	Примечания
Строчная латинская е	е	U+0065	0x65	Один символ, две кодовых позиции (два «программистских символа»), три байта UTF-8
Модифицирующий акут	́	U+0301	0xCC 0x81

Что еще надо учитывать при работе с интернациональными строками? Квадратные скобки по-прежнему относятся к байтам, а не к символам. Но при желании это можно изменить. Ниже приведена одна из возможных реализаций (не особенно эффективная, зато понятная):

class String

def [](index)

self.scan(/./)[index]

end

def []=(index,value)

arr = self.scan(/./)

arr[index] = value

self.replace(arr.join)

value

end

Конечно, здесь не реализована значительная часть функциональности настоящего метода

[]

, который понимает диапазоны, регулярные выражения и т.д. Если вам все это нужно, придется запрограммировать самостоятельно.

У метода

unpack

есть параметры, помогающие манипулировать Unicode-строками. Указав в форматной строке параметр

U*

, мы можем преобразовать строку в кодировке UTF-8 в массив кодовых позиций (

U

без звездочки преобразует только первую кодовую позицию):

codepoints = sword.unpack('U*') # [233, 112, 233, 101]

Вот несколько более полезный пример, в котором все кодовые позиции в строке, отличные от ASCII (то есть начиная с U+0080), преобразуются к виду U+XXXX, который мы обсуждали выше:

def reveal_non_ascii(str)

str.unpack('U*').map do |cp|

if cp < 0x80

cp.chr

else

'(U+%04X)' % cp

end

end.join

end

У метода

String#unpack

есть «близкий родственник»

Array#pack

, выполняющий обратную операцию:

[233, 112, 233, 101].pack('U*') # "épée"

Мы можем воспользоваться им, чтобы вставить Unicode-символы, которые трудно ввести с клавиатуры:

eacute = [0хЕ9].pack('U')

cafe = "caf#{eacute}" # "café"

Регулярным выражениям тоже известно о многобайтовых символах, особенно если вы пользуетесь библиотекой Oniguruma (мы рассматривали ее в главе 3). Например, образец

/./

сопоставляется с одним многобайтовым символом.