Главная » Java » Сравнение строк

0

В классе String имеется несколько методов для сравнения строк и их отдельных частей. Тем не менее, перед тем как переходить к конкретным методам, необходимо остановиться на некоторых аспектах, касающихся интернациональных  и локализованных строк

Unicode, которые не учитываются этими методами. Например, при сравнении двух строк и

попытке определить, какая из них “больше”, происходит числовое сравнение символов в соответствии с их значениями в кодировке Unicode, а не их порядком в локализованном представлении. Для француза символы c и з — это одинаковые буквы, отличающиеся между собой лишь маленьким диакритическим  значком. Упорядочивая набор строк, француз проигнорирует отличия между ними и поставит “aзa” перед “acz”. Однако с Unicode дело обстоит иначе — в наборе символов Unicode c (\u0063) идет перед з (\u00e7), так что при сортировке эти строки окажутся расположенными  в обратном порядке.

Первая операция сравнения, equals, возвращает true, если ей передается ссылка на объект String с тем же содержимым, что и у текущего объекта, — то есть если строки имеют одинаковую длину и состоят в точности из одинаковых символов Unicode. Если другой объект не относится к типу String или же имеет другое содержимое, то String.equals возвращает false.

Чтобы сравнивать строки без учета регистра, используйте метод equals IgnoreCase. Под выражением “без учета регистра” мы имеем в виду, что символы Л и л считаются одинаковыми, но отличающимися от E и e. Символы, для которых понятие регистра не определено (например, знаки пунктуации) считаются равными только себе самим. В Unicode имеется много интересных аспектов, связанных с регистром символов, в том числе и понятие “заглавного регистра” (title case). Работа с регистром в классе String описывается в терминах регистровых методов класса Character в разделе 13.5.

Для проведения сортировки строк нужно иметь возможность сравнивать их между собой. Метод compareTo возвращает значение int, которое меньше, равно либо больше нуля, если строка, для которой он был вызван, соответственно меньше, равна или больше другой строки. При сравнении строк используется кодировка символов в Unicode.

Метод compareTo полезен при создании внутреннего канонического упорядочения строк. Например, при проведении бинарного поиска необходимо иметь отсортированный  список элементов, однако при этом не требуется, чтобы порядок сортировки совпадал с порядком символов в локализованном  алфавите. Метод бинарного поиска для класса, в котором имеется отсортированный  массив строк, выглядит следующим образом:

private String[] table;

public int position(String key) {

int lo = 0;

int hi = table.length – 1;

while (lo <<= hi) {

int mid = lo + (hi – lo) / 2;

int cmp = key.compareTo(table[mid]);

if (cmp == 0)      // нашли!

return mid;

else if (cmp << 0)  // искать в нижней половине

hi = mid – 1;

else               // искать в верхней половине

lo = mid + 1;

}

return -1; //

}

Так выглядит базовый алгоритм бинарного поиска. Сначала он проверяет среднюю точку исследуемого диапазона и сравнивает значение ключа поиска с элементом в данной позиции. Если значения совпадают, то нужный элемент найден, а поиск закончен. Если значение ключа меньше элемента в проверяемой позиции, то дальше поиск будет вестись в нижней половине диапазона; в противном случае элемент необходимо искать в верхней половине диапазона. В результате работы алгоритма либо будет найден нужный элемент, либо нижняя граница диапазона превысит верхнюю — это означает, что ключ отсутствует в списке.

Сравнивать можно не только целые строки, но и их отдельные части. Для этого применяется метод regionMatches в двух формах: в одной происходит точное сравнение символов, как в методе equals, а в другой — сравнение без учета регистра, как в методе equalsIgnoreCase:

public boolean regionMatches(int  start, String other, int ostart, int len)

Возвращает true, если указанная подстрока данного объекта String совпадает с указанной подстрокой строки other. Проверка начинается с позиции start в данной строке, и с позиции ostart – в строке other. Сравниваются только первые len символов.

public boolean regionMatches(boolean ignoreCase, int start, String other, int ostart, int len)

Данная версия regionMatches ведет себя точно так же, как и предыдущая, за исключением того, что логическая переменная ignoreCase определяет, следует ли игнорировать регистр символов при сравнении.

Приведем пример:

class RegionMatch {

public static void main(String[] args) { String str = "Look, look!";

boolean b1, b2, b3;

b1 = str.regionMatches(6, "Look," 0, 4);

b2 = str.regionMatches(true, 6, "Look," 0, 4);

b3 = str.regionMatches(true, 6, "Look," 0, 5);

System.out println("b1 = " + b1); System.out println("b2 = " + b2); System.out println("b3 = " + b3);

}

}

Результаты работы будут выглядеть следующим образом:

b1 = false b2 = true b3 = false

Результат первого сравнения равен false, потому что в позиции 6 главной строки находится символ ‘l’, а в позиции 0 второй строки — символ ‘L’. Второе сравнение дает true, поскольку регистр не учитывается. Наконец, результат третьего сравнения оказывается равным false, потому что длина сравниваемой подстроки равна 5, а на протяжение этих 5 символов строки отличаются даже без учета регистра.

Простая проверка на совпадение аргумента с началом или концом строки осуществляется с помощью методов startsWith и endsWith:

public boolean startsWith(String  prefix, int toffset)

Возвращает true, если строка начинается с подстроки prefix (со смещением toffset). public boolean startsWith(String  prefix)

Сокращение для startsWith(prefix, 0).

public boolean endsWith(String  suffix)

Возвращает true, если строка заканчивается подстрокой suffix.

Вообще говоря, строки не могут сравниваться с использованием  оператора ==, как показано ниже:

if (str == “ВPeсa?”)

answer(str);

Такая запись не анализирует содержимое двух строк. Она сравнивает только ссылку на один объект (str) со ссылкой на другой объект (неявный строковый объект, представленный константой “ВPeсa?”). Даже если оба объекта-строки имеют одинаковое содержимое, ссылки на них могут различаться.

Тем не менее два любых строковых литерала с одинаковым содержимым будут указывать на один и тот же объект класса String. Например, в следующем фрагменте оператор ==, вероятно, сработает правильно:

String str = "?Pena?";

// …

if (str == "?Pena?")

answer(str);

Из-за того, что str изначально был присвоен строковый литерал, сравнение этой переменной с другим строковым литералом равносильно проверке этих строк на одинаковое содержание. И все же необходимо соблюдать осторожность — этот трюк сработает лишь в том случае, если вы уверены в происхождении всех ссылок на строковые литералы. Если str изменится и будет указывать на производный объект

String — например, на результат ввода пользователем чего-либо, — оператор == вернет

значение false, даже если пользователь наберет строку ВPeсa?.

8.3. Вспомогательные методы

Класс String содержит два метода, которые оказываются полезными в специализированных приложениях. Один из них — hashCode, который возвращает хеш- код, основанный на содержимом строки. Любые две строки с одинаковым содержимым будут иметь одинаковое значение хеш-кода, хотя и две разные строки тоже могут иметь одинаковый хеш-код. Хеш-коды нужны для работы с хеш-таблицами, такими, например, как в классе Hashtable из java.util.

Второй вспомогательный  метод, intern, возвращает строку, содержимое которой совпадает с содержимым исходной строки. Однако для любых двух строк с одинаковым содержимым intern возвращает ссылку на один и тот же объект String, что позволяет проверять равенство строк посредством сравнения ссылок вместо более медленной проверки содержимого строк. Рассмотрим пример:

int putIn(String key) {

String uniqe = key.intern();

int i;

// проверить, имеется ли такой элемент в таблице

for ( i = 0; i << tableSize; i++)

if (table[i] == unique)

return i;

// если нет – добавить table[i] = unique; tableSize++;

return i;

}

Все строки, хранящиеся в массиве table, получены в результате вызова intern. Массив просматривается в поисках строки, содержимое которой совпадает с key. Если строка найдена, то поиск завершается. Если же такой строки нет, в конец массива добавляется строка, содержимое которой совпадает с содержимым key. При работе с результатами вызовов intern сравнение ссылок на объекты эквивалентно сравнению содержимого строк, однако происходит существенно быстрее.

Источник: Арнольд К., Гослинг Д. – Язык программирования Java (1997)

По теме:

  • Комментарии