Главная » Java » Класс StreamTokenizer

0

Разделение входного потока на отдельные лексемы встречается довольно часто, поэтому пакет java.io содержит специальный класс StreamTokenizer для выполнения простейшего лексического анализа. В настоящее время этот класс в полной мере работает лишь с младшими 8 битами Unicode, составляющими подмножество символов Latin-1, поскольку внутренний массив класса, хранящий информацию о категориях символов, состоит только из 256 элементов. Символы, превышающие \u00ff, считаются алфавитными. Хотя в подавляющем большинстве случаев это действительно так (собственно, большая часть символов относится к алфавитным), вы, например, не сможете назначить в качестве ограничителя символ ‘?‘ (\u270D). Даже с учетом этого условия выделение лексем во многих случаях происходит нормально.

Чтобы выделить лексемы в потоке, следует создать объект StreamTokenizer  на основе объекта InputStream и затем установить параметры анализа. Цикл сканирования вызывает метод nextToken, который возвращает тип следующей лексемы в потоке. С некоторыми типами лексем связываются значения, содержащиеся в полях объекта StreamTokenizer.

Данный класс спроектирован в первую очередь для анализа потоков, содержащих текст в стиле Java; он не универсален. Тем не менее многие файлы конфигурации достаточно похожи на Java и могут успешно анализироваться. При разработке новых файлов конфигурации или других данных можно придать им сходство с текстами на Java, чтобы анализировать их с помощью StreamTokenizer и за счет этого сэкономить усилия.

Когда метод nextToken распознает следующую лексему, он возвращает ее тип и присваивает это же значение полю ttype. Имеются четыре типа лексем:

TT_WORD: обнаружено слово. Найденное слово помещается в поле sval типа

String.

TT_NUMBER: обнаружено число. Найденное число помещается в поле nval типа double. Распознаются только десятичные числа с плавающей точкой (с десятичной точкой или без нее). Анализатор не распознает 3.4e79 как число с плавающей точкой, или 0xffff как шестнадцатеричное  число.

TT_EOL: обнаружен конец строки. TT_EOF: обнаружен конец файла.

Символы входного потока делятся на специальные и ординарные. Специальными

считаются символы, которые особым образом обрабатываются в процессе анализа, — пробелы, символы, образующие числа и слова, и так далее. Все остальные символы относятся к ординарным. Если следующий символ потока является ординарным, то тип лексемы совпадает с символом. Например, если в потоке встречается символ ‘В‘ и он не является специальным, то тип лексемы (и поле ttype) равен эквиваленту символа ‘В‘ в типе int.

В качестве примера давайте рассмотрим реализацию метода Sum.sum Stream из класса

Sum:

static double sumStream(InputStream in) throws IOException { StreamTokenizer nums = new StreamTokenizer(in);

double result = 0.0;

while (nums.nextToken() == StreamTokenizer.TT_NUMBER)

result +=nums.nval;

return result;

}

Объект StreamTokenizer создается для исходного потока, после чего в цикле происходит чтение лексем из потока. Если обнаруженная лексема является числом, то оно прибавляется к накапливаемому  результату. Когда числа во входном потоке кончаются, возвращается окончательное значение суммы.

Приведем еще один пример. Данная программа читает содержимое файла, ищет в нем атрибуты в виде пар имя=значение и сохраняет их в объектах AttributedImpl, описанных в разделе “Реализация интерфейсов”:

public static Attributed readAttrs(String file)

throws IOException

{

FileInputStream fileIn = new FileInputStream(file); StreamTokenizer in = new StreamTokenizer(fileIn); AttributedImpl attrs = new AttributedImpl();

Attr attr = null;

in.commentChar(‘#’);    // ‘#’ – комментарий до конца строки in.ordinaryChar(‘/’);   // ранее являлся символом комментария while (in.nextToken() != StreamTokenizer.TT_EOF) {

if (in.ttype() == StreamTokenizer.TT_WORD) {

if (attr != null) {

attr.valueOf(in.sval);

attr = null;        // использован

} else {

attr = new Attr(in.sval);

attrs.add(attr);

}

} else if (in.ttype == ‘=’) {

if (attr == null)

throw new IOException("misplaced ‘=’");

} else {

if (attr == null)        // ожидалось слово

throw new IOException("bad Attr name");

attr.valueOf(new Double(in.nval));

attr = null;

}

}

return attrs;

}

В файле атрибутов символ # используется для обозначения начала комментариев, игнорируемых во время поиска. Программа ищет в потоке строковую лексему, за которой может (хотя и не обязан) следовать знак =, сопровождаемый  строкой или числом. Каждый такой атрибут заносится в объект Attr, добавляемый к набору атрибутов объекта AttributedImpl. После завершения анализа файла возвращается набор атрибутов.

Задавая символ # в качестве символа комментария, мы тем самым устанавливаем его категорию. Анализатор распознает несколько категорий символов, которые определяются следующими методами:

public void wordChars(int low, int hi)

Символы в этом диапазоне образуют слова; они могут входить в лексему типа TT_WORD. Допускается многократный вызов этого метода с разными диапазонами. Слово состоит из одного или нескольких символов, входящих в любой их допустимых диапазонов.

public void whitespaceChars(int low, int hi)

Символы в этом диапазоне являются разделителями. При анализе они игнорируются; их единственное назначение заключается в разделении лексем — например, двух последовательных  слов. Как и в случае wordChars, можно вызывать этот метод несколько раз, при этом объединение всех диапазонов определяет набор символов-разделителей.

public void ordinaryChar (int ch)

Символ ch является ординарным. Ординарный символ при анализе потока возвращается сам по себе, а не в виде лексемы. В качестве иллюстрации см. приведенный выше пример.

public void ordinaryChars (int low, int hi) Символы в диапазоне являются ординарными. public void commentChar (int ch)

Символ ch начинает однострочный комментарий — символы от ch до ближайшего конца

строки считаются одним длинным разделителем. public void quoteChar (int ch)

Пары символов ch являются ограничителями  для строковых констант. Когда в потоке распознается строковая константа, символ ch возвращается в качестве лексемы, а поле

sval содержит тело строки (без символов-ограничителей). При чтении строковых констант обрабатываются некоторые стандартные символы Java в записи с \ (например, \t), но не все. Строки, воспринимаемые  StreamTokenizer,  представляют собой подмножество строк Java. Особенно жесткий запрет накладывается на использование \xxxx, \’, \" или (к сожалению) \Q, где символ Q совпадает с символом-ограничителем ch. В потоке могут присутствовать несколько разных символов-ограничителей, но строки должны начинаться и заканчиваться одним и тем же ограничителем. Другими словами, строка, которая начинается одним символом-ограничителем, продолжается до следующего вхождения

того же символа; если в середине строки встречается другой символ-ограничитель, то он

просто считается частью строки.

public void parseNumbers()

Указывает на необходимость выделения чисел из потока. StreamTokenizer выдает числа с плавающей точкой двойной точности и возвращает тип лексемы TT_NUMBER, а значение лексемы помещается в поле nval. Просто отказаться от поиска чисел невозможно — для этого придется либо вызвать ordinaryChars для всех символов, входящих в состав числа (не забудьте о десятичной точке и знаке “минус”), либо вызвать resetSyntax.

public void resetSyntax()

Сбрасывает синтаксическую  таблицу, в результате чего все символы становятся ординарными. Если вы вызовете resetSyntax и затем начнете читать поток, то nextToken всегда будет выдавать следующий символ потока, как будто вы используете метод InputStream.read.

Не существует методов для определения категории заданного символа или для добавления новых категорий. Ниже приведены значения параметров по умолчанию для только что созданного объекта StreamTokenizer:

wordChars(‘a’, ‘z’); wordChars(‘A’, ‘Z’); wordChars(128 + 32, 255); whitespaceChars(0,  ‘ ‘); commentChar(‘/’); quoteChar(‘"’); quoteChar(‘\’’); parseNumbers();

Остальные методы управляют поведением анализатора:

public void eolIsSignificant(boolean flag)

Если значение flag равно true, то конец строки является существенным, и nextToken может возвращать TT_EOL. В противном случае концы строк считаются символами- разделителями и TT_EOL никогда не возвращается. Значение по умолчанию равно false.

public void slashStarComments(boolean flag)

Если значение flag равно true, анализатор распознает комментарии вида /*…*/. Значение по умолчанию равно false.

public void slashSlashComments(boolean flag)

Если значение flag равно true, анализатор распознает комментарии от // до конца строки.

Значение по умолчанию равно false.

public void lowerCaseMode(boolean flag)

Если значение flag равно true, все символы в лексемах типа TT_WORD преобразуются в нижний регистр, если имеется соответствующий  эквивалент (то есть к слову применяется метод String.toLowerCase). Значение по умолчанию равно false.

Имеется также несколько методов общего назначения:

public void pushBack()

Заносит предыдущую лексему обратно в поток. Следующий вызов nextToken снова вернет ту же самую лексему. Глубина отката ограничивается одной лексемой; несколько последовательных  вызовов pushBack эквивалентны одному вызову.

public int lineno()

Возвращает текущий номер строки. Обычно это бывает полезно для вывода сообщений о найденных ошибках.

public String toString()

Возвращает строковое представление последней возвращенной лексемы, включающее номер строки.

Упражнение 11.6

Напишите программу, которая получает входные данные в форме “имя оператор значение”, где имя — одно из трех имен по вашему выбору, оператор равен +, – или =, а значение является числом. Примените все операторы к именованным величинам, а в конце работы программы выведите все три значения. Усложним задание — воспользуйтесь классом Hashtable, который применялся при разработке AttributedImpl, чтобы можно было работать с произвольным количеством именованных величин, не обязательно тремя.

Источник: Арнольд К., Гослинг Д. – Язык программирования Java (1997)

По теме:

  • Комментарии