Из Википедии, свободной энциклопедии
  (Перенаправлено из класса (формат файла) )
Перейти к навигации Перейти к поиску

Файл класса Java представляет собой файл.class расширением имени файла ) , содержащий Java - байт - код , который может быть выполнен на Java Virtual Machine (JVM) . Файл классов Java обычно создается компилятором Java из исходных файлов языка программирования Java ( файлов .java ), содержащих классы Java (в качестве альтернативы, для создания файлов классов также могут использоваться другие языки JVM ). Если исходный файл имеет более одного класса, каждый класс компилируется в отдельный файл класса.

JVM доступны для многих платформ , и файл класса, скомпилированный на одной платформе, будет выполняться на JVM другой платформы. Это делает Java-приложения независимыми от платформы .

История [ править ]

11 декабря 2006 г. формат файла класса был изменен в соответствии с запросом спецификации Java (JSR) 202. [1]

Макет и структура файла [ править ]

Разделы [ править ]

Структура файла классов Java состоит из 10 основных разделов:

  • Магическое число : 0xCAFEBABE
  • Версия формата файла класса : младшая и основная версии файла класса
  • Постоянный пул : пул констант для класса
  • Флаги доступа : например, является ли класс абстрактным, статическим и т. Д.
  • Этот класс : имя текущего класса.
  • Суперкласс : Название суперкласса.
  • Интерфейсы : любые интерфейсы в классе
  • Поля : любые поля в классе.
  • Методы : любые методы в классе.
  • Атрибуты : любые атрибуты класса (например, имя исходного файла и т. Д.)

Магический номер [ править ]

Файлы классов идентифицируются следующим 4- байтовым заголовкомшестнадцатеричном формате ): CA FE BA BE(первые 4 записи в таблице ниже). История этого магического числа была объяснена Джеймсом Гослингом со ссылкой на ресторан в Пало-Альто : [2]

«Раньше мы ходили обедать в место под названием St Michael's Alley. Согласно местной легенде, в глубоком темном прошлом Grateful Dead выступали там, прежде чем они добились успеха. Это было довольно забавное место, которое определенно было Grateful Dead Kinda Place. Когда Джерри умер, они даже построили маленькую святыню в буддийском стиле. Когда мы ходили туда, мы называли это место Cafe Dead. Где-то по ходу линии было замечено, что это был шестнадцатеричный номер. I. переделывал код формата файла и нуждался в паре магических чисел : одно для постоянного объектного файла и одно для классов. Я использовал CAFEDEAD для формата объектного файла и в greppingдля 4-х символьных шестнадцатеричных слов, которые подходят после "CAFE" (казалось, это хорошая тема), я нажал на BABE и решил использовать его. В то время это не казалось таким уж важным или предназначенным никуда, кроме мусорного ведра истории. Таким образом, CAFEBABE стал форматом файлов классов, а CAFEDEAD - постоянным форматом объектов. Но возможность постоянных объектов исчезла, и вместе с этим исчезло использование CAFEDEAD - в конечном итоге он был заменен на RMI .

Генеральный план [ править ]

Поскольку файл класса содержит элементы переменного размера и также не содержит встроенных файловых смещений (или указателей), он обычно анализируется последовательно, от первого байта до конца. На самом низком уровне формат файла описывается в терминах нескольких основных типов данных:

  • u1 : 8-битное целое число без знака
  • u2 : беззнаковое 16-битное целое число с прямым порядком байтов
  • u4 : 32-битное целое число без знака с прямым порядком байтов
  • таблица : массив элементов переменной длины некоторого типа. Количество элементов в таблице идентифицируется предыдущим числом счетчика (счетчик - u2), но размер в байтах таблицы может быть определен только путем изучения каждого из ее элементов.

Некоторые из этих фундаментальных типов затем повторно интерпретируются как значения более высокого уровня (например, строки или числа с плавающей запятой), в зависимости от контекста. Выравнивание слов не выполняется, поэтому байты заполнения никогда не используются. Общий вид файла класса показан в следующей таблице.

Представление на C-подобном языке программирования [ править ]

Поскольку C не поддерживает несколько массивов переменной длины в структуре, приведенный ниже код не компилируется и служит только для демонстрации.

STRUCT  Class_File_Format  {  U4  magic_number ; u2  minor_version ;  u2  major_version ; u2  constant_pool_count ;   cp_info  constant_pool [ constant_pool_count  -  1 ]; u2  access_flags ; u2  this_class ;  u2  super_class ; u2  interfaces_count ;   u2  интерфейсы [ interfaces_count ]; u2  fields_count ;  field_info  fields [ количество_полей ]; u2  method_count ;  method_info  методы [ method_count ]; u2  attributes_count ;  attribute_info  атрибуты [ attribute_count ]; }

Постоянный пул [ править ]

Таблица пула констант - это место, где хранится большинство буквальных значений констант. Сюда входят такие значения, как числа всех видов, строки, имена идентификаторов, ссылки на классы и методы и дескрипторы типов. Все индексы или ссылки на определенные константы в таблице пула констант задаются 16-битными числами (тип u2), где значение индекса 1 относится к первой константе в таблице (значение индекса 0 недопустимо).

Из-за исторического выбора, сделанного во время разработки формата файла, количество констант в таблице пула констант фактически не совпадает с количеством констант пула, которое предшествует таблице. Во-первых, таблица индексируется, начиная с 1 (а не с 0), но на самом деле счет должен интерпретироваться как максимальный индекс плюс один. [5] Кроме того, два типа констант (длинные и двойные) занимают два последовательных слота в таблице, хотя второй такой слот является фантомным индексом, который никогда не используется напрямую.

Тип каждого элемента (константы) в пуле констант определяется начальным байтовым тегом . Количество байтов, следующих за этим тегом, и их интерпретация зависят от значения тега. Допустимые типы констант и их значения тегов:

Есть только два целочисленных типа констант: целое и длинное. Другие целочисленные типы, встречающиеся в языке высокого уровня, такие как boolean, byte и short, должны быть представлены как целочисленные константы.

Имена классов в Java, когда они полностью определены, традиционно разделяются точками, например «java.lang.Object». Однако внутри низкоуровневых ссылочных констант класса появляется внутренняя форма, в которой вместо этого используются косые черты, например «java / lang / Object».

Строки Unicode, несмотря на прозвище «строка UTF-8», на самом деле не кодируются в соответствии со стандартом Unicode, хотя он похож. Есть два отличия ( полное обсуждение см. В UTF-8 ). Во-первых, кодовая точка U + 0000 кодируется как двухбайтовая последовательность C0 80(в шестнадцатеричном формате) вместо стандартной однобайтовой кодировки 00. Второе отличие состоит в том, что дополнительные символы (те, которые находятся за пределами BMP в U + 10000 и выше) кодируются с использованием конструкции суррогатной пары, аналогичной UTF-16, а не напрямую с использованием UTF-8. В этом случае каждый из двух суррогатов кодируется отдельно в UTF-8. Например, U + 1D11E кодируется как 6-байтовая последовательностьED A0 B4 ED B4 9E, а не правильная 4-байтовая кодировка UTF-8 F0 9D 84 9E.

См. Также [ править ]

  • Байт-код Java

Ссылки [ править ]

  1. ^ JSR 202 Обновление спецификации файла класса Java
  2. ^ Джеймс Гослинг частное сообщение Билл Бамгарнер
  3. ^ http://www.oracle.com/technetwork/java/javase/10-relnote-issues-4108729.html#Remaining
  4. ^ https://bugs.openjdk.java.net/browse/JDK-8148785
  5. ^ Б с д е е г https://docs.oracle.com/javase/specs/jvms/se11/html/jvms-4.html#jvms-4.4

Дальнейшее чтение [ править ]

  • Тим Линдхольм , Фрэнк Йеллин (1999). Спецификация виртуальной машины Java (второе изд.). Прентис Холл. ISBN 0-201-43294-3. Проверено 13 октября 2008 .Официальный определяющий документ виртуальной машины Java , который включает формат файла класса. И первое, и второе издания книги находятся в свободном доступе в Интернете для просмотра и / или загрузки .