python

Разборка движка визуальных новелл Qlie

  • вторник, 16 октября 2018 г. в 00:18:58
https://habr.com/post/426431/
  • Реверс-инжиниринг
  • Разработка игр
  • Python




Любительский перевод визуальных новелл, если сравнивать с переводами других игр, имеет ряд особенностей и подразумевает работу с большим количеством текста. Пожалуй, подавляющее большинство всех визуальных новелл было выпущено на японском языке, лишь немногие были переведены на английский(официально или любителями) и еще меньше было переведено на другие языки.

Поэтому, при работе с переводом приходится сталкиваться с японскими движками, многие из которых оказываются не слишком дружелюбными к локализаторам. Из-за этого, довольно быстро приходит осознание, что наличие переводческих навыков, знания языка, большого энтузиазма и свободного времени, вовсе не означает, что переведенная версия игры скоро увидит свет.

Очень приближенно, процесс перевода любой игры(не только визуальных новелл), подразумевает:

  • Распаковку игровых ресурсов(если они не находятся в открытом доступе)
  • Перевод необходимых частей
  • Обратная запаковка перевода

Однако в случае с японскими визуальными новеллами это обычно выглядит так:

  • Распаковка игровых ресурсов
  • Перевод текстовой части игры(игрового сценария)
  • Перевод графической части игры
  • Обратная запаковка перевода
  • Переделка движка, чтобы заставить его работать с переведенным контентом

Надеюсь, наш опыт окажется для кого-то полезным.

В далеком 2013 году(а возможно и раньше) я задумал перевести с японского визуальную новеллу Bishoujo Mangekyou -Norowareshi Densetsu no Shoujo- (美少女万華鏡 -呪われし伝説の少女-). Опыт перевода игр у меня уже был, но раньше приходилось переводить только новеллы на относительно простых и известных движках вроде Kirikiri.

Здесь же нашей команде переводчиков предстояло вскрыть движок этой новеллы, еще до того, как добраться до собственно самого текста.

Начнем с описания .exe файла, где упомянуты слова QLIE и IMOSURUME. В самом файле встречается строка FastMM Borland Edition 2004, 2005 Pierre le Riche, значит движок, скорее всего, написан на Delphi.



При беглом гуглении удается узнать, что Qlie — это название движка для визуальных новелл, выпущенном компанией Warmth Entertainment. По видимому, IMOSURUME – внутреннее имя скриптового движка, а Qlie – коммерческое название. Есть сайт qlie.net, где перечислены игры, выпущенные на этом движке и официальный сайт компании Warmth Entertainment.

Но нигде в свободном доступе нет ни официальных инструментов для работы с движком, ни документации к нему, что ожидаемо.

Поэтому разбираться с игрой приходится самостоятельно, опираясь на неофициальные утилиты. Для начала стоит найти все части игры, которые нужно будет переводить.

Игровые архивы находятся в файлах data0.pack, data1.pack и data7.pack в подпапке \GameData. Заставки лежат в папке \GameData\Movie, но их пока можно не трогать.


В hex-редакторе видно, что никаких узнаваемых заголовков у игровых архивов .pack нет, зато в конце файла есть кусок, похожий на оглавление и метка FilePackVer3.0


К счастью, для данного формата уже есть распаковщик и даже не один. Мы использовали консольный exfp3_v3 от asmodean.

Распаковка не так проста, как может показаться. Поскольку движок поддерживает несколько архивных форматов(FilePackVer1.0, FilePackVer1.0, FilePackVer3.0), и в данном случае используется FilePackVer3.0, для правильной распаковки потребуется еще и специальный файл-ключ key.fkey, которым зашифрован архив. Он находится в подпапке \Dll


Кроме того, exfp3_v3 должен уточнить, архив из какой именно игры он распаковывает.
Поэтому требуется еще и указать номер игры из предложенного распаковщиком списка(игры серии Bishoujo Mangekyou там под номером 15), либо указать исполняемый файл игры в качестве третьего параметра для распаковщика.


Уже после распаковки игровых файлов, появилась логичная мысль: а как в будущем запаковать обратно игру с готовым переводом? Ведь распаковщик не поддерживает обратную операцию.
По нашей просьбе w8m (большое ему за это спасибо) добавил в свою программу arc_conv.exe возможность запаковывать игровые архивы. Достаточно запаковать все измененные файлы в новый архив(например, data8.pack), поместить в папку GameData, и они автоматически подтянуться в игру.

Вернемся к распакованным ресурсам. Файлы игрового сценария из архива data0.pack можно найти в подпапке \scenario\ks_01\

Все файлы сценария с расширением .s закодированы в далеко не самой удобной кодировке Shift Jis, и никакие юникодные кодировки движок не поддерживает. Cтроки для перевода выглядят приблизительно как эти:

【キリエ】
%1_kiri1478%
「へえ……分かっているじゃない」

私が献上したロシアンティーを見て、キリエは嬉しそうに目を細める。

^cface,,赤目微笑01

【キリエ】
%1_kiri1479%
「日本人は、ジャムを紅茶に入れて飲むのが、ロシアンティーだと勘違いしている人が多いのだけれど……」

Можно заметить, что каждая фраза на японском предваряется именем героя в японских скобках. (【】), который эту фразу произносит(в игре она выводится в верхней части окна с текстом). Или же, если это слова автора, то имя не добавляется.


Но остаются еще служебные команды.

Команды движка в сценарии чем-то напоминают язык разметки TeX, но намного более не интуитивны и неудобны, по сравнению с командами Kirikiri или RenPy.

Вот некоторые из них:

@@@ — тройная собака. Часто файлы скрипта начинаются именно с этой команды. По видимому, загрузка определений из сторонних файлов.

Например:

@@@Library\Avg\header.s

@@ — двойная собака. Метка в файле скрипта. На нее позже можно будет выполнить переход.

%1_kiri1478% — проигрывание файла озвучки. Эти команды вставляются между именем героя и текстом, который выводится на экран. «1_kiri1478» — в данном случае, имя файла из папки \voice\ файла data1.pack Интересно, что в команде используется японский процент(%), а не обычный.

^savedate, ^saveroute, ^savescene, — три команды, которые скорее всего используются в системе сохранений игры и должны заносить в сэйв информацию о месте и времени сохранения игрока.

Например:

^savedate,"現在"
^saveroute,"美少女万華鏡-1-"
^savescene,"呪われし伝説の少女 オープニング"

То есть, дата: настоящий момент, ветка: Bishoujo Mangekyou -1-, сцена: Norowareshi Densetsu no Shoujo Opening. Эти данные должны были отображаться в слоте сохранения, но, видимо разработчики решили от этого отказаться. В итоге ^saveroute во всех частях сценария одинаковый, ^savedate сменяется с «настоящего момента» на «мечтания», а в ^savescene меняются внутриигровые дни(вернее, ночи).

^facewindow, – состояние текстбокса с выводимым на экран текстом. (Показан — 1 или нет — 0)

^sload, — проигрывание внутриигровых звуков из папки \sound\ на соответствующем канале.

sload,Env1,◆セミ01アブラゼミ

Проигрывание звука цикад на канале Env1

У команды есть два необязательных параметра, первый отвечает за закольцовывание звука, а второй пока остается загадкой, но он используется в игре редко.

^sload,SE1,■クチュ音01,1

Проигрывание закольцованного звука на канале SE1.

^eeffect – вывод на экран спецэффекта на определенное количество секунд. Судя по всему, поддерживает последовательный вывод нескольких эффектов.

^eeffect,WhiteFlash

Эффект белой вспышки.

^ffade – эффект перехода при смене экрана.
Имеет целую кучу дополнительных параметров, но реально полезны только несколько: название эффекта перехода, дополнительная картинка, если она требуется и время выполнения перехода.

^ffade,Overlap,,1000

Растворение одной картинки в другой, за 1 секунду.

^iload – загрузка фоновой картинки на экран. Изображению можно присвоить id для обращения к нему в будущем.

^iload,BG1,0_black.png

Вывод файла 0_black.png в качестве фона с id BG1

^we и ^wd — включение и выключение изображения в окне.

^facewindow,1 и ^facewindow,0 Включение и выключение изображения героя в окне диалога.

^mload — проигрывание музыки на определенном канале.

^mload,BGM1,nbgm13

Проигрывание трека nbgm13 на канале BGM1

Одни из самых важных команд:
\jmp — переход к метке с указанным именем.

^select — вывод на экран окошка выбора, где игрок должен выбрать один из вариантов.

Например:

^select, Да, Нет
 \jmp,"@@route01a"+ResultBtnInt[0]
@@route01a0

Здесь переход будет выполнен после ответа на вопрос, а номер ответа(0 или 1) возвращается из ResultBtnInt[0]. В итоге, \jmp переместит повествование на метку @@route01a + номер ответа. То есть, @@route01a0 или @@route01a1

Неприятная особенность в том, что обычная запятая в этих командах служит разделителем и не может быть использована в самих вариантах ответа. У японцев такой проблемы нет, они используют японскую запятую(、). Мы в данном случае можем заменить запятую на ‚ (U+201A SINGLE LOW-9 QUOTATION MARK).

Например:

^select, Пожалуй‚ я соглашусь, Нет‚ спасибо

Остальные команды не так важны в первом приближении.

Конечно, перед переводом сценарий стоит перекодировать во что-то более удобное, например в UTF-8, чтобы сочетать кириллические и японские символы.

После смены движка(об этом следующей части), игра воспринимает и русский текст, и японский. Но пока для совместимости требуется закодировать японские символы в Shift Jis, а кириллические – в кодировке cp1251.

Мы быстренько набросали программку на Питоне для перекодировки с учетом кириллицы:

UTF8 to cp1251 and ShiftJIS
# -*- coding: utf-8 -*-

# UTF8 to cp1251 and ShiftJIS recoder
# by Chtobi and Nazon, 2016

import codecs
import argparse
from os import path

JAPANESE_CODEPAGE = 'shift_jis'

UTF_CODEPAGE = 'utf-8'
RUS_CODEPAGE = 'cp1251'


def nonrus_handler(e):

    if e.object[e.start:e.end] == '~':  # UTF-8: 0xEFBD9E -> SHIFT-JIS: 0x8160
        japstr_byte = b'\x81\x60'

    elif e.object[e.start:e.end] == '-':  # UTF-8: 0xEFBC8D -> SHIFT-JIS: 0x817C
        japstr_byte = b'\x81\x7c'

    else:
        japstr_byte = (e.object[e.start:e.end]).encode(JAPANESE_CODEPAGE)

    return japstr_byte, e.end


if __name__ == '__main__':

    arg_parser = argparse.ArgumentParser(prog="Recode to cp1251 and ShiftJIS",
                                         description="Program to encode UTF8 text file to "
                                         "cp1251 for all cyrillic symbols and ShiftJIS for others. "
                                         "Output file will be inputfilename.s",
                                         usage="recode_to_cp1251_shiftjis.py file_name")
    arg_parser.add_argument('file_name', nargs=1, type=argparse.FileType(mode='r', bufsize=-1),
                            help="Input text file name. Only files coded in UTF8 are allowed.\n")

    codecs.register_error('nonrus_handler', nonrus_handler)

    input_name = arg_parser.parse_args().file_name[0].name

    output_name = path.splitext(input_name)[0] + ".s"

    with open(input_name, 'rt', encoding=UTF_CODEPAGE) as input_file:
        with open(output_name, 'wb') as output_file:

            for line in input_file:
                for char1 in line:
                    bytes_out = bytes(line, UTF_CODEPAGE)

                    output_file.write(char1.encode(RUS_CODEPAGE, "nonrus_handler"))

        print("Done.")


Однако и тут не обошлось без проблем. Программа, при попытке перекодировать символ «тильды» ~(U+FF5E FULLWIDTH TILDE) выдавала ошибку «UnicodeEncodeError: 'Shift Jis' codec can't encode character '\uff5e' in position 0: illegal multibyte sequence»

Сначала я грешил на Питон, но в итоге выяснился довольно необычный нюанс. Существует неопределенность между методами соотношения юникодных и не юникодных японских кодировок в зависимости от конкретной реализации.

В итоге, Windows соотносит символ Shift Jis с кодом 0x8160 с юникодным ~ (U+FF5E FULLWIDTH TILDE), а другие перекодировщики(например, утилита iconv) соотносят тот же символ с 〜(U+301C WAVE DASH), согласно официальной таблицы соотношений юникода — ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFT JIS.TXT

Для определения соответствий между символами Microsoft, видимо, решили использовать схемы из своей кодировки cp932, которая является расширенной версией Shift Jis.

Та же ситуация с символом с кодом 0x817C, который перекодируется в UTF8 как -(U+FF0D FULLWIDTH HYPHEN-MINUS) в Windows, или как − (U+2212 MINUS SIGN) в iconv.

Поскольку все файлы сценария были сначала переконвертированы из Shift Jis в UTF8 с помощью Notepad++(а он использует таблицу соответствия, принятую в Windows), то при обратной конвертации из UTF8 в Shift Jis через нашу питоновскую программу, появлялась пресловутая ошибка перекодировки.

Поэтому пришлось учитывать случаи появления ~ и -отдельными условиями.

Были и другие мелкие недочеты — например, многоточие … (U+2026 HORIZONTAL ELLIPSIS) заменялось кириллическим многоточием из cp1251, а не японским из Shift Jis.

После перевода текста можно переходить к работе с игровой графикой.

Графические файлы игры находятся в тех же pack архивах, но после распаковки над ними еще предстоит потрудиться. Например, почти все png картинки распаковываются в виде файлов типа sample+DPNG000+x32y0.png Иными словами, png изображения порезаны на горизонтальные полоски, толщиной 88 пикселей и каждая полоска записана в отдельный файл. В имени файла указан порядковый номер полоски(DPNG000...009) и координаты x,y.


Я до сих пор теряюсь в догадках, зачем это было нужно. Если для затруднения рипанья ресурсов из игры, то это явно не самый лучший метод.

Чтобы склеить разрезанные png файлы, в свое время был создан маленький скрипт merge_dpng на Перле от asmodeus, который использует ImageMagick. К сожалению, и с ним возникли проблемы. Во-первых, нужен был Перл, которым я не пользовался и даже после его установки, выяснилось, что скрипт неправильно работает.

По этому поводу мы написали аналогичную программу на питоне:

Qlie engine dpng files merger
# -*- coding: utf-8 -*-

# Qlie engine dpng files merger
# by Chtobi and Nazon, 2016
# Requires ImageMagick magick.exe on the path.

import os
import glob
import re
import argparse
import subprocess

IMGMAGIC = os.path.dirname(os.path.abspath(__file__)) + '\\' + 'magick.exe'

IMGMAGIC_PARAMS1 = ['-background', 'rgba(0,0,0,0)']
IMGMAGIC_PARAMS2 = ['-mosaic']

INPUT_FILES_MASK = '*+DPNG[0-9][0-9][0-9]+*.png'

SPLIT_MASK = '+DPNG'

x_y_ajusts_re = re.compile('(.+)\+DPNG[0-9][0-9][0-9]\+x(\d+)y(\d+)\.')


if __name__ == '__main__':

    arg_parser = argparse.ArgumentParser(prog="DPNG Merger\n"
                                         "Program to merge sliced png files from QLIE engine. "
                                         "All files with mask *+DPNG[0-9][0-9][0-9]+*.png"
                                         "into the input directory will be merged and copied to the"
                                         "output directory.\n",
                                         usage="connect_png.py input_dir [output_dir]\n")
    arg_parser.add_argument("input_dir_param", nargs=1, help="Full path to the input directory.\n")
    arg_parser.add_argument("output_dir_param", nargs='?', default=os.path.dirname(os.path.abspath(__file__)),
                            help="Full path to the output directory. "
                                 "It would be a script parent directory if not specified.\n")

    input_dir = arg_parser.parse_args().input_dir_param[0]
    output_dir = arg_parser.parse_args().output_dir_param[0]

    os.chdir(input_dir)

    all_append_files = glob.glob(INPUT_FILES_MASK)  # Select only files with DPNG

    prep_bunches = []

    for file_in_dir in all_append_files:
        # Check all files and put all splices that should be connected in separate list
        for num, bunch in enumerate(prep_bunches):
            name_first_part = bunch[0].partition(SPLIT_MASK)[0]  # Part of the filename before +DPNG should be unique

            if name_first_part == file_in_dir.partition(SPLIT_MASK)[0]:
                prep_bunches[num].append(file_in_dir)
                break
        else:
            prep_bunches.append([file_in_dir])

    os.chdir(os.path.dirname(os.path.abspath(__file__)))  # Go to the script parent dir

    for prepared_bunch in prep_bunches:

        sorted_bunch = sorted(prepared_bunch)

        # Prepare -page params for imgmagic
        png_pages_params = [["(", "-page", "+{0}+{1}".format(*[(x_y_ajusts_re.match(part_file).group(2)),
                            x_y_ajusts_re.match(part_file).group(3)]), input_dir+part_file, ")"]
                            for part_file in sorted_bunch]

        connect_png_list = \
            [imgmagick_page for imgmagick_pages in png_pages_params for imgmagick_page in imgmagick_pages]

        output_file = output_dir + sorted_bunch[0].partition(SPLIT_MASK)[0] + ".png"

        subprocess.check_output([IMGMAGIC] + IMGMAGIC_PARAMS1 + connect_png_list + IMGMAGIC_PARAMS2 + [output_file])


Казалось бы, теперь мы получили весь набор картинок, который появляется в игре? Отнюдь — если просмотреть все соединенные картинки из всех архивов, то все равно окажется, что каких-то не хватает, хотя в игре они есть. Дело в том, что в движке имеется еще один тип файлов — с расширением .b. Это что-то вроде анимации с записанными внутри изображениями и звуками.

Хранящиеся внутри ресурсы достать довольно легко, но, увы, ни один из готовых распаковщиков .b файлов в нашем случае не отработал как надо. Либо некоторые файлы оставались нераспакованными, либо случались ошибки из-за японских имен, а загружаться с японской локалью не хотелось.

Тут пригодился еще один наш скрипт. Поскольку тогда мы не были знакомы с чем-то вроде Kaitai Struct, пришлось действовать почти с нуля.

Формат .b файлов оказался простым и, к тому же, от нашего распаковщика требовалась возможность распаковывать ресурсы только из этой игры. В других играх на движке Qlie появлялись дополнительные виды ресурсов внутри .b файлов, но мы на них подробно останавливаться не будем.

Итак, открываем любой .b файл в шестнадцатиричном редакторе и смотрим в начало. Перед оценкой следует учесть, что порядок байтов всех числовых значений будет Little-endian.

  • Заголовок файла abmp12
  • Десять байт 0x00
  • Заголовок первой секции abdata12 со служебной информацией.
  • Восемь байт 0x00
  • Размер секции abdata12, четырехбайтовое целое. Можно смело ее пропустить.
  • Заголовок секции abimage10
  • Семь байт 0x00
  • Количество файлов в секции, однобайтовое целое. В данном случае – в секции один файл.
  • Заголовок секции abgimgdat13
  • Шесть байт 0x00
  • Длина имени файла внутри секции, двухбайтовое целое. В данном случае длина – 4 байта.
  • Имя файла в кодировке Shift Jis
  • Длина записи контрольной суммы файла, двухбайтовое целое.
  • Сама контрольная сумма файла.
  • Неизвестный байт, судя по всему, всегда равен 0x03 или 0x02
  • Двенадцать неизвестных байтов, возможно, связаны с анимацией
  • Размер png файла внутри секции, четырехбайтовое целое.

И наконец, сам png файл.


Секция absound аналогична по строению abimage.

AnimatedBMP extractor
# -*- coding: utf-8 -*-

# Extract b
# AnimatedBMP extractor for Bishoujo Mangekyou game files
# by Chtobi and Nazon, 2016

import glob
import os
import struct
import argparse
from collections import namedtuple

b_hdr = b'abmp12'+bytes(10)

signa_len = 16

b_abdata = (b'abdata10'+bytes(8), b'abdata11'+bytes(8), b'abdata12'+bytes(8), b'abdata13'+bytes(8))

b_imgdat = (b'abimgdat10'+bytes(6), b'abimgdat11'+bytes(6), b'abimgdat14'+bytes(6))

b_img = (b'abimage10'+bytes(7), b'abimage11'+bytes(7), b'abimage12'+bytes(7), b'abimage13'+bytes(7),
         b'abimage14'+bytes(7))

b_sound = (b'absound10'+bytes(7), b'absound11'+bytes(7), b'absound12'+bytes(7))
# not sure about structure of sound11 and sound12

b_snd = (b'absnddat11'+bytes(7), b'absnddat10'+bytes(7), b'absnddat12'+bytes(7))


Abimgdat13_pattern = namedtuple('Abimgdat13', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'unknown2_len', 'data_size_len'])
Abimgdat13 = Abimgdat13_pattern(signa=b'abimgdat13'+bytes(6), name_size_len=2, hash_size_len=2, unknown1_len=1,
                                unknown2_len=12, data_size_len=4)

Abimgdat14_pattern = namedtuple('Abimgdat14', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'data_size_len'])
Abimgdat14 = Abimgdat14_pattern(signa=b'abimgdat14'+bytes(6), name_size_len=2, hash_size_len=2, unknown1_len=77,
                                data_size_len=4)

Abimgdat_pattern = namedtuple('Abimgdat', ['name_size_len', 'hash_size_len', 'unknown1_len', 'data_size_len'])
# probably, abimgdat10,abimgdat11 and others
Other_imgdat = Abimgdat_pattern(name_size_len=2, hash_size_len=2, unknown1_len=1, data_size_len=4)

Absnddat11_pattern = namedtuple('Absnddat11', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'data_size_len'])
Absnddat11 = Absnddat11_pattern(signa=b'absnddat11'+bytes(7), name_size_len=2, hash_size_len=2, unknown1_len=1,
                                data_size_len=4)


def create_parser():
    arg_parser = argparse.ArgumentParser(prog='AnimatedBMP extractor\n',
                                         usage='extract_b input_file_name output_dir\n',
                                         description='AnimatedBMP extractor for QLIE engine *.b files.\n')
    arg_parser.add_argument('input_file_name', nargs='+', help="Input file with full path(wildcards are supported).\n")
    arg_parser.add_argument('output_dir', nargs=1,
                            help="Output directory.\n")

    return arg_parser


def check_type(file_buf):
    if file_buf.startswith(b'\x89' + b'PNG'):
        return '.png'
    elif file_buf.startswith(b'BM'):
        return '.bmp'
    elif file_buf.startswith(b'JFIF', 6):
        return '.jpg'
    elif file_buf.startswith(b'IMOAVI'):
        return '.imoavi'
    elif file_buf.startswith(b'OggS'):
        return '.ogg'
    elif file_buf.startswith(b'RIFF'):
        return '.wav'
    else:
        return ''


def bytes_shiftjis_to_utf8(shiftjis_bytes):
    shiftjis_str = shiftjis_bytes.decode('shift_jis', 'strict')
    utf_str = shiftjis_str.encode('utf-8', 'strict').decode('utf-8', 'strict')

    return utf_str


def check_signa(f_buffer):

    if f_buffer.endswith(b_abdata):
        return 'abdata'
    elif f_buffer.endswith(b_img):
        return 'abimgdat'
    elif f_buffer.endswith(b_sound):
        return 'absound'


def prepare_filename(out_file_name, out_dir, postfix=''):
    ready_name = out_dir + os.path.basename(out_file_name) + postfix

    return ready_name


def create_file(file_name_hndl, out_buffer):
    if len(out_buffer) != 0:
        with open(file_name_hndl, 'wb') as ext_file:
            ext_file.write(out_buffer)
    else:
        print("Zero file. Skipped.")


def check_file_header(file_handle, bytes_num):
    file_handle.seek(0)

    readed_bytes = file_handle.read(bytes_num)

    if readed_bytes == b_hdr:
        print("File is valid abmp")
        return True
    else:
        print("Can't read header. Probably, wrong file...")
        return False


if __name__ == '__main__':

    parser = create_parser()
    arguments = parser.parse_args()

    all_b_files = glob.glob(arguments.input_file_name[0])

    output_dir = arguments.output_dir[0]

    for b_file in all_b_files:

        file_buffer = bytearray(b'')

        with open(b_file, 'rb') as bfile_h:

            check_file_header(bfile_h, len(b_hdr))

            read_byte = bfile_h.read(1)

            file_buffer.extend(read_byte)

            while read_byte:

                read_byte = bfile_h.read(1)

                file_buffer.extend(read_byte)

                # Finding content sections signature
                check_result = check_signa(file_buffer)

                if check_result:
                    if check_result == 'abdata':
                        file_buffer = bytearray(b'')

                        read_length = bfile_h.read(4)

                        size = struct.unpack('<L', read_length)[0]

                        file_buffer.extend(bfile_h.read(size))

                        # Adding _abdata to separate from other parts
                        outfile_name = prepare_filename(b_file, output_dir, '_abdata')

                        create_file(outfile_name, file_buffer)

                    elif check_result == 'abimgdat':

                        images_number = struct.unpack('B', bfile_h.read(1))[0]  # Number of pictures in section

                        for i1 in range(images_number):
                            file_buffer = bytearray(b'')
                            file_name = ''

                            imgsec_hdr = bfile_h.read(signa_len)

                            if imgsec_hdr == Abimgdat13.signa:

                                file_name_size = struct.unpack('<H', bfile_h.read(Abimgdat13.name_size_len))[0]

                                # Decode filename to utf8
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                # CRC size
                                hash_size = struct.unpack('<H', bfile_h.read(Abimgdat13.hash_size_len))[0]
                                # Picture CRC (don't need it)
                                pic_hash = bfile_h.read(hash_size)
                                unknown1 = bfile_h.read(Abimgdat13.unknown1_len)
                                unknown2 = bfile_h.read(Abimgdat13.unknown2_len)

                                pic_size = struct.unpack('<L', bfile_h.read(Abimgdat13.data_size_len))[0]
                                print("pic_size:", pic_size)

                                file_buffer.extend(bfile_h.read(pic_size))
                            elif imgsec_hdr == Abimgdat14.signa:

                                file_name_size = struct.unpack('<H', bfile_h.read(Abimgdat14.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Abimgdat14.hash_size_len))[0]
                                pic_hash = bfile_h.read(hash_size)

                                bfile_h.seek(Abimgdat14.unknown1_len, os.SEEK_CUR)

                                pic_size = struct.unpack('<L', bfile_h.read(Abimgdat14.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(pic_size))

                            else:  # probably abimgdat10, abimgdat11...

                                file_name_size = struct.unpack('<H', bfile_h.read(Other_imgdat.name_size_len))[0]

                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Other_imgdat.hash_size_len))[0]
                                pic_hash = bfile_h.read(hash_size)

                                bfile_h.seek(Other_imgdat.unknown1_len, os.SEEK_CUR)

                                pic_size = struct.unpack('<L', bfile_h.read(Other_imgdat.data_size_len))[0]
                                file_buffer.extend(bfile_h.read(pic_size))

                            for i, letter in enumerate(file_name):  # Replace any unusable symbols from filename with _
                                if letter == '<' or letter == '>' or letter == '*' or letter == '/':
                                    file_name = file_name.replace(letter, "_")

                            # Checking file signature and adding proper extension
                            outfile_name = prepare_filename(b_file, output_dir, '_' + file_name +
                                                            check_type(file_buffer))

                            create_file(outfile_name, file_buffer)
                            file_buffer = bytearray(b'')

                    elif check_result == 'absound':

                        sound_files_number = struct.unpack('B', bfile_h.read(1))[0]

                        for i2 in range(sound_files_number):
                            file_buffer = bytearray(b'')
                            file_name = ''

                            sndsec_hdr = bfile_h.read(signa_len)

                            if sndsec_hdr == Absnddat11.signa:
                                file_name_size = struct.unpack('<H', bfile_h.read(Absnddat11.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Absnddat11.hash_size_len))[0]
                                snd_hash = bfile_h.read(hash_size)

                                unknown1 = bfile_h.read(Absnddat11.unknown1_len)
                                snd_size = struct.unpack('<L', bfile_h.read(Absnddat11.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(snd_size))
                            else:
                                file_name_size = struct.unpack('<H', bfile_h.read(Absnddat11.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Absnddat11.hash_size_len))[0]
                                snd_hash = bfile_h.read(hash_size)

                                unknown1 = bfile_h.read(Absnddat11.unknown1_len)
                                snd_size = struct.unpack('<L', bfile_h.read(Absnddat11.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(snd_size))

                            for i, letter in enumerate(file_name):
                                if letter == '<' or letter == '>' or letter == '*' or letter == '/':
                                    file_name[i] = '_'

                            outfile_name = prepare_filename(b_file, output_dir, '_' + file_name +
                                                            check_type(file_buffer))

                            print("create absound")
                            create_file(outfile_name, file_buffer)
                            file_buffer = bytearray(b'')


Скрипт должен автоматически распаковывать найденные файлы png, jpg, bmp, ogg и wav. Но помимо этого, внутри попадаются еще и неизвестные файлы imoavi.

Суть в том, что в игре все анимации сделаны либо как полноценное видео в ogv формате, либо как анимированные движком изображения, которые записаны в .b файлы, либо как анимированные последовательности jpg файлов в формате imoavi.

В данном случае, нас интересовали и jpg изображения, поэтому пришлось разбираться с ними также.

В imoavi существуют две секции: SOUND и MOVIE. В секции MOVIE через 47 байтов после заголовка, находятся четыре байта размера jpg файла. Файлы записаны друг за другом в исходном виде, разделенные последовательностью в 19 байт, где записан размер следующего файла.

Озвученные imoavi в игре не попадались, поэтому секция SOUND всегда пустая.

Ну и раз уж мы начали заниматься вытаскиванием всех ресурсов игры, заодно был написан и маленький скрипт для вытаскивания jpg из imoavi.

Imoavi extractor
# -*- coding: utf-8 -*-

# Extract imoavi
# Imoavi extractor for Bishoujo Mangekyou game files
# by Chtobi and Nazon, 2016


import glob
import os
import struct
import argparse

imoavi_hdr = b'IMOAVI'

hdr_len = len(imoavi_hdr)


def create_file(file_name, out_buffer, wr_mode='wb'):
    if len(out_buffer) != 0:

        with open(file_name, wr_mode) as ext_file:
            ext_file.write(out_buffer)
    else:
        print("Zero file. Skipped.")


def prepare_filename(file_name, out_dir, postfix=''):
    ready_name = out_dir + os.path.basename(file_name) + postfix

    return ready_name


def create_parser():
    arg_parser = argparse.ArgumentParser(prog='Imoavi extractor\n',
                                         usage='extract_imoavi input_file_name output_dir\n',
                                         description='Imoavi extractor for QLIE engine *.imoavi files.\n')
    arg_parser.add_argument('input_file_name', nargs='+', help="Input file with full path(wildcards are supported).\n")
    arg_parser.add_argument('output_dir', nargs='+', help="Output directory.\n")

    return arg_parser


if __name__ == '__main__':

    parser = create_parser()
    arguments = parser.parse_args()

    all_imoavi = glob.glob(arguments.input_file_name[0])

    output_dir = arguments.output_dir[0]

    for imoavi_f in all_imoavi:
        file_buffer = bytearray(b'')

        with open(imoavi_f, 'rb') as imoavi_h:

            # Read imoavi file header
            imoavi_h.read(hdr_len)
            imoavi_h.seek(2, os.SEEK_CUR)  # 0x00

            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00

            imoavi_h.seek(5, os.SEEK_CUR)  # SOUND
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(11, os.SEEK_CUR)
            imoavi_h.seek(5, os.SEEK_CUR)  # Movie
            imoavi_h.seek(3, os.SEEK_CUR)  # 00 ??
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # ??
            imoavi_h.seek(1, os.SEEK_CUR)  # Number of jpg files in section
            imoavi_h.seek(4, os.SEEK_CUR)  # 0x00
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x05 ???
            imoavi_h.seek(2, os.SEEK_CUR)  # 0x00 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # 720 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # Full size without header?

            to_next_size = struct.unpack('<L', imoavi_h.read(4))[0]  # Bytes till next header

            imoavi_h.seek(16, os.SEEK_CUR)  # 0x00

            jpg_size = struct.unpack('<L', imoavi_h.read(4))[0]

            imoavi_h.seek(4, os.SEEK_CUR)  # 0x00

            file_num = 0

            file_buffer.extend(imoavi_h.read(jpg_size))

            outfile_name = prepare_filename(imoavi_f, output_dir, '_' + (str(file_num)).zfill(3) + '.jpg')

            create_file(outfile_name, file_buffer)

            while to_next_size != 0:
                file_buffer = bytearray(b'')

                to_next_size = struct.unpack('<L', imoavi_h.read(4))[0]

                if to_next_size == 24:  # 0x1C header for index part

                    file_buffer.extend(imoavi_h.read(to_next_size))

                    outfile_name = prepare_filename(imoavi_f, output_dir, '_' + '.index')
                    create_file(outfile_name, file_buffer, 'ab')  # concatenate with index file
                else:

                    imoavi_h.seek(2, os.SEEK_CUR)  # unknown
                    imoavi_h.seek(2, os.SEEK_CUR)  # Unknown, almost always FF FF or FF FE

                    file_num = struct.unpack('B', imoavi_h.read(1))[0]  # File number

                    imoavi_h.seek(11, os.SEEK_CUR)  # 0x00

                    jpg_size = struct.unpack('<L', imoavi_h.read(4))[0]

                    imoavi_h.seek(4, os.SEEK_CUR)  # 0x00

                    file_buffer.extend(imoavi_h.read(jpg_size))

                    outfile_name = prepare_filename(imoavi_f, output_dir, '_' + (str(file_num)).zfill(3) + '.jpg')

                    create_file(outfile_name, file_buffer)


После распаковки, можно убедиться, что анимация из заставки в меню хранится как раз в файле 1_タイトル画面ムービー.b в формате imoavi.


На этом с игровыми ресурсами все.

К сожалению, в процессе перевода выяснилось еще несколько неприятных нюансов, которые преодолеть так и не удалось. Игра, как я уже писал, не поддерживает юникодных кодировок. Поэтому, весь переведенный текст выводится с неправильным межбуквенным интервалом. Было еще несколько проблем с обратной запаковкой файлов и с запуском игры без смены системной кодировки на японскую.

В какой-то момент мы(вернее, тот, кто отвечал за техническую часть перевода в нашей команде) задумались: а может, не стоит таскаться со старым движком, а портировать новеллу на движок Renpy, заодно получив и кроссплатформерность?
Возможно, мы поторопились, но в какой-то момент, бросать начатое стало жалко и ничего не оставалось, кроме как закончить перевод.

С чем же нам пришлось столкнуться во время портирования?
Об этом во второй части.

Ссылки:

Наши скрипты на bitbucket

О движке Qlie на японском

Таблица кодировки Shift Jis

Подробнее о проблеме перекодировки из Shift Jis в UTF-8

Утилита exfp3_v3 от asmodean