Люблю загадки… Недавно меня попросили расшифровать сигнал телефонного вызова из фильма «The Wall» 1982 года, снятого по мотивам одноимённого альбома Pink Floyd. Услышать сигнал вызова можно в
этой сцене, когда главный персонаж, Пинк, звонит в Лондон с таксофона в Лос-Анджелесе.
Вот этот пятисекундный аудиоклип:
Что мы слышим в этом клипе?
В начале клипа фоновая речь накладывается на гудок вызова, который, в свою очередь, сменяется серией быстрых тональных сигналов, сопровождаемых короткими гудками дозвона и, в конечном итоге ответом. На фоне мы также слышим какие-то щелчки и музыку.
Самой информативной частью клипа является номер телефона, закодированный в серии быстрых тональных сигналов. В 1980-х, когда снимали этот фильм, в разных странах использовали похожие, но несовместимые схемы передачи тональных сигналов. В основе всех этих схем лежал общий принцип представления каждой цифры номера комбинацией из двух тонов, которых всего существует шесть или восемь.
Посмотрим на спектрограмму
С помощью
SoX, инструмента редактирования аудио для ПК, можно создавать графики, отражающие спектральные компоненты аудио во времени. Здесь горизонтальная ось представляет время, вертикальная — частоту, тёмные участки — бо́льшую звуковую мощность, а светлые — меньшую.
Тональные сигналы представлены в виде горизонтальных линий. Интересующие нас сигналы набора цифр находятся в промежутке от 0,7 до 1,8 секунды. Звучат эти сигналы примерно на частотах 700, 900, 1 100, 1 300, 1 500 и 1 700 Гц.
Какие стандарты тонального набора были тогда распространены?
▍ DTMF (ITU-T Q.23 AND Q.24)
Все слышали о DTMF (Dual Tone Multi Frequency, двухтональный многочастотный набор). Его звуки вы слышите при нажатии клавиш в ответ на предложения голосовой системы вроде: «Если вы новый клиент, нажмите 1. Если вас интересует информация по счёту, нажмите 2…» Многие стационарные телефоны до сих пор устанавливают связь именно с помощью DTMF.
В DTMF каждая цифра кодируется воспроизведением «высокого» тона и «низкого». Низкие могут иметь частоту 697, 770, 852 или 941 Гц, а высокие — 1 209, 1 336, 1 477 и 1 633 Гц.
Но в нашем аудиоклипе ни одна пара этим частотам не соответствует, значит, мы имеем дело не с DTMF. Вот как бы звучал наш фрагмент, если бы тот же номер был закодирован с использованием DTMF и примерно той же скорости тональных сигналов:
▍ CAS R2 (ITU-T Q.400—490)
Стандарт CAS R2 построен по схеме «два тона из шести». В нём частоты 1 380, 1 500, 1 620, 1 740, 1 860 и 1 980 Гц используются для одного направления вызова, а 1 140, 1 020, 900, 780, 660 и 540 Гц — для встречного. С нашим набором частот ни тот, ни другой вариант не совпадают. К тому же, Пинк находится в США, где CAS R2 не использовался.
В случае этого стандарта наш сигнал звучал бы так:
▍ SS5 (ITU-T Q.153 AND Q.154)
В SS5 также используется схема «два из шести» с частотами 700, 900, 1 100, 1 300, 1 500 и 1 700 Гц. Такой набор частот уже преимущественно совпадает с набором из нашей записи, плюс в начале 1980-х как раз стандарт SS5 чаще всего использовался для звонков из США в Великобританию.
Вот как звучал бы тональный набор в случае SS5, если его воспроизвести без посторонних шумов:
▍ SS7 (ITU-T Q.703—)
Сразу скажу, это точно не SS7. В системе связи №7 (signaling system No. 7, SS7) тональные сигналы не используются вовсе — она цифровая. SS7 передаётся отдельно от аудио-канала, так что звонящий этих сигналов не слышит. Да и использоваться эта система начала ближе к концу 1980-х.
Сравним спектрограммы
Я сгенерировал график, совмещающий все три типа сигналов. Разница между DTMF и SS5 невелика, но заметна. CAS же явно отличается.
Проверим аудиоклип на телеком-оборудовании
Я вставил вырезанный аудиоклип в таймслот потока E1, подключил этот поток к оборудованию Corelatus и запустил
ss5_registersig_monitor
.
В исходном аудио помимо тонального набора присутствует много шума, но это достаточно надёжные протоколы, чтобы оборудование посредством своих цифровых фильтров смогло декодировать и разметить по времени набираемые цифры. В итоге я выяснил, что тональный набор на записи соответствует номеру
044 1831. Следующим шагом нужно проанализировать частоты в начале каждого тона. Я повторно проверил аудиоклип с помощью
SoX, который с помощью быстрого преобразования Фурье (FFT) определил реальные частоты сигналов:
sox input.wav -n trim 0.700 0.060 stat -freq
И вот результат:
Теперь я точно уверен, что мы имеем дело с SS5. В записи звучат соответствующие частоты для передачи цифр, а также используется соответствующий тайминг между ними. Кроме того, набор начинается с
KP1, а заканчивает
ST, что также соответствует правилам SS5. И ответ на вызов здесь обозначается сигналом с частотой в районе 2 400 Гц.
Я также указал в таблице сигнал вызова в начале и сигнал установки связи 2 400 Гц в конце. В SS5 тоже использовался скандально известный сигнал с частотой 2 600 Гц, который в 1980-х применяли для фрикинга, например, в устройствах «blue box».
Как была сделана запись звонка для фильма?
Думаю, в те годы в США при звонках с участием оператора звонящему были слышны тональные сигналы линии. Тогда звукоинженер мог бы записать какой-то реальный вызов в США и точно передать ощущение междугороднего звонка. Сам же номер, пожалуй, был фиктивным: он слишком короткий и имеет недействительный код региона.
После этого запись обрезали и наложили, чтобы изначальный гудок вызова пересекался с самим тональным набором. Получилось реалистичнее и вполне в духе того времени.
Дополнение от 18 декабря: эта запись также встречается в треке «Young Lust»
Оказалось, что расширенная версия того же вызова звучит ближе к концу трека Pink Floyd «Young Lust» с альбома «The Wall». Эту запись также проанализировал ещё один инженер, имеющий опыт работы с телефонными сетями 70-х. Почитать об этом можно в
его статье, приправленной множеством интересных деталей и сведений, о которых я не знал, включая имена людей, которые участвовали в постановке звонка.
Приятно осознавать, что я правильно декодировал цифры номера. Мы оба сошлись на том, что это были
044 1831. Удивило же меня то, что набранный номер, похоже, был сокращением реального номера в Лондоне, а не выдумкой, как я решил сначала. Скорее всего, несколько цифр между
1
и
8
просто вырезали. Кит Монаган в своём анализе отметил присутствие «очень грубой точки склейки» в том месте, где я лишь мельком задумался, почему все сигналы происходят с одинаковым интервалом за исключением
8
, которая чуть спешит, и
1
, которая слегка отстаёт.
Дополнение от 2 января 2025: как выглядит эта грубая точка склейки?
Мне стало интересно разглядеть эту грубую точку склейки, о которой писал Монаган, и я открыл график звуковой волны ремастер-версии «Young Lust» от 2011 года (FLAC). Если увеличить этот график на отметке 193 секунды, то мы явно заметим отсутствие перерыва между цифрами
1
и
8
, как и неожиданно большой разрыв между
3
и
1
:
Вот приближенный график области волны от конца сигнала
1
и до начала сигнала
8
:
Я ожидал, что будет хуже, но в 1979 году аудио-склейки наверняка делали путём буквального разрезания магнитной ленты бритвенным лезвием под углом 45° и последующего склеивания двух концов скотчем. Пожалуй, отсюда и явная грубость перехода, которой сегодня можно легко избежать при помощи цифрового монтажа. Или же просто на записи Кита момент перехода был более жёстким.
Telegram-канал со скидками, розыгрышами призов и новостями IT 💻
![](https://habrastorage.org/webt/yo/se/km/yosekm4h_f7y7oia-ghbbpc0phi.png)