https://habr.com/ru/post/508854/- Python
- Data Mining
- Big Data
- Визуализация данных
- Урбанизм
Это серия статей посвящена исследованию строительной активности главного города Кремниевой Долины — Сан-Франциско. Построение графиков и расчётов проводилось в
Jupyter Notebook (на платформе Kaggle.com).
Данные о более чем миллионе разрешений на строительство (записей в двух датасетах) от департамента по строительству Сан-Франциско — позволяют
проанализировать не только строительную активность в городе, но и критически рассмотреть
последнии тенденции и историю развития строительной отрасли за последние 40 лет, в период с 1980 по 2019 год.
Открытые данные дают возможность исследовать
основные факторы, которые влияли и будут влиять на развитие строительной отрасли в городе, разделив их на “внешние” (экономические бумы и кризисы) и “внутренние” (влияние праздников и сезонно-годовых циклов).
Содержание
Открытые данные и обзор исходных параметров
Годовая строительная активность в Сан-Франциско
Ожидание и реальность при составлении сметной стоимости
Активность строительства в зависимости от сезона года
Общий объём инвестиций в недвижимость Сан-Франциско
В какие районы инвестировали за последние 40 лет
Средняя сметная стоимость заявки по районам города
Статистика по общему количеству заявок по месяцам и дням
Будущее строительной отрасли Сан-Франциско
Открытые данные и обзор исходных параметров.
Это не перевод статьи. Я пишу на LinkedIn и чтобы не создавать графики на нескольких языках — все графики на английском.
Ссылка на Jupyter Notebook с данными и графиками (тем, кто зарегистирован на Kaggle — пожалуйста поставьте плюс Notebook — Спасибо).
Ссылка на английскую версию:
The Ups and Downs of the San Francisco Construction Industry. Trends and History of Construction.
Данные о разрешениях на строительство в городе Сан-Франциско — взяты с портала открытых данных —
data.sfgov.org. На портале есть несколько датасетов по теме строительства. В двух таких датасетах хранятся и обновляются данные по разрешениям, выданным на строительство или ремонт объектов в городе:
В данных датасетах содержится информация о выданных разрешениях на строительство, с различными характеристиками объекта, на который выдается разрешение. Общее количество записей (разрешений), полученных
в период 1980-2019 год — 1 137 695 разрешений.
Основные параметры из этого датасет, которые были использованы для анализа:
- permit_creation_date — дата создания заявки (по факту день с которого начинаются строительные работы)
- desctription — описание заявки (два-три ключевых слова, описывающих объект строительства (работы) на которое создавалось разрешение)
- estimated_cost — сметная (предположительная) стоимость строительных работ
- revised_cost — пересмотренная стоимость (стоимость работ после переоценки, увеличения или уменьшения первоначальных объёмов по заявке)
- existing_use — тип жилья (один-, двух-фамильный дом, апартаменты, офисы, производство и др.)
- zipcode, location — почтовый индекс и координаты объекта
Годовая строительная активность в Сан-Франциско
На графике ниже данные по параметрам
estimated_cost и
revised_cost представлены в виде распределения общей стоимости работ по месяцам.
data_cost_m = data_cost.groupby(pd.Grouper(freq='M')).sum()
Для уменьшения месячных “выбросов” месячные данные сгруппированы по годам. График количества инвестированных денег по годам получил более логичный, и поддающийся анализу, — вид.
data_cost_y = data_cost.groupby(pd.Grouper(freq='Y')).sum()
По годовому движению суммы стоимостей (всех разрешений за год) в городские объекты
хорошо видны экономические факторы, которые с 1980 по 2019 года влияли на количество и стоимость строительных объектов, или по другому на инвестиции в недвижимость Сан-Франциско.
Количество разрешений на строительство (количество строительных работ или количество инвестиций) за последние 40 лет было тесно связано с экономической активностью в кремниевой долине.
Первый пик строительной активности был связан с хайпом электроники середины 80 х годов в долине. Последовавший спад в области электроники и банковского дела в 1985 году привел к тому, что региональный рынок недвижимости пришел в упадок, от которого он не восстанавливался почти десять лет.
После этого ещё два раза (в 1993-2000 и 2009-2016 гг.) перед схлопыванием пузыря Доткомов и технологическим бумом последних лет
строительная отрасль Сан-Франциско прошла через параболический рост в несколько тысяч процентов.
Убрав промежуточные пики и спады и оставив минимальные и максимальные значения на каждом экономическом цикле, видно на сколько большие колебания рынка преследовали отрасль последние 40 лет.
Самый большой рост инвестиций в строительство пришёлся на время бума доткомов, когда за период с 1993 по 2001 год в ремонт и строительство было проинвестировано — $ 10 млрд. или примерно по $ 1 млрд. в год. Если считать в квадратных метрах ( стоимость 1м² в 1995 году — $3000) — это примерно по 350 000 м2 в год в течении 10 лет, начиная с 1993 года.
Рост ежегодных суммарных инвестиций за этот период составил 1215%.
Фирмы, которые в этот период занимались сдачей в аренду строительной техники, были похоже на конторы, которые продавали лопаты во времена золотой лихорадки (в этом же регионе в середине 19 века). Только вместо лопат — в 2000-е уже были краны и бетононасосы, для только что образовавшихся строительных фирм, которые хотели заработать на строительном буме.
После каждого из многочисленных кризисов, которые пережила строительная отрасль за эти годы,
в течении последующих двух послекризисных лет инвестиции (сумма заявок по разрешениям) в строительство
каждый раз падали минимум на 50%.
Самые крупные кризисы в строительной отрасли Сан-Франциско пришлись на 90-е годы. Где с периодичностью в 5 лет, отрасль то падала (-85% в период 1983-1986 гг.), то опять поднималась (+895% в период 1988-1992 гг.), оставаясь в ежегодном выражение в 1981, 1986, 1988, 1993 — на одном уровне.
Уже после 1993 года все последующие спады в строительной отрасли составляли не больше 50%. Но
приближающийся экономический кризис (из за COVID-19)
может создать рекордный кризис в строительной отрасли в период 2017-2021 год, падение которой уже за период 2017-2019 года составляет суммарно больше 60%.
Рост населения Сан-Франциско по динамике в период 1980-1993 годов также
показывал почти экспоненциальный рост. Экономическая сила и инновационная энергия кремниевой долины были прочной основой, на которой строилась гипербола новой экономики, американского возрождения и доткомов. Это был эпицентр новой экономики. Но в отличие от роста инвестиций в недвижимость, после пика доткомов, численность населения фактически вышла на плато.
Если до пика доткомов в 2001 году, с 1950 года ежегодный прирост населения составлял примерно 1% в год. То после схлопывания пузыря, приток нового населения затормозился и с 2001 года составляет только 0.2 процента в год.
B 2019 (впервые с 1950 года) динамика прироста показала отток населения (-0.21% или 7000 человек) из города Сан-Франциско.
Ожидание и реальность при составлении сметной стоимости
В использованных датасетах данные по стоимости разрещения на строительный объект разделены на:
- изначальную сметную стоимость (estimated_cost)
- стоимость работ после переоценки (revised_cost)
Во времена бума основная цель переоценки — это увеличение изначальной стоимости, когда у инвестора (заказчик строительства) проявляется аппетит уже после начала строительства.
Во время же кризиса сметные стоимости, стараются не превышать, и изначальные сметы практически не претерпевают изменений (исключение землетрясение 1989 года).
По графику построенного на разности переоцененной и сметной стоимости (revised_cost — estimated_cost) можно наблюдать, что:
Сумма увеличения стоимости при переоценке объема строительных работ — прямо зависит от циклов экономического бума
data_spread = data_cost.assign(spread = (data_cost.revised_cost-data_cost.estimated_cost))
В периоды стремительного экономического роста, заказчики работ (инвесторы) достаточно щедро расходуют свои средства, увеличивая свои запросы уже после начала работ.
Заказчик (инвестор), чувствуя свою финансовую уверенность, просит строительного подрядчика или архитектора расширить уже выданное разрешение на строительство. Это может быть решение об увеличение первоначальной длины бассейна или увеличение площади дома (уже после начала работ и выдачи разрешения на строительство).
В пик доткомов такие “дополнительные” расходы доходили до «лишних» 1 млрд. в год.
Если посмотреть на эту таблицу уже в процентном изменении, то пик увеличение сметы (в 100% или в 2 раза от первоначальной сметной стоимости) пришелся на год, перед землетрясением, произошедшего в 1989 года недалеко от города. Предполагаю, что после землетрясения объекты строительства которые были начаты в 1988 требовали после землетрясения в 1989 — большего количество времени и средств на реализацию.
И наоборот, пересмотр сметной стоимости в меньшую сторону (что произошло только один раз за период с 1980 по 2019 год) за несколько лет до землетрясения, предположительно связан с тем, что некоторые объекты начатые в 1986-1987 году были заморожены или инвестиции по этим объектам были урезаны. По графику
в среднем на каждый объект начатый в 1987 году — снижение сметной стоимости составило -20% от первоначального плана.
data_spred_percent = data_cost_y.assign(spred = ((data_cost_y.revised_cost-data_cost_y.estimated_cost)/data_cost_y.estimated_cost*100))
Увеличение начальной сметной стоимости на больше чем 40%, указывало или возможно было следствием приближающегося пузыря на финансовом и в последующем — строительном рынке.
С чем связано уменьшение спреда (разницы) между сметной и пересмотренной стоимостью после 2007 года?
Возможно инвесторы начали тщательно смотреть на цифры (средняя сумма за 20 лет выросла со $ 100 тыс. до $ 2 млн.) или возможно департамент по строительству, предупреждая и тормозя возникающие пузыри на рынке недвижимости, ввело новые правилы и ограничения, чтобы снизить возможные манипуляции и возможные риски, которые возникнут в кризисные годы.
Активность строительства в зависимости от сезона года
Сгруппировав данные по календарным неделям в году (54 недели), можно наблюдать за строительной активностью города Сан-Франциско в зависимости от сезонности и времени года.
К рождеству все строительные организации стараются успеть получить разрешение на новые “крупные” объекты (при этом! количество! разрешений в эти же месяцы находится на одном уровне в течении всего года). Инвесторы, планируя получить свой объект в течении следующего года заключают договора в зимние месяцы, рассчитывая на большие скидки (так как летние договора, в большей части, к концу года подходят к окончанию и строительные фирмы заинтересованы в поступление новых заявок).
Перед рождеством, подаются самые большые суммы в заявках (увеличение со средних 1-1,5 млрд. в месяц. до 5 млрд. за один только декабрь).
При этом общее количество заявок по месяцам остаётся на одном уровне (см. Ниже раздел: статистика по общему количеству заявок по месяцам и дням)
После зимних каникул строительная отрасль активно (почти без роста количества разрешений) занимается планированием и реализацией “рождественских” заказов, чтобы к середине года (до праздника “Дня независимости”) — успеть освободить ресурсы перед начинающийся сразу после июньских праздников — новой волной летних договоров.
data_month_year = data_month_year.assign(week_year = data_month_year.permit_creation_date.dt.week)
data_month_year = data_month_year.groupby(['week_year'])['estimated_cost'].sum()
Эти же данные в процентах (оранжевая линия) так же показывают, что отрасль работает “ровно” в течении года, но перед и после праздников активность по разрешениям увеличивается до 150% в период между week 20-24 (перед Днём Независимости), и снижается сразу после праздника до -70%.
Перед Хэллоином и Рождеством активность в строительной отрасли Сан-Франциско week 43-44 возрастает на 150% (от дна до пика) и после уменьшается на каникулах до нуля.
Таким образом отрасль находится в полугодовом цикле, который разделён праздниками “Днём независимости США” (week 20) и “Рождеством” (week 52).
Общий объём инвестиций в недвижимость Сан-Франциско
Исходя из данных по разрешениям на строительство в городе:
Общий объём инвестиций в строительные объекты Сан-Франциско в период с 1980 года по 2019 года составляет 91,5 млрд. долларов.
sf_worth = data_location_lang_long.cost.sum()
Общая рыночная стоимость всей жилой недвижимости в Сан-Франциско, оцененная по налогу на имущество (является оценочной стоимостью всей недвижимости и всей личной собственности, принадлежащей Сан-Франциско)
достигла в 2016 году — 208 миллиардов долларов.
В какие районы Сан-Франциско инвестировали за последние 40 лет
При помощи библиотеки Folium посмотрим куда были инвестированы эти $91,5 млрд. по районам. Для этого сгруппировав данные по почтовому индексу (zipcode), представим полученные значение при помощи кругов (функции Circle из библиотеки Folium).
import folium
from folium import Circle
from folium import Marker
from folium.features import DivIcon
# map folium display
lat = data_location_lang_long.lat.mean()
long = data_location_lang_long.long.mean()
map1 = folium.Map(location = [lat, long], zoom_start = 12)
for i in range(0,len(data_location_lang_long)):
Circle(
location = [data_location_lang_long.iloc[i]['lat'], data_location_lang_long.iloc[i]['long']],
radius= [data_location_lang_long.iloc[i]['cost']/20000000],
fill = True, fill_color='#cc0000',color='#cc0000').add_to(map1)
Marker(
[data_location_mean.iloc[i]['lat'], data_location_mean.iloc[i]['long']],
icon=DivIcon(
icon_size=(6000,3336),
icon_anchor=(0,0),
html='<div style="font-size: 14pt; text-shadow: 0 0 10px #fff, 0 0 10px #fff;; color: #000";"">%s</div>'
%("$ "+ str((data_location_lang_long.iloc[i]['cost']/1000000000).round()) + ' mlrd.'))).add_to(map1)
map1
По районам видно, что
большая часть пирога логично досталась DownTown. Упрощенно сгруппировав все объекты по расстоянию до центра города и времени, которые необходимо чтобы добраться до центра города (конечно дорогие дома строятся также на побережье), все разрешения были разделены на 4 группы: 'Downtown', '<0.5H Downtown', '<1H Downtown', 'Outside SF'.
from geopy.distance import vincenty
def distance_calc (row):
start = (row['lat'], row['long'])
stop = (37.7945742, -122.3999445)
return vincenty(start, stop).meters/1000
df_pr['distance'] = df_pr.apply (lambda row: distance_calc (row),axis=1)
def downtown_proximity(dist):
'''
< 2 -> Near Downtown, >= 2, <4 -> <0.5H Downtown
>= 4, <6 -> <1H Downtown, >= 8 -> Outside SF
'''
if dist < 2:
return 'Downtown'
elif dist < 4:
return '<0.5H Downtown'
elif dist < 6:
return '<1H Downtown'
elif dist >= 6:
return 'Outside SF'
df_pr['downtown_proximity'] = df_pr.distance.apply(downtown_proximity)
Из 91,5 млрд. инвестированных в город — почти 70 миллиардов (75% всех инвестиций) инвестированных в ремонт и строительство приходятся на центр города (зелёная зона) и в район города в радиусе 2 км. от центра (синяя зона).
Средняя сметная стоимость заявки на строительство по районам города
Все данные, как и в случае с общей суммой инвестиций, были сгруппированы по почтовому индексу. Только в данном случае со средней (.mean()) сметной стоимостью заявки по почтовому индексу.
data_location_mean = data_location.groupby(['zipcode'])['lat','long','estimated_cost'].mean()
В обычных районах города (больше 2 км. от центра города) — средняя сметная стоимость заявки на строительство составляет $ 50 тыс.
Средняя сметная стоимость в районе центра города выше примерно в три раза ($ 150 тыс. до $ 400 тыс.) чем в остальных районах ($30-50 тыс.).
Помимо стоимости земли, три фактора определяют общую стоимость при строительстве жилья: труд, материалы и государственные сборы. Эти три компонента в Калифорнии выше, чем в остальной части страны. Строительные нормы и стандарты Калифорнии считаются одними из самых всеобъемлющих и строгих в стране (из за землетрясений и экологических норм), часто требуя более дорогих материалов и рабочей силы.
Например, государство требует, чтобы строители использовали строительные материалы (окна, изоляция, системы отопления и охлаждения) более высокого качества — для достижения высоких стандартов в области энергоэффективности.
Из общей статистики по средней стоимости заявки на разрешение — выбиваются две локации:
- Treasure Island — искусственный остров в заливе Сан-Франциско. Средняя сметная стоимость разрешения на строительства — $ 6,5 миллионов.
- Mission Bay — (проживает 2926 человек) Средняя сметная стоимость разрешения на строительства — $ 1,5 миллионов.
На самом деле высокая средняя заявка в этих двух районах связана
с наименьшем количеством заявок по этим почтовым локациям (145 и 3064 соответственно, строительство на острове сильно ограничено), тогда как по остальным почтовым индексам — з
а период 1980-2019 год поступало примерно по 1300 заявлений в год (всего в среднем 30 -50 тыс. Заявлений за весь период).
По параметру “количество заявок” заметно идеально-ровное распределение количества заявок, приходящихся на один почтовый индекс, по всей территории города.
Статистика по общему количеству заявок по месяцам и дням
Общая статистика по общему количеству заявок по месяцам и дням недели в период с 1980 по 2019 год показывает, что
самые “спокойные” месяцы для департамента по строительству — это весенние и зимние месяцы. При этом сумма инвестиций, указанных в заявках сильно варьируется, и отличает от месяца к месяцу в разы (см. дополнительно “Активность строительства в зависимости от сезона года”). Среди дней недели в понедельник нагрузка на департамент примерно на 20% меньше чем в остальные дни недели.
months = [ 'January', 'February', 'March', 'April', 'May','June', 'July', 'August', 'September', 'October', 'November', 'December' ]
data_month_count = data_month.groupby(['permit_creation_date']).count().reindex(months)
Тогда как по количеству заявок Июнь и Июль практически не отличаются, по общей сметной стоимости разница достигает 100% (4,3 млрд. в Мае и Июле и 8,2 млрд. в Июне).
data_month_sum = data_month.groupby(['permit_creation_date']).sum().reindex(months)
Будущее строительной отрасли Сан-Франциско, предсказание активности по паттернам.
В заключении сравним график активности строительства в Сан-Франциско с графиком цены на Биткоин (2015-2018 гг.) и графиком цены на золото (1940 — 1980 гг.)
Паттерн (от англ. pattern — модель, образец) — в техническом анализе называются устойчивые повторяющиеся сочетания данных цены, объёма или индикаторов. Анализ паттернов основывается на одной из аксиом технического анализа: «история повторяется» — считается, что повторяющиеся комбинации данных приводят к аналогичному результату.
Основной паттерн который угадывается на графике годовой активности —
это “Голова и плечи” — паттерн разворота тренда. Назван так, поскольку график похож на человеческую голову (пик) и плечи по бокам (меньшие пики). Когда цена прорывает линию, соединяющую впадины, паттерн считается завершенным, а движение, скорее всего, будут происходить вниз.
Движения активности в строительной отрасли Сан-Франциско, практически полностью совпадает с графиком роста цены на золото и биткоин. Исторические показатели этих трёх графиков движения цен и активности демонстрируют заметные сходства.
Чтобы можно было предсказать поведение строительного рынка в будущем,
необходимо рассчитать коэффициент коррелированности с каждым из этих двух трендов.
Две случайные величины называются коррелированными, если их корреляционный момент (или коэффициент корреляции) отличен от нуля; и называют некоррелированными величинами, если их корреляционный момент равен нулю.
Если полученное значение будет ближе к 0, чем к 1, то говорить о четкой закономерности не имеет смысла. Это сложная математическая задача, за которую возможно возьмутся старшие товарищи, которых может заинтересовать эта тема.
Если! ненаучно! посмотреть на тему дальнейшего развития строительной отрасли Сан-Франциско: при совпадении паттерна и дальше с ценой биткоина, то
по этому пессимистичному варианту — выйти из кризиса строительной отрасли в Сан-Франциско будет непросто ближайшее посткризисное время.
При более “оптимистичном” варианте развития, возможен повторный экспоненциальный рост строительной отрасли, если активность здесь пойдет по сценарию “цены на золото”. В этом варианте через 20-30 лет (возможно через 10) строительную сферу ожидает новый всплеск занятости и развития.
В следующей части я подробнее рассмотрю отдельные отрасли строительства (ремонт крыш, кухонь, строительство лестниц, ванных комнат, если у вас есть пожелания по отраслям или другим данным — напишите пожалуйста в комментарии) и сравню инфляцию по отдельным типам работ с фиксированные ставкой по ипотечным кредитам и доходностью государственных облигаций США (Fixed Mortgage Rates & US Treasury Yield).
Ссылка на Jupyter Notebook:
San Francisco. Building sector 1980-2019.
Пожалуйста тем, кто с Kaggle — поставьте плюс Notebook (Спасибо!).
(В Notebook позже будут добавлены комментарии и пояснения по коду)
Ссылка на английскую версию:
The Ups and Downs of the San Francisco Construction Industry. Trends and History of Construction.
Буду рад критике и благодарен за найденные ошибки при употреблении английского языка, за найденные орфографические (и логические) ошибки.