Reaching LLaMA2 Performance with 0.1M DollarsJetMoE: Reaching LLaMA2 Performance with 0.1M Dollars Key Messages JetMoE-8B is trained with less than $ 0.1 million1 cost but outperforms LLaMA2-7B from Meta AI, who has multi-billion-dollar training resources. LLM training can be much cheaper than people previously thought. JetMoE-8B is fully open-sourced and academia-friendly because: It only uses public datasets for training, and the code is open-sourced. No proprietary resourc…
Компания Google устранила еще одну уязвимость нулевого дня в браузере Chrome, которая использовалась исследователями в ходе хакерского состязания Pwn2Own в прошлом месяце.
Специалист обнаружил серию уязвимостей в протоколе HTTP/2, получивших общее название Continuation Flood. Эти проблемы могут привести к атакам на отказ в обслуживании (DoS) и способны вывести из строя веб-серверы в некоторых имплементациях при помощи одного TCP-соединения. По словам эксперта, Continuation Flood гораздо опаснее похожей проблемы Rapid Reset, обнаруженной прошлой осенью.
Как часто вам приходится сталкиваться с конструкцией sizeof(array)/sizeof(array[0]) для определения размера массива? Очень надеюсь, что не часто, ведь на дворе уже 2024 год. В заметке поговорим о недостатках конструкции, откуда она берётся в современном коде и как от неё наконец избавиться.Чуть больше контекстаНе так давно я бороздил просторы интернета в поисках интересного проекта для проверки. Глаз зацепился за OpenTTD — Open Source симулятор, вдохновлённый Transport Tycoon Deluxe (aka симул…
Изображение сгенерировано Dalle-3Хабр, привет! Меня зовут Антон Разжигаев, я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI.С момента выхода первой статьи «Attention is All You Need» я с жадностью и любопытством, присущими любому исследователю, пытаюсь углубиться во все особенности и свойства моделей на базе архитектуры трансформер. Но, если честно, я до сих пор не понимаю, как они работают и почему так хорошо обучаются. Очень хочу разобраться, в чём же причина такой…
Пучина авитова выбросила к ногам интересное предложение. Ретрокомпакт из моего города в отличном состоянии и полной комплектации за недорого. Недолго раздумывая, написал продавцу, и через пару часов приятный молодой человек привёз камеру на место встречи. Она была в аккуратно сшитой кожаной сумке и почти без дефектов. Когда вынул, то влюбился с первых секунд. Выглядела она как высокотехнологичное устройство из аниме девяностых годов. Чёрный кирпичик технического великолепия удобно лежал в р…
Full-mesh Deep Neural Network (DNN) - Полносвязная Глубокая НейросетьВ сети полно примеров программного кода нейронных сетей, однако подавляющее большинство составлено с использованием дополнительных библиотек и «математических приёмчиков» — не вдаваясь при этом в какие‑либо подробности — мол, работает шайтан — и уже хорошо, главное — что «уместилось» в N строчек кода и «объяснено» всего за M минут.Не берусь утверждать, что нейросети — это «элементарная база», но всё же попытаюсь максимально у…
Технологическая индустрия, СМИ, якобы независимые эксперты, как правило, рекомендуют покупать самые новые, самые продвинутые гаджеты: смартфоны, телевизоры, ноутбуки. А что делать, если обновиться нужно, а денег на топовое устройство нет? Ну, или просто не хочется тратить слишком много.Брать новое дешёвое устройство? Такой себе вариант. Вполне вероятно, что хороший подержанный ноутбук сможет закрыть ваши задачи лучше. Если его немного подшаманить.Ноутбуки ThinkPad повсеместно считаются отличны…
При реализации Cosmo Router, open-source замена Apollo Router, мы столкнулись с проблемой поддержания нашего кода для решения проблемы N+1. Реализация маршрутизатора для федеративных служб GraphQL в значительной степени зависит от возможности группировать вложенные запросы GraphQL для сокращения числа запросов к подграфам.Чтобы решить эту проблему, мы разработали новый алгоритм, который решает проблему N+1 более эффективно и проще для поддержания, чем наше предыдущее решение, которое было осно…