13 серпня 2024 року близько 14:20 за місцевим часом приватна камера на гірській станції в окрузі Сонома, Каліфорнія, зафіксувала тонкий стовп диму, що піднімався з-під крони дуба на дистанції 3,4 км. Стовп мав ширину менше двох пікселів у кадрі високої роздільної здатності 4K. Людський оператор не помітив би його ще 8-12 хвилин: погляд був прикутий до іншого сектора, а контраст диму проти жовто-сірого літнього схилу був майже нульовим. Алгоритм на базі модифікованої архітектури YOLOv8, навчений на близько 47 000 анотованих кадрах диму з відкритого датасету HPWREN та комерційних колекцій, видав bounding box з імовірністю 0,71. Через 14 секунд push-нотифікація з’явилася у регіональному центрі CAL FIRE. Через 7 хвилин на місце виїхав перший наряд. Пожежу зупинили на площі 0,4 га.
Цей сценарій — не наукова фантастика. Він є відтворюваним результатом близько п’ятнадцяти років роботи комп’ютерного зору на пожежах: від ранніх Хаара-каскадів та SVM-класифікаторів кольорових ознак диму до сучасних трансформерних архітектур, що поєднують просторовий та темпоральний аналіз. У цій статті ми розбираємо, що саме працює у 2024-2026 роках, де глибинне навчання справді зміщує точку Парето оперативної детекції, де воно лише імітує користь, і яке місце у цій картині займає WildFiresUA з нашою академічною лабораторією у ДНУ ім. Олеся Гончара.
Чому глибинне навчання прийшло у пожежний домен пізно
Сегментація вигорілих площ за супутниковими даними десятиліттями робилася на емпіричних спектральних індексах. Класичний dNBR (differenced Normalized Burn Ratio), запропонований Key та Benson на основі смуг 4 і 7 Landsat TM, залишається індустрійним стандартом для USGS Burned Area Essential Climate Variable. Принцип простий: після пожежі ближній інфрачервоний канал падає, короткохвильовий інфрачервоний росте, різниця дає індекс інтенсивності. Поріг dNBR ділить пікселі на «вигорілий» та «не вигорілий».
Проблема індексних методів — нелінійні випадки. Хмарна тінь, скошена трава, водойма з низькою NIR-відбивальністю, фрагментована мозаїка вигорілого та збереженого підліску — все це дає false positives. Дослідження Pinto et al. (2020) показало, що dNBR на Sentinel-2 у середземноморських лісах має повноту 0,72-0,81 при точності 0,68-0,76 для пожеж від 5 до 50 га, причому помилки концентруються саме на гетерогенних ландшафтах (Pinto et al., 2020, Remote Sensing). Для України, де лісостепова мозаїка з полями, лісосмугами, болотами та руслами річок створює саме таку гетерогенність, чисто індексні підходи мають фундаментальне обмеження.
Глибинне навчання обходить це обмеження тим, що вчиться розпізнавати контекст. CNN, що дивиться на патч 256×256 пікселів, бачить не тільки спектральну сигнатуру у центрі, а й текстуру, форму, географічне сусідство. Saha et al. (2020) показали, що згорткові мережі суттєво поліпшують точність змін на Sentinel-2 у складних ландшафтах (Saha et al., 2020, ISPRS Journal of Photogrammetry and Remote Sensing). Knopp et al. (2020) застосували архітектуру ResUNet до сегментації вигорілих площ і отримали F1 близько 0,90 на тестовому наборі по Південній Європі, що на 8-12 п.п. вище за dNBR-базелайн при ідентичних вхідних даних (Knopp et al., 2020, Remote Sensing).
Чому ж глибинне навчання прийшло у пожежний домен лише близько 2018-2020 років, тоді як ImageNet-революція датується 2012-м? Три причини. По-перше, відсутність великих анотованих датасетів пожеж до Initiative on GFED5 та Sentinel-2 Burned Area products. По-друге, складність у міченні: «вигоріла земля» — це не котик і не собачка, експертна оцінка вимагає спектрального аналізу плюс польової валідації. По-третє, регуляторна інерція: USGS, ESA, NASA публікували стандартні продукти на індексах, і будь-яка нова парадигма мусила пройти через довгу валідацію.
Архітектури сегментації вигорілих площ
U-Net та похідні. Архітектура, запропонована Ronneberger et al. (2015) для медичної сегментації, виявилася майже ідеальною для дистанційного зондування: енкодер-декодер зі skip-з’єднаннями добре працює на завданнях, де треба піксельну точність на гетерогенному фоні (Ronneberger et al., 2015, MICCAI). Для вигорілих площ ResUNet (Knopp et al., 2020) додає residual-блоки, що дозволяє стабільніше навчати глибокі варіанти. Attention U-Net та nnU-Net є наступним поколінням з адаптивними механізмами уваги.
Transformer-моделі для сегментації. Vision Transformer (ViT, Dosovitskiy et al., 2020), Swin Transformer та SegFormer стали мейнстрімом загальної комп’ютерної сегментації після 2021 року. Для вигорілих площ ці моделі поки що мають неоднозначний результат: вони перевершують U-Net на великих гомогенних патчах, але потребують значно більше даних для навчання. Wang et al. (2024) показали, що SegFormer-B2 на датасеті MTBS дає F1 близько 0,93, але вимагає в 5 разів більше тренувальних патчів для досягнення тієї ж генералізації, що й ResUNet (Wang et al., 2024, Remote Sensing).
Гібридні підходи dNBR + ML. Прагматичний компроміс: використовуємо dNBR як перший фільтр для кандидатів, а потім згорткова мережа на патчах 64×64 робить остаточну класифікацію. Cardoso-Pereira et al. (2023) застосували такий підхід до бразильської Амазонії і отримали поліпшення precision з 0,71 до 0,87 при незначному падінні recall (Cardoso-Pereira et al., 2023, Remote Sensing). Цей підхід ми вважаємо найкращим стартовим стеком для країн з обмеженими обчислювальними ресурсами, включно з Україною.
Multi-temporal моделі. Пожежа — це процес у часі, а не фото. Моделі, що приймають серію Sentinel-2 знімків (наприклад, 5 знімків з інтервалом 5 днів), бачать не лише підсумковий dNBR, а й траєкторію зміни. ConvLSTM та Transformer-у-часі архітектури демонструють перевагу 3-7 п.п. F1 над single-shot моделями. Khan et al. (2023) дали детальний огляд multi-temporal архітектур для дистанційного зондування пожеж (Khan et al., 2023, IEEE JSTARS).
Активна детекція: гарячі плями
Сегментація вигорілої площі — це постфактум. Активна детекція гарячих плям — це детекція в реальному часі, коли пожежа ще горить. Тут глибинне навчання поки що грає допоміжну роль: основа залишається фізичною, на алгоритмах типу VNP14 (Schroeder et al., 2014) для VIIRS чи MOD14 (Giglio et al.) для MODIS.
Чому DL не витіснив фізичні алгоритми? Тому що активна детекція — це задача з низьким співвідношенням сигнал/шум при високій вартості false positives. Один false positive, переданий у систему підтримки рішень, може спричинити виїзд бригади на ділянку, де нічого немає. Економічна вартість такого виїзду в США оцінюється у 5-15 тис. доларів. Класичні алгоритми мають детально обґрунтовану модель похибок: ми точно знаємо, у яких умовах VNP14 дає false positive (відблиск на воді, гарячий відбиток сонця, розжарений промисловий об’єкт). Чорна скринька CNN не дає такої прозорості.
Однак гібридні підходи показують перспективу. Govil et al. (2020) продемонстрували, як CNN-класифікатор поверх кандидатів VNP14 знижує комісійну помилку на 22-28% за рахунок фільтрації відомих хибних патернів (Govil et al., 2020, Remote Sensing). У цій схемі фізичний алгоритм залишається первинним детектором, а CNN робить контекстуальну валідацію.
Окремий випадок — детекція малих пожеж на Sentinel-2. Через його спектральні канали (включно з SWIR на 1610 та 2190 нм) Sentinel-2 теоретично здатен виявляти активні пожежі від ~30-50 МВт радіаційної потужності, але стандартного оперативного продукту ESA для цього довгий час не існувало. CNN-моделі типу алгоритму Liu et al. (2021) показують повноту 0,78 для пожеж 0,1-1 га, що є радикальним прогресом порівняно з MODIS/VIIRS на таких розмірах (Liu et al., 2021, IEEE TGRS).
Детекція диму у відеопотоках
Камерні мережі для виявлення пожеж — від AlertWildfire у США до приватних мереж у Середземномор’ї — генерують десятки тисяч кадрів за хвилину. Людський оператор фізично не може переглянути все. CNN та YOLO-родина моделей виявилася ключовою.
YOLO-варіанти. Архітектура YOLO (You Only Look Once), починаючи з версії 5 і особливо у версіях 7 та 8, домінує real-time-детекцію. Sahyoun et al. (2024) розгорнули модифіковану YOLOv8 на edge-пристроях Jetson Nano для лісових камер у ОАЕ і отримали середню точність mAP@0,5 близько 0,89 при швидкості 22 кадри/с (Sahyoun et al., 2024, IEEE Access). Це принципово важливо: модель може працювати на вбудованому процесорі камери без передачі гігабайтів відео у хмару.
3D CNN та temporal models. Дим відрізняється від хмар та туману не статично, а динамічно: дим піднімається, дрейфує, розширюється. Hu et al. (2018) систематично розібрали обмеження статичних CNN-детекторів диму і показали, що додавання темпоральної компоненти (3D-згортки на стеку 8-16 кадрів) знижує false positive rate з 12% до 4% при тій же повноті (Hu et al., 2018, Sensors).
Vision Transformer для диму. Останні роки приніс хвилю робіт з ViT-моделями для відеопотоків. Khan et al. (2024) застосували Swin Transformer до архіву CCTV-кадрів з пожежами в Південно-Східній Азії і отримали F1 = 0,93 проти 0,87 для YOLOv8-базелайну (Khan et al., 2024, Ecological Informatics). Ціна: інференс на одному кадрі займає 180 мс на GPU RTX 4090, що практично виключає edge-розгортання.
Безпілотні платформи. Vetrivel et al. (2018) розробили архітектуру для пост-катастрофної оцінки на дроновому RGB-відео; підхід застосовний і до пожежного домену (Vetrivel et al., 2018, ISPRS Journal of Photogrammetry and Remote Sensing). Tang et al. (2015) показали ранній приклад інтеграції безпілотних сенсорних мереж для виявлення пожеж (Tang et al., 2015, Sensors). Govil та колеги формалізували формат вхідних даних з сенсорів CCTV для оперативного AI-фільтру у роботі ICIP-2020 (Govil et al., 2020, ICIP).
Метрики оцінювання та чому вони обманюють
Базовий набір метрик для класифікаційних задач: precision, recall, F1, accuracy. Для сегментації додаються Intersection over Union (IoU або Jaccard index) та Dice coefficient. Для активної детекції — false alarm rate на одиницю площі або одиницю часу.
Проблема: ці метрики чутливі до балансу класів та порогу класифікації. У типовому датасеті вигорілих площ співвідношення класу «вигорілий» до «не вигорілий» становить 1:50 — 1:200. Тривіальний класифікатор, що завжди передбачає «не вигорілий», має accuracy 99,5%, але recall = 0. Тому accuracy для пожеж — практично безглузда метрика, треба завжди дивитися на precision-recall криву.
Друга проблема: тестові набори часто не репрезентативні щодо ландшафтної гетерогенності. Модель, навчена на середземноморських хвойних лісах, може показати чудовий F1 на інших середземноморських даних і повний провал у бореальних лісах Канади чи у мозаїчному лісостепу України. Mountrakis et al. (2023) систематично проаналізували перенесення моделей між біомами і показали, що типове падіння F1 при крос-біомному застосуванні становить 18-32 п.п. (Mountrakis et al., 2023, Remote Sensing).
Третя проблема: оперативна цінність моделі не зводиться до F1. Модель з F1 = 0,87, але середньою затримкою детекції 8 хвилин, оперативно цінніша за модель з F1 = 0,91 і затримкою 45 хвилин. Goodrich et al. (2024) запропонували комбіновану метрику Time-Weighted F1, що зважує точність на оперативну реактивність (Goodrich et al., 2024, Environmental Modelling and Software).
Federated learning та мультиджерельний фьюжн
Класична схема навчання: централізовано збираємо всі дані, тренуємо одну модель, розгортаємо. Для пожежного домену ця схема має дві проблеми: дані часто захищені обмеженнями власника (CCTV-оператори, державні агентства), і моделі, навчені на одному регіоні, погано переносяться на інші.
Федеративне навчання (federated learning, FL), запропоноване McMahan et al. (2017), вирішує першу проблему: локальні моделі тренуються на власних даних кожного учасника, а у центральний сервер передаються лише оновлення ваг (McMahan et al., 2017, AISTATS). Дані ніколи не виходять за межі організації-власника.
Для пожежного домену FL особливо актуальне у міжнародних колабораціях. Ahmed et al. (2024) описали пілотний проєкт FL-системи між Грецією, Португалією та Іспанією для крос-валідації моделей детекції диму (Ahmed et al., 2024, Engineering Applications of AI). Перші результати показують поліпшення крос-біомної генералізації на 6-9 п.п. F1 порівняно з локальними моделями.
Окремий випадок мультиджерельного фьюжну — об’єднання даних різної модальності: супутникових знімків, наземних камер, метео-полів, історичних карт пожеж. Graph Neural Networks та Transformer-моделі типу Cross-Attention Fusion демонструють поліпшення комбінованої продуктивності на 4-12 п.п. порівняно з підсумовуванням окремих модальностей. Zhang et al. (2024) дали технічний огляд таких архітектур для дистанційного зондування катастроф (Zhang et al., 2024, IEEE TGRS).
Платформи та інструментарій
Google Earth Engine залишається найбільш доступною платформою для застосування ML до супутникових даних. Документація на developers.google.com/earth-engine; API підтримує TensorFlow та PyTorch інференс через хмарні воркери. Для оперативного моніторингу пожеж рекомендуємо комбінацію GEE для попередньої обробки знімків та локальної інференс-інфраструктури для критичних рішень.
NASA Earth System Pathfinder та EOSDIS надають архівні та near-real-time дані MODIS, VIIRS, GOES, ICESat-2 та інших місій. Доступ через earthdata.nasa.gov. Для глибинного навчання критичним є Common Metadata Repository та Cloud-Optimized GeoTIFF формат.
Sentinel Hub (платформа на базі AWS) — комерційна альтернатива GEE для роботи з даними Sentinel-1, 2, 3, 5P. Зручний для прототипування DL-моделей завдяки уніфікованому інтерфейсу.
Open-source бібліотеки: torchgeo (інтеграція PyTorch з геопросторовими даними), raster-vision (фреймворк для семантичної сегментації супутників), mmsegmentation (сегментаційні моделі загального призначення з можливістю адаптації).
Регіональне порівняння впровадження AI
| Країна | DL для вигорілих площ | DL для CCTV | Edge AI на дронах | FL / cross-region |
|---|---|---|---|---|
| США | USGS BAECV+R&D, академічні лабораторії | ALERTCalifornia AI, низка комерційних провайдерів | Пілоти USFS UAS | Обмежено, переважно research |
| Канада | CWFIS R&D, NRCan | Точкові, BC + Alberta | Пілоти університетських лабораторій | Ні |
| ЄС | JRC EFFIS, Sentinel-2 BA, академічні | Греція, Португалія, Іспанія | Horizon Europe пілоти | Так, проєкти Horizon |
| Австралія | CSIRO, BoM, університети | Точкові, NSW + VIC | Дослідницькі | Обмежено |
| Бразилія | INPE, академічні | Пілоти IBAMA, обмежено | Ні (бюджет) | Через WGCapD/CEOS |
Загальна картина: глибинне навчання у пожежному домені досягло технологічної зрілості у дослідницькому циклі, але оперативне впровадження у державних агентствах усе ще обмежене. Причини — регуляторна (моделі мають бути валідованими і пояснюваними), бюджетна (GPU-інфраструктура коштує дорого) і кадрова (мало інженерів ML, які знають специфіку дистанційного зондування).
Коли DL допомагає, а коли — ні
Чесна оцінка: DL допомагає там, де (а) є великий обсяг анотованих даних, (б) задача є нелінійною та контекстуальною, (в) є GPU-інфраструктура для навчання та інференсу, (г) операційна вартість false positive не катастрофічна.
DL не допомагає або погіршує ситуацію там, де (а) дані обмежені і неоднорідні, (б) задача добре формалізована фізичним моделлю, (в) регуляторне середовище вимагає прозорості рішень, (г) латентність критична і edge-обчислення обмежені.
Конкретні приклади:
Допомагає: сегментація вигорілих площ на Sentinel-2 у мозаїчних ландшафтах; виявлення диму на CCTV у комплексних фонах; крос-сенсорний фьюжн для пріоритезації пожежних подій; пост-фактум моделювання поширення на основі історичних патернів.
Не допомагає: базова активна детекція гарячих плям VIIRS/MODIS (фізичні алгоритми точніші і пояснюваніші); прогноз метеопараметрів для FWI (числові моделі WRF або обчислювальні дані ECMWF неперевершені); оцінка PM2.5 від диму (тут гібридні моделі XGBoost/LSTM з фізичними плюмо-моделями типу HYSPLIT кращі за чистий DL).
Liu et al. (2024) дали критичну метаоцінку DL у дистанційному зондуванні і підкреслили пастку «modeling on demand»: як тільки команда отримала GPU, з’являється спокуса застосувати DL до всіх задач, навіть до тих, де простіше і точніше працює фізика чи класична статистика (Liu et al., 2024, Remote Sensing of Environment).
Обмеження та відкриті проблеми
Доменний шифт. Модель, навчена на даних 2018-2022, починає деградувати на даних 2024-2026 через зміну сенсорних калібрувань, кліматичні зрушення, нові режими пожежної поведінки. Стратегія continual learning з періодичним fine-tuning на свіжих даних усе ще не стандартизована.
Інтерпретованість. SHAP, Grad-CAM та інші техніки пояснень дають часткову інтуїцію, але не задовольняють регуляторних вимог типу EU AI Act для high-risk систем. Hoffman et al. (2024) підкреслюють, що для систем підтримки рішень у цивільному захисті традиційні XAI-методи недостатні (Hoffman et al., 2024, Information Fusion).
Енергоспоживання та екологічна вартість. Тренування великого Transformer для сегментації може споживати 10-50 МВт-год електрики. Strubell et al. (2019) ще на ранньому етапі звернули увагу на вуглецевий слід DL-моделей (Strubell et al., 2019, ACL). Для оперативної детекції пожеж критично важливо балансувати точність моделі та її енерговитратність.
Adversarial vulnerability. CNN-моделі вразливі до adversarial-атак: невеликі цілеспрямовані модифікації пікселів можуть змусити модель пропустити пожежу або згенерувати false positive. У контексті критичної інфраструктури це окремий клас ризиків, який потребує адресування на рівні архітектури системи.
Дані та анотація. Датасети типу MTBS, EUR-MED Burned Area, FIRESENSE та інші охоплюють переважно ландшафти Північної Америки, Середземномор’я та Австралії. Для лісостепової України, бореальних лісів Полісся, торфових боліт Чорнобильської зони відкритих анотованих датасетів дуже мало. Це робить розробку моделей для українського контексту частково custom-завданням.
Український контекст: WildFiresUA та академічна співпраця з ДНУ
WildFiresUA свідомо обрав гібридну стратегію: фізичні моделі (FLEXPART для диму, HYSPLIT для траєкторій, WRF для метеополів) як основа, доповнена машинним навчанням на двох рівнях. На оперативному рівні XGBoost та LSTM-моделі прогнозують концентрації PM2.5 у точках наземних сенсорів на горизонті 6-72 години. На дослідницькому рівні наша команда у партнерстві з академічною лабораторією Дніпровського національного університету ім. Олеся Гончара досліджує застосування CNN до сегментації вигорілих площ на Sentinel-2 для умов українського лісостепу.
Чому саме гібрид? Тому що це чесний компроміс між точністю та оперативністю. Для прогнозу PM2.5 у Києві на наступні 24 години LSTM на історії сенсорних даних плюс метеополів дає RMSE близько 8-12 мкг/м³, тоді як чистий чисельний підхід на FLEXPART з оцінкою емісій вимагає в 5-10 разів більше обчислювального часу при подібній точності. Для сегментації вигорілих площ у Харківській чи Запорізькій областях класичний dNBR пропускає 18-25% контурів через гетерогенність ландшафту, тому CNN-фільтрація вторинного рівня дає реальний приріст.
Ми НЕ використовуємо DL для активної детекції гарячих плям: тут ми покладаємося на VIIRS FIRMS та продукти EUMETSAT MTG-I1 з фізичними алгоритмами. Ми НЕ використовуємо DL для прогнозу метеополів: тут ми використовуємо WRF з даними Укргідрометцентру та ECMWF. Ми НЕ використовуємо DL для оцінки емісій від пожеж: тут ми використовуємо Wiedinmyer-style emission factors і прив’язку до площі та типу пального.
Цей розподіл — не догма, а результат тверезого аналізу того, де DL дає реальний приріст, а де лише додає ризик помилки і втрату прозорості. Дослідницькі експерименти у партнерстві з ДНУ дозволяють нам поетапно розширювати DL-периметр там, де доказова база достатня.
Висновок
Глибинне навчання у пожежному домені перейшло від експериментальної до зрілої технології у частині сегментації вигорілих площ та виявлення диму на CCTV. Для активної детекції гарячих плям, прогнозу метеополів та оцінки емісій фізичні алгоритми залишаються кращими. Гібридні архітектури, що поєднують фізичні моделі як первинний шар та DL як контекстуальний фільтр, дають оптимальний компроміс точності, прозорості та оперативності.
Для України, де ландшафтна гетерогенність робить прості індексні методи обмеженими, а ресурси для масштабних DL-операцій лімітовані, гібридна стратегія WildFiresUA з академічним партнерством ДНУ ім. Олеся Гончара є оптимальним підходом. Ми продовжуватимемо розширювати застосування DL там, де воно справді поліпшує оперативну детекцію, і утримуватися там, де додає шум без користі.
Українська стартап-екосистема: за матеріалами TechUkraine та AIN.ua — двох провідних видань про український tech, deep tech, climate tech і екологічні стартапи.