Аналіз зображень зі штучним інтелектом для контролю якості клітинних культур
У Cytion ми розуміємо, що візуальна оцінка здоров'я клітинної культури є фундаментальною для отримання високоякісних клітин і клітинних ліній. Традиційний контроль якості на основі мікроскопії значною мірою покладається на людський досвід і суб'єктивну інтерпретацію, яка може змінюватися в різних операторів і з плином часу. Аналіз зображень на основі штучного інтелекту перетворює цей суб'єктивний процес на об'єктивну, кількісну і масштабовану систему контролю якості, яка забезпечує стабільну якість продукції для всіх наших клітинних ліній. Використовуючи алгоритми глибокого навчання, включаючи архітектури U-Net для сегментації, моделі ResNet-50 та EfficientNet для класифікації, а також передові методи комп'ютерного зору, такі як навчання з перенесенням та ансамблеві методи, ми можемо виявляти тонкі зміни в морфології клітин, виявляти забруднення на ранніх стадіях та приймати рішення на основі даних про стан культури та її готовність до подальшого застосування. Наші системи штучного інтелекту обробляють понад 50 000 зображень щомісяця з нашого виробництва клітин HeLa, HEK293 та інших критичних клітинних ліній, забезпечуючи послідовну оцінку якості з точністю понад 95% за багатьма параметрами.
| Можливості ШІ-аналізу | Додаток для контролю якості | Перевага над ручною оцінкою |
|---|---|---|
| Автоматизоване вимірювання конфлюенції | Визначення оптимального часу пасажування | точність ±2% проти ±15-20% при ручному вимірюванні |
| Морфологічна класифікація | Виявлення фенотипових змін і диференціації | Виявлення тонких змін, невидимих для людського ока |
| Виявлення забруднення | Рання ідентифікація бактерій, грибків, мікоплазм | Виявлення на 24-48 годин раніше, ніж візуальний огляд |
| Оцінка життєздатності | Неінвазивний моніторинг здоров'я клітин | Безперервний моніторинг без аналізів на основі барвників |
| Багатопараметричне фенотипування | Комплексна характеристика клітинних ліній | Одночасний аналіз 50+ ознак проти 3-5 вручну |
Революція глибокого навчання в аналізі клітинних зображень
Застосування глибинного навчання для аналізу зображень клітинних культур є фундаментальним зрушенням у підході до контролю якості. На відміну від традиційних алгоритмів аналізу зображень, які вимагають чіткого програмування ознак для виявлення, моделі глибокого навчання можуть автоматично вивчати відповідні ознаки з тисяч навчальних зображень. У Cytion ми розробили власні архітектури згорткових нейронних мереж (CNN) на основі перевірених моделей, таких як U-Net для семантичної сегментації (визначення меж комірок з точністю до пікселя), ResNet-50 для вилучення ознак (навчання ієрархічних представлень з необроблених пікселів) та EfficientNetB4 для задач класифікації (розрізнення здорових та напружених клітин). Наші моделі навчаються на великих базах даних зображень - наразі понад 150 000 анотованих зображень, що охоплюють 200+ типів клітин, кілька номерів пасажів (P2-P30), різноманітні умови культивування (стандартні, стресові, забруднені) та різні способи візуалізації (фазово-контрастний, яскраве поле, флуоресценція). Ці моделі досягають >95% точності в оцінці злиття, >92% чутливості у виявленні забруднення і >88% точності в морфологічній класифікації. Процес навчання використовує методи доповнення даних (обертання, перевертання, регулювання яскравості, пружна деформація) для покращення надійності моделі та перенесення навчання з попередньо навчених вагових коефіцієнтів ImageNet для прискорення збіжності. Навчання моделі виконується на кластерах графічних процесорів NVIDIA A100 з розміром партії 32-64 зображення і часом навчання 12-48 годин залежно від складності моделі, з використанням оптимізатора Adam з плануванням швидкості навчання і достроковою зупинкою на основі продуктивності валідаційного набору.
Автоматизоване вимірювання конфлюенції та відстеження росту
Вимірювання конфлюенції - визначення того, який відсоток поверхні культури покритий клітинами - є однією з найбільш важливих, але суб'єктивних оцінок в культурі клітин. У Cytion ми використовуємо архітектуру згорткових нейронних мереж U-Net, спеціально розроблену для задач семантичної сегментації, досягаючи піксельної класифікації областей клітин і фону з показниками перетину над об'єднанням (Intersection over Union, IoU), що перевищують 0,90. Наша реалізація U-Net має звужуючий шлях (кодер) з 4 етапами дискретизації з використанням згорток 3×3 та максимального об'єднання 2×2, а також розширюючий шлях (декодер) з висхідною дискретизацією та пропусками, які зберігають просторову інформацію з попередніх шарів. Мережа навчається на вручну анотованих зображеннях, на яких вчені-експерти з клітинних культур позначили межі клітин, використовуючи комбінацію бінарної перехресної ентропії та функції втрат Дайс для обробки дисбалансу класів. Навчена модель обробляє зображення 2048×2048 пікселів за <300 мс на графічному процесорі, генеруючи попіксельні карти ймовірностей, які мають порогові значення для створення бінарних масок, на основі яких обчислюється відсоток злиття як (пікселі клітин / загальні пікселі) × 100. Це автоматизоване вимірювання злиття досягає точності в межах ±2% при перевірці на основі ручної експертної анотації, порівняно з ±15-20% варіації між різними спостерігачами-людьми. Крім одномоментного вимірювання, наша система відстежує злиття в часі для побудови кривих росту (графік залежності злиття від часу з експоненціальною підгонкою кривої), що дозволяє розрахувати час подвоєння, передбачити оптимальний час пасажу (зазвичай при 80-90% злиття) та ідентифікувати культури, які ростуть аномально повільно (>2 стандартних відхилень нижче очікуваної швидкості росту), що може свідчити про старіння клітинної лінії, проблеми з якістю середовища або проблеми з інкубатором. Для нашого каталогу клітин і клітинних ліній таке точне відстеження росту забезпечує оптимальний час збору, що максимізує якість і життєздатність клітин.
Морфологічний аналіз і стабільність фенотипу
Морфологія клітин надає багату інформацію про здоров'я, ідентичність та функціональний стан клітин. У Cytion ми виділяємо комплексні морфологічні ознаки за допомогою алгоритмів комп'ютерного зору та глибокого навчання на основі вилучення ознак. Після сегментації клітин ми обчислюємо класичні морфологічні дескриптори, включаючи площу клітини (мкм²), периметр (мкм), окружність (4π×площа/периметр²), співвідношення сторін (велика вісь/маленька вісь), твердість (площа/опукла площа корпусу), а також текстурні характеристики на основі матриць співпадіння сірих рівнів (GLCM), включаючи контраст, кореляцію, енергію та однорідність. Крім того, ми використовуємо згорткові мережі ResNet-50, попередньо навчені на ImageNet і точно налаштовані на нашому наборі даних клітинних зображень, для вилучення 2048 вимірних векторів глибоких ознак, які фіксують тонкі морфологічні патерни, що нелегко описати за допомогою ручних ознак. Ці різномасштабні ознаки (що поєднують традиційну морфометрію з глибинними ознаками) вводяться в класифікатори Random Forest (100 дерев, критерій домішок Джині) або опорні векторні машини (ядро RBF, C=1.0, гамма=авто), які відрізняють нормальну морфологію від аберантних фенотипів з точністю >92%. Для контролю якості ми підтримуємо еталонні морфологічні профілі для кожної клітинної лінії в нашому каталозі - наприклад, клітини HeLa мають характерну епітеліальну морфологію з середньою площею 450±80 мкм², циркулярність 0,65±0,12, в той час як клітини HEK293 мають площу 380±70 мкм² з більш високою циркулярністю 0,72±0,10. Виявлення морфологічного дрейфу використовує статистику T² Хотеллінга для перевірки того, чи суттєво відхиляється морфологія поточної партії від референтного розподілу (поріг р<0,05), позначаючи культури для перегляду при виявленні фенотипових змін, які можуть вказувати на небажану диференціацію, генетичний дрейф або субоптимальні умови культивування.
Раннє виявлення контамінації
Забруднення є однією з найсерйозніших загроз для роботи з культурами клітин, що потенційно може призвести до втрати культур, марних витрат ресурсів і компрометації результатів експериментів. У Cytion ми розробили спеціалізовані моделі виявлення забруднень, навчені на кураторських наборах даних забруднених культур, включаючи бактеріальне забруднення (характеризується швидким збільшенням дрібних частинок, помутнінням середовища, змінами рН, видимими як зміни кольору в середовищах, що містять феноловий червоний), грибкове забруднення (видиме як міцеліальні структури, спори) і мікоплазменну інфекцію (тонкі морфологічні зміни, зниження швидкості росту, підвищена зернистість). Наша система виявлення використовує архітектуру EfficientNetB4 (16,8 млн параметрів, складне масштабування глибини, ширини та роздільної здатності), навчену за допомогою двоетапного підходу: по-перше, класифікація на чисті та забруднені категорії (бінарна втрата перехресної ентропії, досягнення AUC-ROC 0,96); по-друге, багатокласова класифікація з визначенням типу забруднення (категоріальна перехресна ентропія, 85% точність для категорій бактерій, грибків, мікоплазми та дріжджів). Моделі аналізують численні особливості зображень, включаючи незвичайні розподіли частинок (виявлені за допомогою алгоритмів виявлення згустків), зміни зовнішнього вигляду носія (зсуви кольору, кількісно визначені в колірному просторі LAB) і аномалії в морфології клітин. Аналіз часових рядів, який порівнює поточні зображення з 24-48-годинними історичними базами, дозволяє виявити забруднення, що розвивається, до того, як воно стане візуально очевидним для операторів, зазвичай забезпечуючи попередження на 24-48 годин раніше в порівнянні з ручною перевіркою. Коли ймовірність забруднення перевищує поріг 0,7, автоматичні сповіщення повідомляють персонал відділу контролю якості електронною поштою та повідомленнями LIMS, запускаючи негайне розслідування, включаючи візуальне підтвердження, фарбування за Грамом (для бактеріального забруднення) і ПЛР-тестування на мікоплазму. Цей моніторинг забруднення, посилений ШІ, дозволив компанії Cytion зменшити втрати партій, пов'язані із забрудненням, на 60% завдяки більш ранньому виявленню та втручанню, що особливо цінно для довготривалих культур та проектів з розробки високоцінних клітинних ліній, де забруднення на пізніх етапах процесу може призвести до значних втрат ресурсів.
Неінвазивна оцінка життєздатності
Традиційна оцінка життєздатності за допомогою трипанового синього або інших мембранонепроникних барвників вимагає відбору зразків клітин з культури, що є руйнівним і обмежує часову роздільну здатність. У Cytion ми розробили моделі прогнозування життєздатності на основі морфології, які оцінюють життєздатність клітин на основі зображень яскравого поля без міток або фазово-контрастних зображень за допомогою машинного навчання. Підхід ґрунтується на спостереженні, що клітини, які вмирають або загинули, демонструють характерні морфологічні зміни: скорочення клітин, здуття мембрани, грануляція цитоплазми, втрата адгезії між клітиною та субстратом і підвищене заломлення світла. Ми виділили 156 морфологічних і текстурних ознак з окремих сегментованих клітин, а потім використали відбір ознак (Recursive Feature Elimination з перехресною перевіркою), щоб визначити 35 найбільш прогностичних ознак, включаючи площу клітини, нерівність периметра, середню інтенсивність пікселя, дисперсію інтенсивності та дескриптори текстури GLCM. Регресійні моделі з градієнтним підсиленням (XGBoost з 200 оцінками, швидкістю навчання 0,1, максимальною глибиною 6), навчені на цих ознаках, передбачають відсоток життєздатності з R²=0,87 при перевірці за допомогою золотого стандарту вимірювання виключення трипанового синього, виконаного на паралельних зразках. Модель була навчена на 12 000 парах "зображення-життєздатність", що охоплюють діапазони життєздатності від 50% до 99% для різних типів клітин і номерів пасажів. Для моніторингу виробництва система обробляє зображення, отримані кожні 2-4 години за допомогою систем аналізу живих клітин IncuCyte, генеруючи безперервні дані про тенденції життєздатності, не порушуючи культуру. Раптове падіння життєздатності (>10% зниження за 12 годин) викликає сповіщення для розслідування, в той час як тенденції поступового зниження інформують про час пасажування - ми зазвичай проводимо пасаж при >90% прогнозованої життєздатності для підтримки здоров'я клітин. Цей неінвазивний моніторинг життєздатності особливо цінний для суспензійних культур і біореакторів, де традиційний відбір зразків є більш руйнівним, а також для скринінгових експериментів, де збереження цілісності культури при одночасному моніторингу здоров'я клітин має важливе значення.
Багатопараметрична оцінка якості
Замість того, щоб покладатися на окремі показники, системи штучного інтелекту можуть інтегрувати декілька параметрів, отриманих на основі зображень, у комплексні оцінки якості. У Cytion ми розробили цілісні моделі оцінки якості, які об'єднують злиття (цільовий показник 80-90% для проходження), морфологічну оцінку (шкала від 0 до 100, >75 вказує на нормальну морфологію), оцінку життєздатності (цільовий показник >90%), ризик забруднення (поріг ймовірності <0,1) і однорідність культури (коефіцієнт варіації розміру/форми клітин, цільовий показник <20%) у загальний показник контролю якості з використанням методів зваженого ансамблю. Ансамбль поєднує в собі прогнози від спеціалізованих моделей: U-Net злиття (вага 0,25), морфологічний класифікатор ResNet-50 (вага 0,30), детектор забруднення EfficientNet (вага 0,25), регресія життєздатності XGBoost (вага 0,15), з вагами, оптимізованими за допомогою сіткового пошуку на валідаційних наборах, що не пройшли валідацію, для максимальної кореляції з експертними рішеннями з контролю якості. Підсумкова оцінка КК варіюється від 0 до 100, з автоматизованими правилами прийняття рішень: оцінка ≥85 = пройдено (продовжити проходження/збір), 70-84 = гранична (прапорець для ручного перегляду), <70 = не пройдено (дослідити або відкинути). Ці багатопараметричні оцінки забезпечують об'єктивні кількісні критерії для прийняття рішень про випуск продукції на виробництві - в Cytion культури повинні досягти показника КК ≥85 перед тим, як перейти до наступного пасажу або остаточного збору врожаю, що забезпечує стабільну якість продукції. Аналіз наших виробничих даних показує сильну кореляцію (r=0,82) між показниками якості штучного інтелекту та наступними показниками продуктивності культури, включаючи життєздатність після проходження пасажу та успіх розширення, що підтверджує прогностичну цінність інтегрованого підходу до оцінювання. Автоматизована система оцінювання обробляє повні зображення мікропланшетів (96 лунок) за 8-12 хвилин, порівняно з 45-60 хвилинами для ручного мікроскопічного контролю, що дозволяє приймати рішення щодо контролю якості в режимі реального часу, забезпечуючи ефективний виробничий процес.
Трансферне навчання та адаптація моделей
Однією з проблем при впровадженні ШІ для аналізу клітинних культур є потреба у великих наборах навчальних даних, особливо для спеціалізованих або рідкісних клітинних ліній. Трансферне навчання вирішує цю проблему, починаючи з моделей, попередньо навчених на великих загальних наборах зображень (ImageNet з 1,4 млн зображень, 1000 категорій), а потім допрацьовуючи їх на зображеннях, специфічних для клітинних культур. У Cytion ми широко використовуємо навчання з перенесенням: ми ініціалізуємо наші моделі вагами, попередньо навченими в ImageNet (наприклад, ResNet-50, EfficientNetB4), а потім допрацьовуємо остаточні шари або всю мережу, використовуючи наші набори зображень клітин зі значно зменшеними вимогами до навчальних даних. Наприклад, для розробки нового морфологічного класифікатора de novo може знадобитися більше 10 000 анотованих зображень, тоді як навчання з переносом досягає порівнянної продуктивності на 1000-2000 зображеннях. Наш протокол тонкого налаштування використовує нижчу швидкість навчання (1e-4 до 1e-5) порівняно з навчанням з нуля (1e-2 до 1e-3), зазвичай навчається протягом 20-50 епох з достроковою зупинкою на плато втрати валідності та використовує дискримінантну швидкість навчання, коли попередні шари (загальні ознаки) оновлюються повільно, тоді як пізніші шари (специфічні для клітин ознаки) оновлюються швидше. Для нових клітинних ліній, доданих до нашого каталогу "Клітини і клітинні лінії", ми впроваджуємо безперервне навчання, де моделі періодично перенавчаються на накопичених зображеннях з виробничих партій, як правило, щоквартальні оновлення, які включають 500-1000 нових валідованих зображень, підтримуючи точність моделі в міру розширення нашого портфоліо клітинних ліній. Методи адаптації до домену, такі як максимальна середня розбіжність (MMD) і навчання в змаганні, допомагають моделям узагальнювати зображення на різних платформах - ми тренуємося на даних з різних систем мікроскопів (IncuCyte, ImageXpress, EVOS), щоб забезпечити надійну продуктивність незалежно від обладнання для збору даних.
Зрозумілий ШІ та забезпечення якості
Хоча моделі глибокого навчання можуть досягати вражаючої точності, їхня природа "чорного ящика" може бути проблематичною для додатків контролю якості, де важливим є розуміння підстав для прийняття рішень. У Cytion ми впроваджуємо методи пояснюваного ШІ (XAI), щоб зробити рішення моделі зрозумілими та достовірними. Ми використовуємо Grad-CAM (Gradient-weighted Class Activation Mapping) для створення теплових карт, які показують, які області зображення найбільше вплинули на рішення про класифікацію - наприклад, показують, що виявлення забруднення фокусується на частинках сміття і змінах морфології, а не на несуттєвих фонових характеристиках. Значення SHAP (SHapley Additive exPlanations) кількісно оцінюють внесок кожної ознаки в окремі прогнози, показуючи, що прогнози злиття в першу чергу залежать від щільності клітин і показників покриття, в той час як прогнози життєздатності значною мірою залежать від цілісності мембрани і особливостей цитоплазматичної текстури. Для морфологічної класифікації ми візуалізуємо вивчені фільтри в згорткових шарах, показуючи, що ранні шари виявляють краї і текстури, в той час як глибші шари розпізнають специфічні для клітин патерни, такі як формування епітеліального листка в клітинах HeLa або нейроноподібні відростки в диференційованих типах клітин. Ці візуалізації XAI служать декільком цілям: зміцненню довіри серед персоналу з контролю якості, який може перевірити, що ШІ приймає рішення на основі біологічно релевантних ознак, полегшенню пошуку та усунення несправностей, коли виникають несподівані прогнози, шляхом визначення того, які ознаки вплинули на рішення, а також наданню навчального матеріалу, який показує новому персоналу, які ознаки важливі для оцінки якості. Ми підтримуємо інформаційну панель XAI, на якій відображаються пояснювальні візуалізації для позначених або прикордонних культур, що дає змогу проводити швидку експертну оцінку з контекстом щодо того, чому штучний інтелект зробив свою оцінку. Така прозорість має вирішальне значення для прийняття регуляторними органами контролю якості на основі ШІ - наші пакети валідації для виробництва GMP включають репрезентативні візуалізації XAI, що демонструють, як моделі приймають рішення на основі науково обґрунтованих критеріїв, узгоджених з традиційними принципами експертного оцінювання.
Інтеграція аналізу високого вмісту
Аналіз зображень на основі штучного інтелекту легко інтегрується з платформами візуалізації з високим вмістом, які захоплюють кілька флуоресцентних каналів, виконують автоматизоване Z-стекування і візуалізують цілі багатолункові планшети за допомогою точної робототехніки. У Cytion ми використовуємо мікроконфокальні системи ImageXpress від Molecular Devices, які реєструють до 6 каналів флуоресценції (DAPI, FITC, TRITC, Texas Red, Cy5, Cy5.5), а також світло, що проходить, з автоматизованим Z-стекінгом (1-50 площин, крок 0,5-10 мкм) і точним позиціонуванням столика по XY (точність ±1 мкм). Для задач з високим вмістом даних, таких як оцінка ефективності диференціювання стовбурових клітин, ми використовуємо імунофлуоресцентне фарбування лінійних маркерів з подальшим аналізом на основі штучного інтелекту: сегментація клітин на основі ядерного фарбування (канал DAPI, алгоритм вододілу), класифікація на маркер-позитивні і маркер-негативні на основі порогових значень інтенсивності флуоресценції (оптимізовано методом Оцу), а також кількісна оцінка ефективності диференціювання у відсотках від маркер-позитивних клітин. Багатоканальний аналіз дозволяє проводити складне фенотипування з одночасним кількісним визначенням ядерної морфології (розмір, форма, конденсація ДНК з DAPI), локалізації білків (ядерна vs цитоплазматична за допомогою аналізу колокалізації каналів) і стану клітинного циклу (на основі гістограм вмісту ДНК за інтегрованою інтенсивністю DAPI). Для інженерних клітинних ліній з репортерними конструкціями висококонтентна візуалізація в поєднанні зі штучним інтелектом дозволяє проводити скринінг бібліотек клонів: визначення флуоресценції GFP для підтвердження експресії трансгенів, вимірювання розподілу інтенсивності експресії для оцінки клональної гетерогенності (цільове значення CV <25%) та кореляція експресії з морфологією для ідентифікації стабільних високоекспресивних клонів. Наші робочі процеси з високим вмістом генерують 50-100 ГБ даних зображень щодня, що вимагає ефективного управління даними (автоматичне стиснення, хмарне зберігання в AWS S3) і високопродуктивних обчислень (аналіз з GPU-прискоренням на кластерах NVIDIA A100, що обробляють 200 зображень на хвилину). Поєднання апаратного забезпечення для візуалізації з високим вмістом, що генерує багаті багатовимірні набори даних, і програмного забезпечення для аналізу ШІ, що витягує максимум інформації з кожного сеансу візуалізації, дозволяє нам виконувати складну характеристику клітинних ліній і контроль якості, які були б неможливі при ручному аналізі.
Аналіз у часі та динамічний моніторинг
Мікроскопія в часі надає цінну інформацію про поведінку клітин у часі, включаючи швидкість поділу, схеми міграції та реакцію на зміни навколишнього середовища. У Cytion ми використовуємо системи Sartorius IncuCyte S3, які створюють зображення з інтервалом від 15 хвилин до 2 годин протягом 14 днів безперервно, генеруючи часові ряди даних по 100-1000 зображень на культуральну лунку. ШІ-аналіз цих часових послідовностей включає: відстеження окремих клітин за допомогою таких алгоритмів, як TrackMate або DeepCell, для відстеження окремих клітин у різних кадрах, вимірювання часу поділу шляхом виявлення мітотичних подій (округлення клітин, подальше відокремлення дочірніх клітин), кількісне визначення швидкості і спрямованості міграції клітин (середнє квадратичне зміщення, довжина персистенції), а також ідентифікацію подій загибелі клітин (характерні морфологічні зміни, відшарування клітин). Для відстеження поділу ми досягаємо 87% точності у виявленні мітозів за допомогою 3D згорткових мереж (архітектура C3D), які аналізують просторово-часові особливості в 5-ти кадрових вікнах, що дозволяє автоматично розраховувати час подвоєння популяції, який сильно корелює (r=0,91) з вимірюваннями ручного підрахунку клітин. Аналіз міграції використовує алгоритми оптичного потоку і сегментації клітин на основі глибокого навчання для відстеження клітинних центроїдів від кадру до кадру, обчислення швидкостей (мкм/год) і хемотаксичних індексів для аналізу міграції. Дані часових зрізів виявляють динамічну поведінку, невидиму на одномоментних зображеннях: ми ідентифікували клітинні лінії з циркадними коливаннями швидкості проліферації, виявили гетерогенні швидкості поділу в культурах, що вказують на структуру субпопуляцій, і охарактеризували кінетику відповіді на зміну середовища для культивування клітин або обробку препаратами. Для контролю якості моніторинг у часі забезпечує раннє попередження про проблеми - ми виявляємо зупинку росту (відсутність поділів протягом >24 годин) або підвищений рівень смертності (>5% клітин з апоптотичною морфологією за 24 години) набагато швидше, ніж вимірювання кінцевих точок. Багаті часові дані також дозволяють проводити прогнозне моделювання: використовуючи кінетику росту на ранніх стадіях (перші 24-48 годин) для прогнозування кінцевого виходу клітин, навчені за допомогою рекурентних нейронних мереж (архітектура LSTM з 128 прихованими блоками), можна досягти 82% точності в прогнозуванні того, чи досягнуть культури цільової щільності в очікувані терміни.
Стандартизація на різних платформах візуалізації
Різні мікроскопи, камери та умови візуалізації можуть створювати зображення з різними характеристиками, що потенційно може заплутати моделі ШІ, навчені на зображеннях з певної платформи. У Cytion ми вирішуємо проблему міжплатформної варіативності за допомогою комплексних конвеєрів попередньої обробки та нормалізації зображень, реалізованих на Python з використанням бібліотек OpenCV і scikit-зображень. Наш робочий процес нормалізації включає: корекцію плоского поля для компенсації нерівномірного освітлення (ділення кожного зображення на еталонне зображення плоского поля, віднімання темного струму), нормалізацію кольору для яскравих зображень за допомогою гістограмного узгодження або передачі кольору Рейнхарда, масштабування інтенсивності до стандартного динамічного діапазону ([0,1] float або [0,255] uint8), а також узгодження роздільної здатності за допомогою бікубічної інтерполяції, коли зображення з різних систем мають різний розмір пікселів. Для фазово-контрастних зображень, які особливо чутливі до оптичних налаштувань, ми використовуємо адаптацію доменів на основі CycleGAN, яка переводить зображення з одного мікроскопа у відповідність до вигляду іншого, навчена на непарних наборах зображень з обох систем. Ця попередня обробка гарантує, що моделі, навчені на зображеннях IncuCyte, однаково добре працюють на зображеннях ImageXpress або EVOS після стандартизації. Ми перевіряємо ефективність стандартизації, вимірюючи погіршення продуктивності моделі при застосуванні на нових платформах: до стандартизації точність падає на 12-25%, коли моделі, навчені на одній системі, застосовуються на іншій; після стандартизації погіршення знижується до <5%. Наш конвеєр стандартизації автоматизований в нашій інфраструктурі аналізу зображень, застосовуючи відповідні перетворення на основі тегів метаданих, що вказують на мікроскоп-джерело, так що зображення з усіх платформ проходять через уніфіковані робочі процеси аналізу. Така крос-платформенна надійність має важливе значення для роботи в декількох лабораторіях і дозволяє обмінюватися навченими моделями з усією спільнотою дослідників клітинних культур, виводячи цю галузь за рамки окремих лабораторних реалізацій.
Інтеграція з лабораторною автоматизацією
Аналіз зображень на основі штучного інтелекту стає ще потужнішим при інтеграції з автоматизованими системами клітинних культур. У Cytion ми впровадили замкнутий цикл автоматизації, де системи візуалізації IncuCyte в автоматизованих інкубаторах (серія Liconic STX) роблять знімки кожні 2 години, конвеєри аналізу на основі Python обробляють зображення протягом 5 хвилин після зйомки за допомогою контейнерних сервісів виведення (Docker на Kubernetes), а результати аналізу надходять до нашого контролера автоматизації Hamilton VENUS через REST API, щоб запустити автоматизовані дії. Наприклад, коли аналіз злиття показує, що культури досягли 85% (оптимальна щільність пасажу), система автоматично генерує робочий список у VENUS, який планує роботу з обробки рідини для виконання операцій пасажу (аспірація середовища, додавання трипсину, нейтралізація, підрахунок клітин, засів нових колб) протягом наступного 4-годинного вікна. Імовірність виявлення забруднення >0,7 негайно поміщає уражені культури на карантин, переміщуючи їх в ізольовані зони інкубатора та генеруючи термінові оповіщення, запобігаючи поширенню забруднення. Оцінки життєздатності <80% призупиняють автоматизовану обробку та позначають культури для ручної експертної оцінки. Ця інтеграція створює автономні системи управління культурами, які підтримують оптимальний стан клітин з мінімальним втручанням людини - наші інтегровані системи успішно культивують 200+ паралельних клітинних ліній, при цьому 92% операцій пасажування виконуються повністю автоматично, а участь людини потрібна лише для 8% культур, позначених як такі, що потребують виняткових умов. Замкнутий цикл роботи включає блокування безпеки: Прогнози ШІ нижче довірчого порогу (зазвичай 0,75) викликають ручний перегляд, а не автоматичні дії, а всі автоматизовані рішення реєструються з пояснювальними даними для відстеження та постійного вдосконалення. Моніторинг продуктивності системи відстежує ключові показники, включаючи частоту помилкових спрацьовувань при виявленні забруднення (цільовий показник <2%), accuracy of confluence-based passage timing (>90% проходжень відбувається при 80-95% злиття) і кореляцію між прогнозованою і виміряною життєздатністю після проходження (r>0,8), а щоквартальні огляди гарантують, що продуктивність залишається в межах специфікацій.
Генерація та анотація навчальних даних
Продуктивність моделей ШІ критично залежить від якості та кількості навчальних даних. У Cytion ми підтримуємо великі, ретельно анотовані бази даних зображень, що охоплюють весь наш каталог клітинних ліній за різних умов і номерів пасажів, які наразі налічують понад 150 000 анотованих зображень, що представляють понад 2 000 годин роботи експертів з анотування. Наша стратегія анотування поєднує в собі кілька підходів: ручне анотування експертами з клітинних культур з використанням таких інструментів, як LabelImg і VGG Image Annotator (VIA) для сегментації масок і міток класів, напівавтоматичне анотування, коли початкові прогнози ШІ переглядаються і коригуються експертами (що скорочує час анотування на 60% при збереженні точності), і активне навчання, коли моделі ідентифікують зображення з високим ступенем невизначеності прогнозу для пріоритетного анотування, зосередженого на крайніх випадках. Ми підтримуємо суворий контроль якості анотацій за допомогою тестування надійності між експертами - три незалежні анотатори позначають підмножини зі 100 зображень, досягаючи згоди за критерієм Коена kappa >0,85 для завдань класифікації та IoU >0,90 для анотацій сегментації, підтверджуючи узгодженість анотацій. Для постійного вдосконалення ми впроваджуємо систематичні протоколи збору даних: всі виробничі зображення автоматично архівуються з метаданими (клітинна лінія, пасаж, дата, система візуалізації, умови культивування), регулярні партії проходять експертну анотацію, що урізноманітнює навчальні набори, а зображення, пов'язані зі збоями контролю якості або незвичайними подіями, є пріоритетними для анотації, щоб покращити обробку крайніх випадків. Доповнення даних розширює ефективний розмір навчального набору: обертання (0-360°), горизонтальне/вертикальне перевертання, регулювання яскравості/контрастності (±20%), пружні деформації (імітуючи зміни поля мікроскопа) та додавання гаусівського шуму (σ=0,1) генерують доповнені варіанти під час навчання, ефективно збільшуючи навчальні дані в 10 разів, одночасно підвищуючи стійкість моделі до природних варіацій зображень. Ми також куруємо спеціалізовані набори даних для конкретних завдань: набір даних для виявлення забруднення включає понад 5 000 зображень бактеріальних, грибкових і мікоплазмових культур; набір даних з рідкісної морфології фіксує незвичні фенотипи, уламки, артефакти; набір даних для багатопасажів відстежує окремі клітинні лінії на стадії P5-P30, документуючи старіння і фенотиповий дрейф. Ця комплексна, добре керована інфраструктура навчальних даних має фундаментальне значення для точності та надійності наших систем контролю якості на основі ШІ.
Валідація моделей і моніторинг продуктивності
Перш ніж розгортати моделі ШІ для прийняття рішень щодо контролю якості, необхідно провести ретельну валідацію. У Cytion ми дотримуємося структурованих протоколів валідації, узгоджених з рекомендаціями FDA щодо валідації програмного забезпечення та машинного навчання для медичних пристроїв (застосовні принципи для виробництва клітин за стандартом GMP): ми розділяємо набори даних на навчальні (70%), валідаційні (15%) і тестові (15%) зі стратифікацією, що забезпечує пропорційне представлення всіх клітинних ліній і умов; виконуємо k-кратну перехресну валідацію (k=5) під час розробки для оцінки узагальненості моделі; оцінюємо продуктивність на відкладених тестових наборах, які ніколи не використовувалися під час навчання, використовуючи комплексні показники, включаючи точність, достовірність, пригадування, показник F1 для завдань класифікації, R², MAE, RMSE для завдань регресії та криві AUC-ROC для ймовірнісного прогнозування; порівнюємо прогнози ШІ з золотими стандартами (експертна ручна оцінка, проточна цитометрія на життєздатність, підрахунок сітки мікроскопа на злиття) в різних умовах тестування; і проводимо проспективну валідацію, коли моделі працюють в тіньовому режимі паралельно зі стандартним контролем якості протягом 3 місяців перед розгортанням, порівнюючи прогнози з фактичними результатами контролю якості. Після розгортання ми впроваджуємо безперервний моніторинг продуктивності: автоматизоване порівняння прогнозів ШІ з періодичними експертними оцінками (20% культур проходять паралельну експертну оцінку), відстеження показників достовірності прогнозів у часі (зниження достовірності може свідчити про дрейф даних), кореляційний аналіз між показниками якості ШІ та наступними показниками продуктивності партії (життєздатність після пасажу, успіх розширення), а також щоквартальні валідаційні огляди, що вивчають продуктивність моделі для різних клітинних ліній та умов експлуатації. Ми ведемо детальну валідаційну документацію, включаючи специфікації архітектури моделі, характеристики навчальних даних (розмір, різноманітність, якість анотацій), результати порівняльного аналізу продуктивності, а також записи контролю змін для оновлення моделі. Коли продуктивність моделі погіршується нижче критеріїв прийнятності (наприклад, точність злиття падає нижче ±5%, AUC виявлення забруднення <0,90), ми запускаємо перенавчання або перекалібрування: збираємо додаткові навчальні дані з останніх виробничих партій, перенавчаємо моделі на оновлених наборах даних, перевіряємо оновлені моделі на нових тестових наборах і впроваджуємо контрольоване розгортання, де оновлені моделі спочатку працюють у тіньовому режимі перед повним розгортанням. Ця сувора система валідації та моніторингу гарантує, що наша система контролю якості зі штучним інтелектом зберігає точність і надійність з часом, незважаючи на еволюцію портфоліо клітинних ліній, зміну обладнання для візуалізації та природний дрейф даних.
Майбутні розробки в галузі аналізу зображень зі штучним інтелектом
Сфера аналізу зображень клітин зі штучним інтелектом продовжує стрімко розвиватися, а нові методи обіцяють ще більші можливості. Серед розробок, які ми активно відстежуємо і пілотуємо в Cytion, можна виділити наступні: 3D-аналіз зображень з використанням мереж об'ємної сегментації (3D U-Net) для органоїдних і сфероїдних культур, що дозволяє вимірювати розмір, морфологію і внутрішню структуру органоїдів на основі зображень Z-стеку; прогнозування флуоресценції без міток, коли моделі, навчені на парних зображеннях яскравого поля/флуоресценції, вчаться прогнозувати патерни флуоресценції лише на основі зображень яскравого поля, що потенційно може замінити деякі вимоги до фарбування; методи самоконтролюючого навчання (SimCLR, BYOL), які вивчають корисні зображення на немічених зображеннях, що дозволяє зменшити вимоги до анотації, оскільки вони вивчають основні ознаки клітинних зображень без використання ручних міток; фундаментальні моделі для клітинної біології (аналог GPT для мови), попередньо навчені на величезних наборах різноманітних зображень клітин, які можуть бути точно налаштовані для конкретних завдань з мінімальною кількістю даних; аналіз в реальному часі під час живої візуалізації з затримкою висновку <1 секунди, що забезпечує негайний зворотний зв'язок для автоматизованих експериментів; і предиктивні моделі, що прогнозують результати вирощування культури за кілька годин або днів наперед на основі зображень на ранніх стадіях, навчені на поздовжніх наборах даних, пов'язуючи особливості ранніх зображень з якістю кінцевої партії. Ми також досліджуємо мультимодальну інтеграцію, що поєднує мікроскопічні зображення з даними молекулярного профілювання (РНК-секвенування, протеоміка) для виявлення біомаркерів зображень, що прогнозують молекулярні фенотипи, та фізично-інформовані нейронні мережі, що враховують біологічні обмеження (динаміку клітинного циклу, кінетику споживання поживних речовин) для підвищення точності прогнозування та зменшення вимог до даних. У міру розвитку цих технологій ми очікуємо досягти ще більш раннього виявлення проблем за допомогою тонких передсимптомних змін, невидимих для сучасних методів, більш точних оцінок якості завдяки інтеграції різноманітних способів отримання даних і глибшого розуміння факторів, що впливають на успіх культури. Ці досягнення дозволять Cytion продовжувати надавати клітини та клітинні лінії найвищої якості з ще більшою послідовністю та ефективністю, зберігаючи лідерство в галузі якості та інновацій.