Анализ на изображения с помощта на изкуствен интелект за контрол на качеството на клетъчните култури

В Cytion разбираме, че визуалната оценка на състоянието на клетъчните култури е от основно значение за производството на висококачествени клетки и клетъчни линии. Традиционният контрол на качеството, базиран на микроскопия, разчита до голяма степен на човешкия опит и субективното тълкуване, което може да варира при различните оператори и с течение на времето. Анализът на изображенията, задвижван от изкуствен интелект, трансформира този субективен процес в обективна, количествена и мащабируема система за контрол на качеството, която осигурява постоянно качество на продуктите във всички наши предложения за клетъчни линии. Като използваме алгоритми за дълбоко обучение, включително архитектури U-Net за сегментиране, модели ResNet-50 и EfficientNet за класификация, както и усъвършенствани техники за компютърно зрение, като трансферно обучение и ансамблови методи, можем да откриваме фини промени в клетъчната морфология, да идентифицираме замърсяването по-рано и да вземаме решения, основани на данни, за здравето на културата и готовността за приложения надолу по веригата. Нашите системи за изкуствен интелект обработват над 50 000 изображения месечно от нашето производство на клетки HeLa, HEK293 и други критични клетъчни линии, като осигуряват последователна оценка на качеството с точност, надвишаваща 95% по множество параметри.

Възможности за анализ с изкуствен интелект	Приложение за контрол на качеството	Предимство пред ръчната оценка
Автоматизирано измерване на конфлуентността	Определяне на оптималното време за пасаж	±2% точност срещу ±15-20% ръчно вариране
Класификация на морфологията	Откриване на фенотипни промени и диференциация	Идентифицира фини промени, невидими за човешкото око
Откриване на замърсяване	Ранно идентифициране на бактерии, гъбички и микоплазми	Откриване 24-48 часа по-рано от визуалната проверка
Оценка на жизнеспособността	Неинвазивен мониторинг на състоянието на клетките	Непрекъснат мониторинг без базирани на багрила тестове
Многопараметрично фенотипизиране	Изчерпателно характеризиране на клетъчни линии	Едновременен анализ на над 50 характеристики спрямо 3-5 ръчни

Революция на дълбокото обучение в анализа на клетъчни изображения

Прилагането на дълбоко обучение в анализа на изображения на клетъчни култури представлява фундаментална промяна в начина, по който подхождаме към контрола на качеството. За разлика от традиционните алгоритми за анализ на изображения, които изискват изрично програмиране на характеристиките за откриване, моделите за дълбоко обучение могат автоматично да научат съответните характеристики от хиляди обучителни изображения. В Cytion разработихме персонализирани архитектури на конволюционни невронни мрежи (CNN), базирани на доказани модели като U-Net за семантична сегментация (идентифициране на границите на клетките с точност на ниво пиксел), ResNet-50 за извличане на характеристики (изучаване на йерархични представяния от необработени пиксели) и EfficientNetB4 за задачи за класификация (разграничаване на здрави от стресирани клетки). Моделите ни са обучени върху обширни бази данни с изображения - понастоящем > 150 000 анотирани изображения, обхващащи над 200 вида клетки, множество пасажи (P2-P30), разнообразни условия на култивиране (стандартни, подложени на стрес, замърсени) и различни начини на изобразяване (фазово-контрастни, ярко поле, флуоресцентни). Тези модели постигат >95% точност при оценка на сливането, >92% чувствителност при откриване на замърсяване и >88% точност при класификация на морфологията. Процесът на обучение използва техники за увеличаване на данните (завъртане, обръщане, коригиране на яркостта, еластична деформация), за да се подобри устойчивостта на модела, и трансферно обучение от предварително обучени от ImageNet тегла, за да се ускори сходимостта. Обучението на модела се извършва на клъстери с графични процесори NVIDIA A100 с размери на партидите от 32-64 изображения и време за обучение от 12-48 часа в зависимост от сложността на модела, като се използва оптимизатор на Adam с планиране на скоростта на обучение и ранно спиране въз основа на резултатите от набора за валидиране.

Автоматизирано измерване на конфлуенцията и проследяване на растежа

Измерването на конфлуентността - определянето на процента от повърхността на културата, покрит от клетки - е една от най-критичните, но субективни оценки в клетъчните култури. В Cytion използваме архитектури на конволюционни невронни мрежи U-Net, специално разработени за задачи за семантична сегментация, като постигаме класификация на ниво пиксел на областите с клетки срещу фонови области с резултати Intersection over Union (IoU) над 0,90. Нашата реализация на U-Net включва свиващ се път (енкодер) с 4 етапа на намаляване на дискретизацията, използвайки 3×3 конволюции и 2×2 максимални обединения, и разширяващ се път (декодер) с увеличаване на дискретизацията и пропускане на връзки, които запазват пространствената информация от по-ранните слоеве. Мрежата е обучена върху ръчно анотирани изображения, в които експерти по клетъчни култури са маркирали границите на клетките, като се използва комбинация от бинарна кръстосана ентропия и функции за загуба Dice за справяне с дисбаланса на класовете. Обученият модел обработва изображения с размер 2048×2048 пиксела за <300 ms на графичен процесор, като генерира вероятностни карти по пиксели, които се праговат за създаване на двоични маски, от които се изчислява процентът на сливане като (клетъчни пиксели / общо пиксели) × 100. Това автоматизирано измерване на сливането постига точност в рамките на ±2 % при валидиране спрямо ръчно експертно анотиране, в сравнение с ±15-20 % вариации между различни човешки наблюдатели. Освен измерването на единична точка от време, нашата система проследява сливането с течение на времето, за да генерира криви на растежа (построяване на графика на сливането спрямо времето с подбиране на експоненциална крива), което позволява изчисляване на времето за удвояване, прогнозиране на оптималното време за пасаж (обикновено при 80-90 % сливане) и идентифициране на култури, които растат необичайно бавно (>2 стандартни отклонения под очакваната скорост на растеж), което може да показва стареене на клетъчната линия, проблеми с качеството на средата или проблеми с инкубатора. За нашия каталог " Клетки и клетъчни линии " това прецизно проследяване на растежа осигурява оптимално време за събиране на реколтата, което осигурява максимално качество и жизнеспособност на клетките.

Морфологичен анализ и стабилност на фенотипа

Клетъчната морфология предоставя богата информация за здравето, идентичността и функционалното състояние на клетките. В Cytion извличаме изчерпателни морфологични характеристики, като използваме алгоритми за компютърно зрение и извличане на характеристики, базирани на дълбоко обучение. След сегментиране на клетките изчисляваме класически морфологични дескриптори, включително площ на клетката (µm²), периметър (µm), кръглост (4π×площ/периметър²), съотношение на страните (главна/малка ос), плътност (площ/площ на изпъкналия корпус) и текстурни характеристики, базирани на матрици на съприкосновение на нива на сивото (GLCM), включително контраст, корелация, енергия и хомогенност. Освен това използваме конволюционни мрежи ResNet-50, предварително обучени на ImageNet и прецизно настроени на нашия набор от данни за клетъчни изображения, за да извлечем 2 048-измерни дълбоки характеристични вектори, които улавят фини морфологични модели, които не се описват лесно от ръчно създадени характеристики. Тези многомащабни характеристики (съчетаващи традиционна морфометрия с дълбоки характеристики) се въвеждат в класификатори Random Forest (100 дървета, критерий за примес на Джини) или Support Vector Machines (RBF ядро, C=1,0, gamma=auto), които разграничават нормалната морфология от аберантните фенотипи с >92% точност. За контрол на качеството поддържаме референтни морфологични профили за всяка клетъчна линия в нашия каталог - например клетките HeLa показват характерна епителна морфология със средна площ 450±80 µm², кръглост 0,65±0,12, докато клетките HEK293 показват площ 380±70 µm² с по-висока кръглост 0,72±0,10. За откриване на морфологичен дрейф се използва статистиката T² на Хотелинг, за да се провери дали морфологията на текущата партида се отклонява значително от референтното разпределение (праг p<0,05), като културите се маркират за преглед, когато се открият фенотипни промени, които могат да показват нежелана диференциация, генетичен дрейф или неоптимални условия на култивиране.

Ранно откриване на замърсяване

Замърсяването е една от най-сериозните заплахи за операциите с клетъчни култури, което може да доведе до загуба на култури, загуба на ресурси и компрометиране на експерименталните резултати. В Cytion сме разработили специализирани модели за откриване на замърсяване, обучени на кураторски набори от данни за замърсени култури, включително бактериално замърсяване (характеризиращо се с бързо увеличаване на малките частици, мътност на средата, промени в рН, видими като промени в цвета на средата, съдържаща фенолово червено), гъбично замърсяване (видимо като мицелни структури, спори) и микоплазмена инфекция (фини морфологични промени, намалена скорост на растеж, увеличена зърнистост). Нашата система за откриване използва EfficientNetB4 архитектури (16,8M параметри, комбинирано мащабиране на дълбочина, ширина и разделителна способност), обучени с помощта на двуетапен подход: първо, класификация в категории чисти срещу замърсени (бинарна загуба на кръстосана ентропия, постигане на AUC-ROC 0,96); второ, многокласна класификация, определяща типа на замърсяването (категорична кръстосана ентропия, 85 % точност в категориите бактерии/гъбички/микоплазма/квасове). Моделите анализират множество характеристики на изображенията, включително необичайни разпределения на частиците (открити чрез алгоритми за откриване на петна), промени във външния вид на средата (цветови промени, определени количествено в цветовото пространство LAB) и необичайни модели на клетъчна морфология. Анализът на времевите редове, сравняващ текущите изображения с 24-48-часовата историческа база, позволява откриването на развиващо се замърсяване, преди то да стане визуално очевидно за операторите, което обикновено осигурява 24-48 часа по-ранно предупреждение в сравнение с ръчната проверка. Когато вероятността за замърсяване надхвърли прага от 0,7, автоматичните сигнали уведомяват персонала по контрол на качеството чрез електронна поща и известия от LIMS, като задействат незабавно разследване, включващо визуално потвърждение, оцветяване по Грам (за бактериално замърсяване) и PCR тестване на микоплазма. Това наблюдение на замърсяването с помощта на изкуствен интелект е намалило свързаните със замърсяване загуби на партиди с 60 % в Cytion чрез по-ранно откриване и намеса, което е особено ценно за дългосрочни култури и проекти за разработване на клетъчни линии с висока стойност, при които замърсяването на късен етап от процеса би представлявало значителна загуба на ресурси.

Неинвазивна оценка на жизнеспособността

Традиционната оценка на жизнеспособността чрез използване на трипаново синьо или други мембранно-пропускливи багрила изисква вземане на проби от клетките от културата, което е деструктивно и ограничава времевата разделителна способност. В Cytion разработихме модели за прогнозиране на жизнеспособността, базирани на морфологията, които оценяват жизнеспособността на клетките от изображения на светло поле без етикети или фазово-контрастни изображения с помощта на машинно обучение. Подходът се базира на наблюдението, че умиращите и мъртвите клетки показват характерни морфологични промени: свиване на клетките, разкъсване на мембраната, цитоплазмена гранулация, загуба на адхезия между клетките и субстрата и повишено пречупване на светлината. Извлякохме 156 морфологични и текстурни характеристики от отделните сегментирани клетки, след което използвахме селекция на характеристики (рекурсивно елиминиране на характеристики с кръстосано валидиране), за да идентифицираме 35-те най-предсказуеми характеристики, включително площ на клетката, неправилност на периметъра, среден интензитет на пиксела, дисперсия на интензитета и текстурни дескриптори GLCM. Моделите за регресия с градиентно усилване (XGBoost с 200 оценки, скорост на обучение 0,1, максимална дълбочина 6), обучени по тези характеристики, предсказват процента жизнеспособност с R²=0,87 при валидиране спрямо златни стандартни измервания за изключване на трипановото синьо, извършени върху паралелни проби. Моделът е обучен върху 12 000 двойки изображение-жизнеспособност, които обхващат диапазони на жизнеспособност от 50 % до 99 % при различни видове клетки и номера на пасажи. За производствен мониторинг системата обработва изображения, заснемани на всеки 2-4 часа от системите за анализ на живи клетки IncuCyte, като генерира непрекъснати данни за тенденцията на жизнеспособност, без да се нарушава работата на културите. Внезапните спадове на жизнеспособността (>10% спад за 12 часа) предизвикват сигнали за разследване, докато тенденциите за постепенно намаляване дават информация за решенията за времето на пасиране - обикновено пасираме при >90% прогнозна жизнеспособност, за да поддържаме здравето на клетките. Този неинвазивен мониторинг на жизнеспособността е особено ценен за суспензионни култури и биореакторни системи, при които традиционното вземане на проби е по-разрушително, както и за скринингови експерименти, при които запазването на целостта на културата, докато се следи здравето на клетките, е от съществено значение.

Многопараметрично оценяване на качеството

Вместо да разчитат на единични показатели, системите с изкуствен интелект могат да интегрират множество параметри, получени от изображенията, в цялостни оценки на качеството. В Cytion разработихме цялостни модели за оценка на качеството, които комбинират конфлуентност (цел 80-90% за пасаж), морфологична оценка (скала 0-100, >75 показва нормална морфология), оценка на жизнеспособността (цел >90%), риск от замърсяване (праг на вероятност <0,1) и еднородност на културата (коефициент на вариация в размера/формата на клетките, цел <20%) в обща оценка на качеството, използвайки претеглени ансамблови методи. Ансамбълът комбинира прогнози от специализирани модели: U-Net confluence (тежест 0,25), ResNet-50 morphology classifier (тежест 0,30), EfficientNet contamination detector (тежест 0,25), XGBoost viability regression (тежест 0,15), като теглата се оптимизират чрез мрежово търсене върху издържани валидиращи набори, за да се постигне максимална корелация с експертните решения за КК. Окончателната оценка на качеството на качеството варира от 0 до 100 с автоматични правила за вземане на решения: оценка ≥85 = положителна (преминава се към пасиране/събиране на реколтата), 70-84 = гранична (маркира се за ръчен преглед), <70 = отрицателна (изследва се или се изхвърля). Тези многопараметрични оценки осигуряват обективни, количествени критерии за вземане на решения за пускане в производство - в Cytion културите трябва да постигнат резултат за QC ≥85, преди да преминат към следващия пасаж или окончателно събиране, което гарантира постоянно качество на продукта. Анализът на нашите производствени данни показва силна корелация (r=0,82) между оценките за QC на AI и показателите за ефективност на културите надолу по веригата, включително жизнеспособност след пасажа и успех на експанзията, което потвърждава прогностичната стойност на интегрирания подход за оценяване. Автоматизираната система за оценяване обработва пълни изображения на микроплаки (96 ямки) за 8-12 минути в сравнение с 45-60 минути за ръчна микроскопска инспекция, което дава възможност за вземане на решения за контрол на качеството в реално време, които поддържат производствените работни потоци ефективни.

Трансферно обучение и адаптиране на модела

Едно от предизвикателствата при прилагането на ИИ за анализ на клетъчни култури е необходимостта от големи набори от данни за обучение, особено за специализирани или редки клетъчни линии. Трансферното учене решава този проблем, като започва с модели, предварително обучени върху големи общи набори от данни за изображения (ImageNet с 1,4 млн. изображения, 1000 категории), след което се настройват върху изображения, специфични за клетъчните култури. В Cytion използваме широко трансферното обучение: инициализираме моделите си с предварително обучени от ImageNet тегла (напр. ResNet-50, EfficientNetB4), след което прецизираме крайните слоеве или цялата мрежа, използвайки нашите набори от данни за клетъчни изображения със значително намалени изисквания за данни за обучение. Например разработването на нов класификатор за морфология de novo може да изисква над 10 000 анотирани изображения, докато трансферното обучение постига сравними резултати с 1000-2000 изображения. Нашият протокол за фина настройка използва по-ниски скорости на обучение (1e-4 до 1e-5) в сравнение с обучението от нулата (1e-2 до 1e-3), обикновено се обучава за 20-50 епохи с ранно спиране въз основа на платото на загубите при валидиране и използва дискриминационни скорости на обучение, при които по-ранните слоеве (общи характеристики) се актуализират бавно, докато по-късните слоеве (специфични за клетките характеристики) се актуализират по-бързо. За нови клетъчни линии, добавени към нашия каталог " Клетки и клетъчни линии ", прилагаме непрекъснато обучение, при което моделите периодично се преобучават с натрупани изображения от производствени партиди, обикновено тримесечни актуализации, които включват 500-1000 нови валидирани изображения, като поддържат точността на модела с разширяването на нашето портфолио от клетъчни линии. Техниките за адаптиране на домейни като Maximum Mean Discrepancy (MMD) и обучението на противници помагат на моделите да се обобщават между платформите за изображения - ние обучаваме върху данни от множество микроскопски системи (IncuCyte, ImageXpress, EVOS), за да осигурим стабилна работа независимо от хардуера за придобиване.

Обясним изкуствен интелект и осигуряване на качеството

Въпреки че моделите за дълбоко обучение могат да постигнат впечатляваща точност, техният характер на "черна кутия" може да бъде проблематичен за приложения за контрол на качеството, където е важно да се разбере основата за решенията. В Cytion прилагаме техники за обясним изкуствен интелект (XAI), за да направим решенията на моделите разбираеми и надеждни. Използваме Grad-CAM (Gradient-weighted Class Activation Mapping), за да генерираме топлинни карти, подчертаващи кои области на изображението са повлияли най-много на решенията за класификация - например, показвайки, че откриването на замърсяване се фокусира върху частици от отломки и промени в морфологията, а не върху несъществени фонови характеристики. Стойностите на SHAP (SHapley Additive exPlanations) определят количествено приноса на всяка характеристика за отделните прогнози, като разкриват, че прогнозите за сливане зависят предимно от плътността на клетките и показателите за покритие, докато прогнозите за жизнеспособност имат голяма тежест върху целостта на мембраната и характеристиките на цитоплазмената текстура. За класификацията на морфологията визуализираме научените филтри в конволюционни слоеве, като показваме, че ранните слоеве откриват ръбове и текстури, докато по-дълбоките слоеве разпознават специфични за клетките модели, като образуване на епителни листове в HeLa клетки или невроноподобни процеси в диференцирани клетъчни типове. Тези визуализации на XAI служат за многобройни цели: изграждане на доверие сред персонала по контрола на качеството, който може да провери дали изкуственият интелект взема решения въз основа на биологично значими характеристики, улесняване на отстраняването на неизправности при появата на неочаквани прогнози чрез идентифициране на характеристиките, които са довели до решението, и предоставяне на учебен материал, показващ на новия персонал кои характеристики са важни за оценката на качеството. Поддържаме табло за управление на XAI, което показва обяснителни визуализации за маркирани или гранични култури, което позволява бърз експертен преглед с контекст за причините, поради които ИИ е направил своята оценка. Тази прозрачност е от решаващо значение за регулаторното приемане на базираното на изкуствен интелект качество - нашите пакети за валидиране за GMP производство включват представителни XAI визуализации, демонстриращи, че моделите вземат решения въз основа на научно обосновани критерии, съобразени с традиционните принципи за експертна оценка.

Интеграция на анализ с високо съдържание

Анализът на изображения, задвижван от AI, се интегрира безпроблемно с платформи за изображения с високо съдържание, които улавят множество флуоресцентни канали, извършват автоматизирано Z-подреждане и изобразяват цели многоямкови плаки с прецизна роботика. В Cytion използваме конфокални системи Molecular Devices ImageXpress Micro Confocal, които заснемат до 6 флуоресцентни канала (DAPI, FITC, TRITC, Texas Red, Cy5, Cy5.5) плюс пропусната светлина, с автоматизирано подреждане по Z (1-50 равнини, стъпки от 0,5-10 µm) и прецизно позициониране на XY стъпалото (точност ±1 µm). За приложения с високо съдържание, като например оценка на ефективността на диференциацията на стволовите клетки, използваме имунофлуоресцентно оцветяване за линейни маркери, последвано от анализ с помощта на изкуствен интелект: сегментиране на клетките въз основа на ядрено оцветяване (канал DAPI, алгоритъм на водораздела), класифициране на положителни спрямо отрицателни маркери въз основа на прагове на интензитета на флуоресценцията (оптимизирани по метода на Otsu) и количествено определяне на ефективността на диференциацията като процент на положителните за маркери клетки. Многоканалният анализ дава възможност за сложна фенотипизация - едновременно количествено определяне на ядрената морфология (размер, форма, ДНК кондензация от DAPI), локализацията на протеините (ядрена срещу цитоплазмена чрез анализ на колокализацията на каналите) и състоянието на клетъчния цикъл (въз основа на хистограми за съдържанието на ДНК от интегрирания интензитет на DAPI). За конструирани клетъчни линии с репортерни конструкти изобразяването с високо съдържание, комбинирано с анализ на ИИ, пресява библиотеки от клонове: придобиване на флуоресценция на GFP за потвърждаване на експресията на трансгена, измерване на разпределението на интензитета на експресията за оценка на клоналната хетерогенност (CV <25% цел) и корелация на експресията с морфологията за идентифициране на стабилни високоекспресиращи клонове. Нашите работни потоци с високо съдържание генерират 50-100 GB данни за изображения дневно, което изисква ефективно управление на данните (автоматична компресия, съхранение в облак на AWS S3) и високопроизводителни изчисления (ускорен анализ с GPU на клъстери NVIDIA A100, обработващи 200 изображения/минута). Комбинацията от хардуер за изображения с високо съдържание, генериращ богати многоизмерни набори от данни, и софтуер за анализ с изкуствен интелект, извличащ максимална информация от всяка сесия за изображения, ни позволява да извършваме сложни характеристики на клетъчни линии и контрол на качеството, които биха били невъзможни при ръчен анализ.

Времеви анализ и динамично наблюдение

Микроскопията във времето предоставя ценна информация за поведението на клетките във времето, включително за скоростта на делене, моделите на миграция и реакциите към промените в околната среда. В Cytion използваме системите Sartorius IncuCyte S3, които заснемат изображения на интервали от 15 минути до 2 часа в продължение на до 14 дни без прекъсване, като генерират набори от данни за времеви серии от 100-1000 изображения на ямка за култура. Анализът на изкуствения интелект на тези времеви последователности включва: проследяване на единични клетки с помощта на алгоритми като TrackMate или DeepCell за проследяване на отделни клетки в рамките на кадрите, измерване на времето за делене чрез откриване на митотични събития (закръгляне на клетките, последващо отделяне на дъщерни клетки), количествено определяне на скоростта и посоката на клетъчната миграция (средно квадратично изместване, дължина на персистенцията) и идентифициране на събития, свързани с клетъчна смърт (характерни промени в морфологията, отделяне на клетки). За проследяване на деленето постигаме 87% точност при откриването на митози с помощта на 3D конволюционни мрежи (архитектура C3D), които анализират пространствено-времеви характеристики в прозорци от 5 кадъра, което позволява автоматизирано изчисляване на времето за удвояване на популацията, което корелира силно (r=0,91) с ръчните измервания на броя на клетките. Анализът на миграцията използва алгоритми за оптичен поток и клетъчна сегментация, базирана на дълбоко обучение, за проследяване на клетъчните центроиди от кадър до кадър, като изчислява скорости (µm/час) и хемотактични индекси за миграционни анализи. Данните от времевия лапс разкриват динамично поведение, невидимо в изображенията с единични времеви точки: идентифицирахме клетъчни линии с циркадни осцилации в скоростта на пролиферация, открихме хетерогенни скорости на делене в културите, показващи субпопулационна структура, и характеризирахме кинетиката на отговора към промени в средата за клетъчни култури или третиране с лекарства. За контрол на качеството наблюдението във времето осигурява ранно предупреждение за проблеми - ние откриваме спиране на растежа (липса на деления за > 24 часа) или повишена смъртност (> 5 % клетки, показващи апоптотична морфология за 24 часа) много по-бързо от крайните измервания. Богатите времеви данни позволяват също така прогнозно моделиране: използване на кинетиката на ранната фаза на растежа (първите 24-48 часа) за прогнозиране на крайния добив на клетки, обучени чрез рекурентни невронни мрежи (архитектура LSTM със 128 скрити единици), които постигат 82% точност при прогнозиране дали културите ще достигнат целевата плътност в очакваното време.

Стандартизация на различни платформи за изображения

Различните микроскопи, камери и условия за визуализация могат да създадат изображения с различни характеристики, което потенциално обърква моделите на ИИ, обучени на изображения от конкретна платформа. В Cytion се справяме с междуплатформената променливост чрез цялостни конвейери за предварителна обработка и нормализация на изображения, реализирани на Python с помощта на библиотеките OpenCV и scikit-image. Нашият работен процес за стандартизация включва: корекция на плоското поле за компенсиране на неравномерното осветление (разделяне на всяко изображение на референтно изображение на плоското поле, изваждане на тъмния ток), нормализиране на цвета за изображения на ярко поле чрез хистограмно съвпадение или прехвърляне на цвета на Рейнхард, преизчисляване на интензитета в стандартизиран динамичен обхват ([0,1] float или [0,255] uint8) и хармонизиране на резолюцията чрез бикубична интерполация, когато изображенията от различни системи имат различни размери на пикселите. За фазово-контрастните изображения, които са особено чувствителни към оптичните настройки, използваме адаптация на домейна, базирана на CycleGAN, която превежда изображенията от външния вид на един микроскоп, за да съответстват на външния вид на друг микроскоп, обучен върху несдвоени набори от изображения от двете системи. Тази предварителна обработка гарантира, че моделите, обучени върху изображения от IncuCyte, работят еднакво добре върху изображения от ImageXpress или EVOS след стандартизиране. Потвърждаваме ефективността на стандартизацията, като измерваме влошаването на производителността на моделите, когато се прилагат към нови платформи: преди стандартизацията точността спада с 12-25 %, когато моделите, обучени върху една система, се прилагат върху друга; след стандартизацията влошаването намалява до <5 %. Нашият конвейер за стандартизация е автоматизиран в инфраструктурата ни за анализ на изображения, като прилага подходящи трансформации въз основа на тагове за метаданни, указващи микроскопа източник, така че изображенията от всички платформи да преминават през унифицирани работни потоци за анализ. Тази междуплатформена устойчивост е от съществено значение за операциите на няколко обекта и дава възможност за споделяне на обучени модели в общността на изследователите на клетъчни култури, като развива областта отвъд индивидуалните лабораторни реализации.

Интеграция с лабораторната автоматизация

Анализът на изображения, задвижван от изкуствен интелект, става още по-мощен, когато се интегрира с автоматизирани системи за клетъчни култури. В Cytion внедрихме автоматизация в затворен цикъл, при която системите за изображения IncuCyte в автоматизирани инкубатори (серия Liconic STX) заснемат изображения на всеки 2 часа, базираните на Python аналитични конвейери обработват изображения в рамките на 5 минути от придобиването им, използвайки контейнерни услуги за изводи (Docker на Kubernetes), а резултатите от анализа се подават към нашия контролер за автоматизация Hamilton VENUS чрез REST API за задействане на автоматизирани действия. Например, когато анализът на сливането показва, че културите са достигнали 85% (оптимална плътност на пасажа), системата автоматично генерира работен списък във VENUS, който планира робота за обработка на течности да извърши операции по пасажа (аспириране на средата, добавяне на трипсин, неутрализиране, преброяване на клетките, засяване на нови колби) в рамките на следващия 4-часов прозорец. Вероятността за откриване на замърсяване >0,7 незабавно поставя засегнатите култури под карантина, като ги премества в изолирани инкубаторни зони и генерира спешни сигнали, предотвратявайки разпространението на замърсяването. Оценките за жизнеспособност <80% спират автоматичната обработка и маркират културите за ръчен преглед от експерти. Тази интеграция създава автономни системи за управление на културите, които поддържат оптимално здраве на клетките с минимална човешка намеса - нашите интегрирани системи успешно култивират над 200 едновременни клетъчни линии, като 92 % от операциите по преминаване се извършват напълно автоматично, а човешко участие е необходимо само за 8 % от културите, маркирани за изключителни условия. Затвореният цикъл на работа включва блокировки за безопасност: Прогнозите с изкуствен интелект под праговете на доверие (обикновено 0,75) предизвикват ръчен преглед, а не автоматични действия, и всички автоматични решения се записват с данни за обяснение за проследяване и непрекъснато подобряване. Мониторингът на производителността на системата проследява ключови показатели, включително фалшиво положителни проценти за откриване на замърсяване (цел <2%), accuracy of confluence-based passage timing (>90% от пасажите се случват при 80-95% сливане) и корелация между прогнозираната и измерената жизнеспособност след пасажа (r>0,8), като тримесечните прегледи гарантират, че производителността остава в рамките на спецификациите.

Генериране на данни за обучение и анотиране

Ефективността на моделите с изкуствен интелект зависи в решаваща степен от качеството и количеството на данните за обучение. В Cytion поддържаме обширни, внимателно анотирани бази данни с изображения, които обхващат целия ни каталог от клетъчни линии при различни условия и номера на пасажи, като понастоящем общият им брой е > 150 000 анотирани изображения, представляващи > 2 000 часа експертни усилия за анотиране. Нашата стратегия за анотиране съчетава множество подходи: ръчно анотиране от експерти в областта на клетъчните култури с помощта на инструменти като LabelImg и VGG Image Annotator (VIA) за маски за сегментиране и етикети на класове, полуавтоматично анотиране, при което първоначалните прогнози на ИИ се преглеждат и коригират от експерти (намаляване на времето за анотиране с 60 % при запазване на точността), и активно обучение, при което моделите идентифицират изображения с висока несигурност на прогнозите за приоритетни усилия за анотиране, насочени към крайни случаи. Поддържаме стриктен контрол на качеството на анотациите с тестване на надеждността между експертите - трима независими анотатори маркират подмножества от 100 изображения, постигайки съгласие по Cohen's kappa >0,85 за задачите за класификация и IoU >0,90 за анотациите за сегментация, което потвърждава последователността на анотациите. С цел непрекъснато подобряване прилагаме протоколи за систематично събиране на данни: всички производствени изображения се архивират автоматично с метаданни (клетъчна линия, пасаж, дата, система за визуализация, условия на култивиране), редовните партиди се подлагат на експертно анотиране, което увеличава разнообразието на учебните набори, а изображенията, свързани с неуспехи в контрола на качеството или необичайни събития, се анотират приоритетно, за да се подобри обработката на крайни случаи. Увеличаването на данните разширява ефективния размер на набора за обучение: ротации (0-360°), хоризонтални/вертикални обръщания, регулиране на яркостта/контраста (±20 %), еластични деформации (симулиращи вариации в полето на микроскопа) и добавяне на Гаусов шум (σ=0,1) генерират увеличени варианти по време на обучението, като ефективно умножават 10 пъти данните за обучение и същевременно подобряват устойчивостта на модела на естествените вариации на изображението. Ние също така създаваме специализирани набори от данни за конкретни предизвикателства: наборът от данни за откриване на замърсяване включва над 5000 изображения на култури, замърсени с бактерии, гъбички и микоплазма; наборът от данни за рядка морфология улавя необичайни фенотипи, отломки, артефакти; наборът от данни за множество етапи проследява отделни клетъчни линии през P5-P30, като документира стареенето и фенотипния дрейф. Тази цялостна, добре подбрана инфраструктура от данни за обучение е от основно значение за точността и надеждността на нашите системи за контрол на качеството, задвижвани от изкуствен интелект.

Валидиране на модели и мониторинг на ефективността

Преди внедряването на модели с изкуствен интелект за вземане на решения за контрол на качеството, от съществено значение е строгото валидиране. В Cytion следваме структурирани протоколи за валидиране, съобразени с указанията на FDA за валидиране на софтуер и машинно обучение за медицински изделия (приложими принципи за GMP клетъчно производство): разделяме наборите от данни на набори за обучение (70 %), валидиране (15 %) и тестване (15 %) със стратификация, която гарантира, че всички клетъчни линии и условия са представени пропорционално; извършваме k-кратна кръстосана валидация (k=5) по време на разработката, за да оценим обобщаемостта на модела; оценяваме ефективността на задържани тестови набори, които никога не са виждани по време на обучението, като използваме изчерпателни показатели, включително точност, прецизност, отзоваване, F1-скор за задачи за класификация, R², MAE, RMSE за задачи за регресия и AUC-ROC криви за вероятностни прогнози; сравняване на прогнозите на изкуствения интелект със златни стандартни измервания (експертна ръчна оценка, поточна цитометрия за жизнеспособност, броене на микроскопска мрежа за сливане) при различни тестови условия; и провеждане на проспективно валидиране, при което моделите работят в режим на сянка, паралелно със стандартната контрола на качеството в продължение на 3 месеца преди внедряване, като се сравняват прогнозите с действителните резултати от контрола на качеството. След като бъде внедрен, ние прилагаме непрекъснато наблюдение на ефективността: автоматизирано сравнение на прогнозите на ИИ с периодични експертни оценки (20 % от културите се подлагат на паралелна експертна оценка), проследяване на доверителните оценки на прогнозите с течение на времето (намаляващата увереност може да показва отклонение на данните), корелационен анализ между качествените оценки на ИИ и показателите за ефективност на партидите надолу по веригата (жизнеспособност след пасажа, успех на експанзията) и тримесечни прегледи за валидиране, които изследват ефективността на модела при различни клетъчни линии и условия на работа. Поддържаме подробна документация за валидиране, включваща спецификации на архитектурата на модела, характеристики на данните за обучение (размер, разнообразие, качество на анотациите), резултати от бенчмаркове за ефективност и записи за контрол на промените за актуализации на модела. Когато производителността на модела се влоши под критериите за приемане (напр. точността на сливане спада под ±5 %, AUC за откриване на замърсяване <0,90), ние задействаме преквалификация или повторно калибриране: събиране на допълнителни данни за обучение от последните производствени партиди, преквалификация на моделите с актуализирани набори от данни, валидиране на актуализираните модели върху нови тестови набори и прилагане на контролирано внедряване, при което актуализираните модели първоначално работят в режим на сянка преди пълното им внедряване. Тази строга рамка за валидиране и мониторинг гарантира, че нашата QC, задвижвана от AI, поддържа точност и надеждност във времето въпреки развиващите се портфейли от клетъчни линии, промените в оборудването за изображения и естественото отклонение на данните.

Бъдещи разработки в областта на анализа на изображения с изкуствен интелект

Областта на анализа на клетъчни изображения, задвижван от изкуствен интелект, продължава да се развива бързо, като новите техники обещават още по-големи възможности. Разработките, които активно следим и пилотираме в Cytion, включват: анализ на 3D изображения с помощта на мрежи за обемно сегментиране (3D U-Net) за органоидни и сфероидни култури, което позволява измерване на размера на органоидите, морфологията и вътрешната им структура от Z-образните изображения; предсказване на флуоресценция без етикети, при което моделите, обучени на сдвоени изображения на ярко поле/флуоресценция, се научават да предсказват модели на флуоресценция само от изображения на ярко поле, което потенциално може да замени някои изисквания за оцветяване; техники за самоконтролирано обучение (SimCLR, BYOL), които научават полезни представяния от немаркирани изображения, като намаляват изискванията за анотация чрез изучаване на общи характеристики на клетъчните изображения без ръчни етикети; модели за основаване на клетъчна биология (аналогични на GPT за езика), предварително обучени на огромни набори от разнообразни данни за клетъчни изображения, които могат да бъдат прецизно настроени за специфични задачи с минимални данни; анализ в реално време по време на живото изобразяване с латентност на изводите <1 секунда, което позволява незабавна обратна връзка за автоматизирани експерименти; и прогнозни модели, прогнозиращи резултатите от културите часове или дни предварително от изображения от ранни фази, обучени на надлъжни набори от данни, свързващи ранните характеристики на изображенията с качеството на крайната партида. Проучваме също така мултимодална интеграция, комбинираща микроскопски изображения с данни за молекулярно профилиране (RNA-seq, протеомика), за да открием биомаркери за изображения, предсказващи молекулярни фенотипи, и невронни мрежи с физична информация, включващи биологични ограничения (динамика на клетъчния цикъл, кинетика на потребление на хранителни вещества), за да подобрим точността на прогнозите и да намалим изискванията за данни. Със съзряването на тези технологии очакваме да постигнем още по-ранно откриване на проблеми чрез незабележими за настоящите методи фини предсимптоматични промени, по-прецизни оценки на качеството чрез интегриране на различни начини за получаване на данни и по-задълбочено разбиране на факторите, влияещи върху успеха на културата. Тези постижения ще позволят на Cytion да продължи да доставя най-висококачествени клетки и клетъчни линии с още по-голяма последователност и ефективност, запазвайки лидерството си в областта на качеството и иновациите.