Ученые Массачусетского технологического института создают систему, которая может генерировать модели искусственного интеллекта для биологических исследований

Предыдущее изображение Следующее изображение

Можно ли создавать модели машинного обучения без опыта машинного обучения?

Джим Коллинз, профессор медицинской инженерии и науки Термеера на факультете биологической инженерии Массачусетского технологического института и руководитель факультета биологических наук в клинике машинного обучения в здравоохранении Абдула Латифа Джамиля (клиника Джамиля), вместе с рядом коллег решил заняться проблемой эту проблему, когда сталкиваешься с подобной загадкой. Статья в открытом доступе о предложенном ими решении под названием BioAutoMATED была опубликована 21 июня в журнале Cell Systems.

Привлечение исследователей в области машинного обучения может оказаться трудоемким и финансово затратным процессом для научных и инженерных лабораторий. Даже если эксперт по машинному обучению выберет подходящую модель, отформатирует набор данных для модели и последующую его точную настройку, это может кардинально изменить работу модели и потребует много работы.

«Сколько времени в вашем проекте машинного обучения вы обычно тратите на подготовку и преобразование данных?» — спрашивает курс Google 2022 года по основам машинного обучения (ML). Предлагаются два варианта: «Меньше половины времени проекта» или «Более половины времени проекта». Если вы догадались о последнем, вы были бы правы; Google заявляет, что форматирование данных занимает более 80 процентов времени проекта, и это даже не учитывая время, необходимое для формулирования проблемы с точки зрения машинного обучения.

«Чтобы найти подходящую модель для нашего набора данных, потребуется много недель усилий, и это действительно непомерный шаг для многих людей, которые хотят использовать машинное обучение или биологию», — говорит Жаклин Валери, аспирантка пятого курса. биологической инженерии в лаборатории Коллинза, который является первым соавтором статьи.

BioAutoMATED — это автоматизированная система машинного обучения, которая может выбрать и построить подходящую модель для заданного набора данных и даже взять на себя трудоемкую задачу предварительной обработки данных, сократив многомесячный процесс до нескольких часов. Системы автоматизированного машинного обучения (AutoML) все еще находятся на относительно молодой стадии разработки, и в настоящее время их использование в основном сосредоточено на распознавании изображений и текста, но в значительной степени не используется в подобластях биологии, отмечает первый соавтор и постдок из клиники Джамиль Луис Соенксен, доктор философии. '20.

«Фундаментальный язык биологии основан на последовательностях», — объясняет Соенксен, получивший докторскую степень на факультете машиностроения Массачусетского технологического института. «Биологические последовательности, такие как ДНК, РНК, белки и гликаны, обладают удивительным информационным свойством, поскольку они по своей сути стандартизированы, как алфавит. Многие инструменты AutoML разработаны для текста, поэтому имело смысл распространить их на [биологические] последовательности».

Более того, большинство инструментов AutoML могут исследовать и создавать только уменьшенные типы моделей. «Но с самого начала проекта вы не можете знать, какая модель лучше всего подойдет для вашего набора данных», — говорит Валери. «Объединив несколько инструментов в один общий инструмент, мы действительно предоставляем гораздо большее пространство поиска, чем любой отдельный инструмент AutoML мог бы обеспечить сам по себе».

Репертуар контролируемых моделей машинного обучения BioAutoMATED включает три типа: модели бинарной классификации (разделение данных на два класса), модели многоклассовой классификации (разделение данных на несколько классов) и модели регрессии (подбор непрерывных числовых значений или измерение силы ключевых взаимосвязей между переменные). BioAutoMATED даже может помочь определить, какой объем данных необходим для надлежащего обучения выбранной модели.

«Наш инструмент исследует модели, которые лучше подходят для небольших и разреженных наборов биологических данных, а также для более сложных нейронных сетей», — говорит Валери. Это преимущество для исследовательских групп с новыми данными, которые могут подходить или не подходить для задач машинного обучения. .

«Проведение новых и успешных экспериментов на стыке биологии и машинного обучения может стоить больших денег», — объясняет Соенксен. «В настоящее время лабораториям, ориентированным на биологию, необходимо инвестировать в значительную цифровую инфраструктуру и человеческие ресурсы, обученные AI-ML, прежде чем они смогут даже посмотрим, оправдаются ли их идеи. Мы хотим снизить эти барьеры для экспертов в области биологии». С BioAutoMATED исследователи имеют возможность проводить первоначальные эксперименты, чтобы оценить, стоит ли нанимать эксперта по машинному обучению для создания другой модели для дальнейших экспериментов.