^
Fact-checked
х

Весь контент Web2Health проверяется медицинскими экспертами, чтобы обеспечить максимально возможную точность и соответствие фактам.

У нас есть строгие правила по выбору источников информации и мы ссылаемся только на авторитетные сайты, академические исследовательские институты и, по возможности, доказанные медицинские исследования. Обратите внимание, что цифры в скобках ([1], [2] и т. д.) являются интерактивными ссылками на такие исследования.

Если вы считаете, что какой-либо из наших материалов является неточным, устаревшим или иным образом сомнительным, выберите его и нажмите Ctrl + Enter.

Голос как анализ: ранние сигналы рака и доброкачественных поражений

Медицинский рецензент, редактор:
Последняя редакция: 12.08.2025
Опубликовано: 2025-08-12 08:13

Исследователи из Орегонского университета здоровья и науки проанализировали записи речи из нового общедоступного набора Bridge2AI-Voice и нашли простую акустическую примету, которая может выдавать патологию голосовых складок. Речь о показателе harmonics-to-noise ratio (HNR) — соотношении «музыкальных обертонов» к шуму. Его уровень и вариабельность отличали голос людей с раком гортани и доброкачественными поражениями от здоровых и некоторых других голосовых расстройств. Эффект особенно явно проявился у цисгендерных мужчин; у женщин статистической значимости не хватило — авторы винят малый объём выборки и зовут к расширению данных. Работа вышла как краткий отчёт в Frontiers in Digital Health

Фон исследования

  • Почему вообще искать «голосовые маркёры». Охриплость — частая жалоба. Причины разные: от простуды и рефлюкса до узелков/полипов и рака гортани. Сейчас путь к диагнозу — это визит к ЛОРу и эндоскопия (камера в нос/горло). Она точная, но не всегда быстро доступна и не годится для домашнего самоконтроля. Нужен предскрининг: простой способ понять, кому идти к врачу в первую очередь.
  • Что такое голосовой биомаркер. Речь — это сигнал, который легко записать на телефон. По его «рисунку» можно судить о том, как колеблются голосовые складки. Поражения делают колебания неровными: появляется больше «шума», меньше «музыки».
  • Почему важны новые датасеты. Раньше подобные работы опирались на маленькие, «домашние» выборки — модели получались хрупкими. Bridge2AI-Voice — большой, многоцентровой, этически собранный набор аудиозаписей с привязкой к диагнозам. Он создан как «общий полигон», чтобы наконец обучать и проверять алгоритмы на больших и разнородных данных.
  • Где главные трудности.
    • Голос меняется от микрофона, шума комнаты, простуды, курения, языка, пола и возраста.
    • Женских данных традиционно меньше, а женский голос выше по частоте — метрики ведут себя иначе.
    • Ни один «домашний» тест не заменит осмотра и не ставит диагноз — максимум помогает решать: «нужно ли срочно к ЛОРу?».
  • Зачем это клинике и пациентам. Если по короткой записи можно отобрать людей с высоким риском узлов/опухоли на приоритетный приём, это ускорит диагностику, сократит ненужные направления и даст инструмент самонаблюдения между визитами (после операции, при терапии).
  • Куда это должно прийти. К валидированным приложениям/модулям телемедицины, которые:
    1. пишут речь по стандарту (фраза + протяжное «а-а-а»),
    2. считают базовые признаки (HNR, джиттер, шиммер, F0),
    3. выдают рекомендацию обратиться к специалисту при тревожном профиле,
    4. ведут динамику после лечения.

Идея простая: «дать телефону ухо ЛОР-врача» — не для диагноза, а чтобы не пропустить тех, кому нужна быстрая очная помощь.

Что именно сделали

  • Взяли первый релиз многоцентрового, этически собранного датасета Bridge2AI-Voice — флагманского проекта NIH, где голосовые записи связаны с клинической информацией (диагнозы, анкеты и др.). 
  • Сформировали две аналитические выборки:
    1. «рак гортани / доброкачественные узлы / здоровые»;
    2. «рак или доброкачественные узлы» против спастической дисфонии и паралича голосовой складки (другие частые причины охриплости). 
  • Из стандартизованных фраз выделили базовые голосовые признаки: основной тон (F0), джиттер, шиммер и HNR, сравнили группы непараметрической статистикой. Итог: наиболее устойчивые различия пришлись на HNR и F0, причём HNR и его изменчивость лучше всего отделяли доброкачественные поражения как от нормы, так и от рака гортани. У мужчин эти сигналы были отчётливее.

Почему это важно

  • Ранняя проверка без зонда. Сейчас путь к диагнозу часто означает назоэндоскопию и, при подозрении, биопсию. Если простые акустические признаки в сочетании с ИИ смогут отбирать тех, кому эндоскопия нужна в первую очередь, пациенты доберутся до ЛОР-врача быстрее, а лишние направления сократятся. Это дополнение, а не замена врача. 
  • Большие данные для голоса. Bridge2AI-Voice — редкий проект, где голос собирают по единым протоколам и связывают с диагнозами; данные доступны исследователям через PhysioNet / Health Data Nexus. Это ускоряет разработку надежных голосовых биомаркеров вместо «чудо-приложений» на маленьких выборках. 

А что такое HNR?

Когда мы говорим, голосовые складки вибрируют и создают обертоны (гармоники). Но вибрация никогда не идеальна — в сигнале всегда есть шум. HNR — это просто насколько в голосе больше «музыки», чем «шипения». При поражениях складок вибрация становится менее ровной — шума больше, HNR падает, а его прыжки (вариабельность) растут. Именно этот паттерн и поймали авторы. 

Важные оговорки

  • Это пилотный, разведочный анализ: без клинической валидации, с ограничениями по выборке женщин — поэтому у них эффекты не вышли значимыми. Нужны крупнее и разнообразнее данные и «прожарка» моделей в разных клиниках и на разных языках.
  • Голос — штука «многозначная»: на него влияют простуда, курение, рефлюкс, микрофон, шум в комнате. Любой «домашний тест» должен уметь учитывать контекст — и всё равно служить фильтром для направления к ЛОРу, а не диагонозом-по-клику.

Что дальше

  • Расширять датасет (в том числе по женщинам и возрастам), стандартизовать задания и акустику (чтение фразы, длительное «а-а-а» и т. п.), пробовать мультимодальные модели (голос + анкетные симптомы/факторы риска).
  • Связать акустические признаки с результатами осмотра (эндоскопия, стробоскопия) и динамикой после лечения — чтобы HNR-профиль пригодился и для мониторинга.
  • Продолжать «открытую науку»: Bridge2AI-Voice уже выкладывает версии датасета и инструменты — это шанс быстро дойти до реальных пилотов в клиниках. 
 

Вывод

По голосу действительно можно «услышать» беду с голосовыми складками — и, возможно, раньше направить человека к нужному специалисту. Пока это красивая зацепка (HNR и его вариабельность), но благодаря большим открытым данным у голосовых биомаркеров наконец появился шанс стать надёжным инструментом скрининга. 

Источник: Jenkins P. и соавт. Voice as a Biomarker: Exploratory Analysis for Benign and Malignant Vocal Fold Lesions. Frontiers in Digital Health, 2025 (принята к публикации). Данные — Bridge2AI-Voice (NIH/PhysioNet).