网问答>>李飞飞新论文「AI医生」诊断抑郁症,准确率超过80%,可移植到手机端
问题
已解决

李飞飞新论文「AI医生」诊断抑郁症,准确率超过80%,可移植到手机端

时间:2025-11-20 21:20:53
李飞飞新论文「AI医生」诊断抑郁症,准确率超过80%,可移植到手机端
最佳回答
李飞飞团队研发的「AI医生」通过多模态技术诊断抑郁症,准确率超过80%(Precision达83.3%,Recall达82.6%),且模型可部署至手机端,降低诊断门槛。以下是具体技术解析与成果亮点:一、技术原理:模拟医生诊断逻辑AI诊断的核心在于复现医生通过表情、语言和肢体动作判断抑郁症的过程。团队结合语音识别、计算机视觉、自然语言处理三大技术,分析以下特征:语音特征:语调单一、音量低、停顿时间长(抑郁症患者说话节奏更慢)。视觉特征:手势少、低头向下看等肢体动作。文本特征:通过访谈录音转写的文字内容,结合患者健康问卷(PHQ)评分。模型输入包含3D面部关键点视频、音频、转写文本三类数据,输出PHQ评分或分类标签。二、模型架构:双模块协同工作句子级嵌入(Sentence-Level Embeddings)传统方法嵌入音节或单词(仅捕捉几百毫秒),而该模块嵌入整个句子,整合声音、视觉和语言的长时序信息。示例:通过多模态数据捕捉患者“低头+语调平缓+手势少”的组合特征。因果卷积网络(C-CNN)针对抑郁症患者说话慢、句子长的特点,C-CNN比RNN更擅长处理长时序依赖。优势:无需特征工程,可直接输入原始数据(如音频的log-mel光谱图、视频的3D面部关键点)。三、实验效果:超越前人研究数据集:使用DAIC-WOZ数据集(142名患者PHQ评分、189次访谈、50小时数据)。对比结果:前人研究依赖预先访谈记录,而该模型仅需原始数据,背景信息更少。实验显示,多模态输入(音频+视频+文本)的准确率显著高于单模态(如仅音频或文本)。四、应用价值:突破诊断障碍可移植性:模型部署至手机端,解决“没钱”“没时间”“病耻感”等现实问题。学术认可:入选NeurIPS 2018医疗健康机器学习Workshop。社会意义:全球超3亿抑郁症患者中60%未接受治疗,AI提供低成本、隐私保护的筛查方案。五、论文与团队论文标题:Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions作者:Albert Haque, Michelle Guo, Adam S Miner, 李飞飞链接:https://arxiv.org/abs/1811.08592该研究通过创新的多模态融合与长时序建模,为抑郁症筛查提供了高效、可及的AI解决方案。
时间:2025-11-20 21:20:58
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: