por Tony Kontzer
Traduzido por Fabiano Morita Nishio (artigo original)
“Talk therapy”, ou “cura pela fala” como utilizado no Brasil, é um método frequentemente usado por psicoterapeutas para ajudar pacientes a superar depressão ou ansiedade através da conversação.
Uma equipe de pesquisadores do Massachusetts Institute of Technology está utilizando deep learning para desenvolver o que será chamado de “diagnóstico da fala” – detectando sinais de depressão pela análise da fala do paciente.
A pesquisa pode levar a um método efetivo, e de baixo custo, para diagnosticar sérios problemas de saúde mental.
Estima-se que um em cada 15 adultos nos Estados Unidos experienciam uma crise de depressão profunda em algum momento da vida, de acordo com o Nationtal Institute of Mental Health. A condição pode levar à sérios distúrbios na vida da pessoa, porém nossa compreensão a respeito ainda é limitada.
Tipicamente, as técnicas utilizadas para identificar depressão envolvem experts em saúde mental fazendo perguntas diretas e extraindo conclusões.
No futuro, estas avaliações pontuais poderão ser menos necessárias, de acordo com a líder do projeto Tuka Alhanai, pesquisadora e candidata a Ph.D. em ciência da computação pelo MIT. Ela vislumbra o trabalho de sua equipe se tornando parte do monitoramento contínuo da saúde mental das pessoas.
Sobre o conjunto de dados
Um aspecto chave para dar início ao processo de deep learning é a qualidade dos dados utilizados.
Este foi um desafio para Alhanai quando seu time iniciou o treinamento do modelo. Ela estava olhando especificamente para registros de conversações nas quais, invariavelmente, haviam participantes deprimidos.
Eventualmente, ela se deparou com dados de uma pesquisa de uma equipe da University of Southern California que, em conjunto com pesquisadores alemães, haviam conduzido entrevistas com um grupo de 180 pessoas, 20% das quais apresentavam algum sinal de depressão. As entrevistas consistiam de 20 minutos de perguntas sobre onde o entrevistado morava, quem eram seus amigos e se ele se sentia deprimido.
Alhanai foi encorajada pela conclusão dos pesquisadores de que a depressão pode, de fato, ser detectada em padrões de fala e vocabulário. Mas ela queria levar o processo a um passo adiante retirando o elemento da condução, com perguntas preditivas, e treinar um modelo que pudesse detectar a depressão durante conversas corriqueiras do dia-a-dia.
“Há sinais significativos nos dados que vão indicar se a pessoa está em depressão”, diz ela. “Você ouve o diálogo e absorve a trajetória da conversação e fala, e o contexto em que as coisas são ditas”.
Alhanai e seu time combinaram o poder de processamento de um cluster rodando mais de 40 GPUs NVIDIA TITAN X com bibliotecas TensorFlow, Keras e cuDNN e deram início ao treinamento de seu modelo.
Eles o alimentaram com trechos das entrevistas, retirando as questões óbvias e referências sobre depressão, deixando que o modelo determinasse se haviam sinais presentes de depressão ou não. Subsequentemente, expuseram o modelo à trechos de conversas de uma pessoa saudável e uma deprimida, determinando ao modelo qual a condição de cada um.
Depois de ciclos suficientes, os pesquisadores alimentaram o modelo com outros trechos de conversas e pediram para determinar se havia indícios de possível depressão. A equipe treinou dúzias de modelos desta forma, o que não seria possível sem a utilização das GPUs, segundo Alhanai.
Sucesso Gera Ambição
Enfim, o treinamento resultou em um modelo capaz de identificar sinais de depressão em conversas com mais de 70 porcento de precisão durante a inferência – equivalente aos diagnósticos por experts em saúde mental – com cada experimento sendo processado e uma única TITAN X.
A equipe reportou suas descobertas em paper submetido à conferência Interspeech 2018 em Hyderabad, India, e agora está preparada para levar o trabalho ao próximo nível.
“Este trabalho é muito encorajador” diz Alhanai. “Vamos utilizar estes sistemas e deixa-los fazer as predições para propósito de avaliação – não para usa-los clinicamente no momento, mas para coletar mais dados e torna-los mais robustos”.
Naturalmente, Alhanai anseia por ter acesso à GPUs mais rápidas e poderosas que lhe permitam processar mais experimentos com maior conjunto de dados. Mas sua visão de longo prazo é explorar o impacto que a utilização de deep learning na análise da comunicação – não só a fala – pode ter no diagnóstico e a forma de lidar com outras condições de saúde mental.
“Qualquer condição que possa ser ouvida ou sentida na fala, ou através de outros gestos, pode ser detectada pela máquina”, ela diz. “Não importa que sinal seja – pode ser a fala, a escrita, o movimento da mandíbula, a tensão muscular. Esta será uma maneira não-invasiva para monitorar estas condições”.
Fale conosco:
hpc@sdc.com.br