#149 Pedro Domingos - O que falta para a Inteligência Artificial nos superar?
Click on a part of the transcription, to jump to its video, and get an anchor to it in the address bar
José Maria Pimentel
Olá, o meu nome é José Maria Pimentel e este é o
45 Graus Regressado de Férias. Espero que as vossas tenham sido descansativas,
as minhas mais ou menos, mas também ninguém mandou ter filhos E
o episódio de hoje é grande tema e grande convidado para o
regresso, como vão ver. Antes disso, o habitual agradecimento aos novos mecenas
do 45 RAUS. Desta vez, desde julho, são muitos e por isso
tive de selecionar só alguns nomes. Muito obrigado à Sasha Fonseca, à
Inês Barbosa, ao Mauro Silva e ao Leonardo Azevedo. Agradeço também a
todos os que se inscreveram nos workshops de pensamento crítico do módulo
Lógica e Argumentação que estou a fazer estes meses e que anunciei
no episódio de final de temporada em julho. Os workshops estão todos
gotados, com exceção de Coimbra, dia 23, e de Braga, que entretanto
passou para dia 21 de outubro. Vejam no site ou na descrição
deste episódio como fazê-lo. Se tiverem ainda interesse nas versões online em
Lisboa ou no Porto, vejam também na descrição do episódio como deixar
o vosso email para receberem notícias futuras de novas sessões que venham
a haver. Pelo menos mais uma sessão online, quase de certeza que
vou fazer. E agora ao episódio de hoje. Desde que o Chat
GPT foi lançado no final do ano passado, que o tema da
inteligência artificial veio de novo em força para a discussão, gerando entusiasmo
e receios, e muitas vezes na mesma pessoa. Entusiasmo por este grande
salto tecnológico, e neste caso é que nós não nos limitamos a
ver em notícias como quando algoritmos conseguiram vencer seres humanos no xadrez
ou no jogo de gó, mas que nós próprios conseguimos usar diariamente
de várias maneiras. Mas também receio porque, claro, o contacto com o
chat GPT mostra-nos como a inteligência artificial já está muito avançada e
portanto voltou em força a conversa em torno dos perigos da Inteligência
Artificial. Estava, por isso, mais do que na altura a trazer este
tema de volta ao 45° e dificilmente poderia pedir melhor convidado para
isso. O Pedro Domingos é professor e investigador na área da Inteligência
Artificial e é autor do livro Master Algorithm, ou em português, A
Revolução do algoritmo mestre. O Pedro licenciou-se pelo técnico em Lisboa e
depois doutorou-se nos Estados Unidos na Universidade da Califórnia, em Irvine, e
é atualmente professor em mérito na Universidade de Washington. Ele tem uma
grande investigação nesta área, da inteligência artificial e da ciência de dados,
pela qual recebeu em 2014 o prémio SIGS, não sei se estou
a dizer isto bem, o prémio mais prestigiado nesta área. No seu
livro, o Algoritmo Mestre, que tem dado muito o que falar desde
que foi lançado, o Pedro aborda o modo como o Machine Learning
está a mudar o mundo e o livro foi escrito, atenção, antes
do ChatsCPT ter vindo dar este salto mais recente, mais uma vez
baseado em Machine Learning. No início da nossa conversa, pedi-lhe então que
descrevesse o que é revolucionário nos modelos de Machine Learning face à
inteligência artificial mais clássica e depois pedi-lhe que ele encasse as 5
famílias de modelos deste tipo, aquilo que ele chama as 5 tribos
de modelos de Machine Learning. O Pedro organiza os modelos nesta área,
e atenção, isto é uma taxonomia proposta por ele, mas como vão
ver faz sentido, ele organiza-os em cinco famílias diferentes. Os conectivistas, nos
quais se inclui o GPT, os simbolistas, os evolucionistas, os natureza Bayesiana
e os baseados em analogias. Pedi ao Pedro que explicasse estes 5,
sendo que depois, como seria de esperar, passámos mais tempo a descrever
os modelos do tipo conectivista e em particular a perceber como funciona
especificamente o chat GPT. De seguida discutimos o elemento central da tese
que o Pedro propõe no livro, aquilo a que ele chama o
algoritmo mestre. Perguntei-lhe o que ele quer dizer exatamente com o algoritmo
mestre e como é que isso se relaciona com o grande objetivo
nesta área, que é chegar à chamada inteligência artificial geral, ou seja,
capaz de desempenhar qualquer tarefa humana. Isso levou-nos a discutir o que
é que é ainda especial e difícil de replicar no cérebro humano
pela inteligência artificial. Isso é, segundo Pedro e muita gente nesta área,
e não só, também na filosofia, a capacidade de generalizar, ou seja,
de reagir, de entender a uma situação nova que nunca tenha sido
visto no passado. Isso é algo que estes algoritmos, mesmo o THPT,
têm ainda muita dificuldade em fazer. E finalmente, no último terço da
conversa, abordámos o tema incontornável dos perigos na inteligência artificial. Será que
vem aí uma singularidade, Ou seja, que o desenvolvimento tecnológico irá crescer
exponencialmente? E será que a inteligência artificial vai sair de controle ou
pode sair de controle já na sua configuração atual? Que outros perigos
é que existem de curto e longo prazo? Foi assim que terminámos
esta conversa, muito desafiante e que, na minha opinião, foi dos episódios
mais densos em conhecimento e em ideias, porque o Pedro também tem
algumas ideias controversas dos últimos tempos no 45°. Espero que gostem, até
à próxima. Pedro Domingos, muito bem-vindo ao 45°.
Obrigado.
Eu já falei aqui algumas vezes, tanto de inteligência artificial como de
machine learning, mas acho que faz sentido, até para quem não tem
ouvido esses episódios, e para entrarmos aqui no tema, eu pedi-te para
explicar a machine learning e porque é que é este paradigma que
tem, este macro paradigma que tem dominado a inteligência artificial nos últimos
anos. Isto já acontecia antes e desde o chat GPT e outros
modelos de chatbot que têm dado muito a falar nos últimos tempos,
dá a ideia que é a única coisa que se fala. O
que é que existe no machine learning que é diferente e que
o torna muito mais versátil e potente do que a inteligência artificial
clássica, digamos assim, não sei se este é o termo certo.
Pedro Domingos
Sim, portanto, em primeiro lugar, o que é inteligência artificial? A inteligência
artificial, assim, em termos leigos, é automatizar as coisas que os seres
humanos fazem, que os computadores à partida não fazem, como por exemplo
o pensamento, resolver problemas, o senso comum, a visão, a linguagem. Uma
dessas capacidades que nós procuramos automatizar é a aprendizagem. Machine Learning ou
aprendizagem automática é o subcampo da indigência artificial que trata de automatizar
a aprendizagem. E porquê que isso é tão importante? Houve uma prévia
onda de indecencia artificial que atingiu o máximo nos anos 80 em
que o método era método clássico de escrever programas para fazer diagnóstico
médico ou para fazer calcular coisas, etc. Mas esse paradigma falhou. E
a razão porque esse paradigma falhou, portanto a ideia é, nós vamos
escrever monte de regras aos chamados sistemas periciais, etc. Dos problemas aos
chamados, o problema da aquisição do conhecimento, é, há demasiado conhecimento necessário
e há sempre mais regras e a certa altura houve projeto muito
conhecido chamado Cycles que diziam em 10 anos com 100 mil regras
está a intensidade social resolvida. 30 anos depois com milhões de regras
ainda não está. Esse problema é resolvido pela aprendizagem automática. Em vez
de escrevermos programas, o que a aprendizagem automática faz é, os programas
são aprendidos automaticamente a partir dos dados. Nós damos ao sistema de
aprendizagem exemplos do input, por exemplo, os sintomas do paciente, e o
output desejado, por exemplo, o diagnóstico correto, e o sistema descobre como
é que faz a computação do output pretendido a partir do input.
E isto é extremamente poderoso porque, em primeiro lugar, resolve esse problema
chamado knowledge acquisition bottleneck, o estrangulamento da acusição do conhecimento. E outro
aspecto extremamente importante hoje em dia é que à medida que os
dados disponíveis aumentam, o sistema torna-se mais inteligente, quase sem intervenção nossa.
Uma das grandes diferenças dos anos 80 para agora é que a
quantidade de dados disponível tentava aumentar exponencialmente e, portanto, esta abordagem baseada
na aprendizagem torna-se cada vez mais poderosa, enquanto que
a outra
continua tão pouco poderosa como sempre foi.
Pedro Domingos
Isso é verdade e não. De facto, isso é uma posição muito
comum, mas eu penso que a realidade é a seguinte, há três
grandes fatores no sucesso da aprendizagem, haver mais dados, haver mais computação,
porque sem mais computação a gente não consegue ter perdido os mais
dados. E também é verdade, e isto para mim é aspecto interessante,
que os grandes paradigmas da aprendizagem automática, os grandes tipos de algoritmos,
digamos assim, são os mesmos desde os princípios, desde os anos 50.
As ideias básicas neste campo que está a mover-se a uma velocidade
incrível são as mesmas agora que eram há 50 ou 60 anos.
Mas o que nós podemos fazer hoje em dia depende criticamente de
inovações algorítmicas que foram feitas nos últimos 10, 20, 30 anos. Portanto,
nós mesmo com essa computação toda e esses dados todos, se só
tivéssemos hoje exatamente os algoritmos que tínhamos nos anos 80, não íamos
ao lado nenhum. Portanto, essa inovação dos algoritmos é também muito importante.
José Maria Pimentel
Sim. E o que é que acontece lá dentro especificamente? Porque tu
deste uma explicação que eu já ouvi dizer muitas vezes que é
basicamente nós damos os inputs e os outputs e o próprio algoritmo,
quer dizer, o próprio sistema aprende automaticamente a ligar uns e outros,
e eu entendo essa explicação até certo ponto, mas está lá alguma
coisa dentro, não é? É certo que não está, ou que estava
nos algoritmos clássicos, que era tudo pré-escrito, a totalidade, mas há uma
infraestrutura, há uma arquitetura que permite ligar esse input aos outputs. E
depois eu sei que há muitos paradigmas diferentes dessa arquitetura, mas quer
dizer, se é possível explicar isto genericamente, o que é que lá
está, quer dizer, aquilo não é algoritmo vazio, naturalmente, porque senão não
precisava ter sido inventado, o que é que lá está que permita
depois que existe essa aprendizagem, que existe essa quase autoprogramação a partir
daquele ponto inicial.
Pedro Domingos
Precisamente, aí é que está o ponto essencial. E o que está
lá podem ser várias coisas, como estavas a dizer, há vários paradigmas.
O paradigma mais conhecido hoje em dia, o chamado Deep Learning, Conexionismo
às redes neuronais, é baseado na ideia de imitar o cérebro. O
teu cérebro faz isto. Não é magia. Recebe determinados inputs e aprende
a associá-los a outros outputs, etc, etc. Como é que ele faz
isso? Tens dentro do teu cérebro uma grande rede de neurónios e
essa rede de neurónios, por exemplo, te vês uma imagem de gato
e dizes Ah gato, como é que foi feita esta associação? Neste
paradigma o que acontece é que há uma rede que computa várias
saídas possíveis e depois o que compara é as saídas inicialmente é
aleatório os pesos são aleatórios como no teu cérebro, presumivelmente E depois
o que faz é ajustar esses pesos para tentar fazer o output
pretendido e o output gerado aproximarem-se. Isto é algoritmo muito interessante chamado
de backpropagation, a retro-propagação.
Pedro Domingos
É o que está por trás destas coisas todas. Esse algoritmo a
certo nível é uma coisa extremamente simples. Está apenas a fazer o
seguinte, está a minimizar o erro das previsões feitas pela rede neuronal.
A rede neuronal é simplesmente uma função muito grande, muito complicada, não
linear, que ajustando os pesos pode se transformar em qualquer função possível.
Isto é teorema que diz que com o suficiente capacidade podes realizar
qualquer função. E o que a reta programação faz é apenas minimizar
a diferença, é ajustar os parâmetros da função para minimizar a diferença
entre a previsão e a realidade. De certa forma é uma coisa
estupidamente simples. Agora fazer isto tudo funcionar é extremamente complicado, mas a
ideia base é que é ridiculamente simples. Pronto, isto é os métodos
conexionistas. Há também os métodos simbólicos, que tradicionalmente são os que dominavam
antes desta nova vaga. Aliás, é engraçado que todas as décadas há
paradigma diferente a dominar e as redes neuronais já vêm na sua
terceira onda. Houve anos 150, depois houve anos 80, agora vem outra
e se calhar depois houve outras. Portanto, quais é que são as
outras? Os outros paradigmas que se vão alternando na dominância, o conexionismo
é baseado na neurociência.
Pedro Domingos
não é? Não, aliás, os pesos provavelmente são aleatórios porque tem que
ser, há demasiado, no teu cérebro há trilhões de ligações, portanto o
teu genoma não tem capacidade de conter isso, mas o que o
teu genoma contém que é extremamente importante é a arquitetura do teu
ser e nas aprendizagens conexionistas a arquitetura é predeterminada, portanto o pessoal,
os evolucionistas dizem ah mas essa arquitetura de onde é que vem?
Vem da evolução. A evolução é que evolui o teu cérebro e
o meu e o dos ratos e das abelhas e tudo e
mais alguma coisa.
E a
gente sabe como é que funciona a evolução. Há uma geração, uma
população, depois mede-se a sua chamada fitness. Não sei agora como é
que se diz em português, mas portanto é...
Pedro Domingos
Adaptação, portanto, a pessoa aplica esses animais que neste caso são programas
ou circuitos ou robôs ou qualquer coisa ao problema e os que
dão melhores resultados depois faz-se a reprodução, literalmente faz-se a reprodução faz-se,
há operador chamado crossover que é misturar o genoma de dois pais,
do pai e da mãe, digamos assim, para produzir filho, literalmente produzem
uma geração de filhos e depois repete-se. E o que é extraordinário
é que a pessoa começando com os genomas aleatórios ao fim de
uma centena de gerações está a fazer coisas melhores do que os
seres humanos em muitas áreas. Portanto, esta abordagem evolucionária. Depois, outra abordagem
que é baseada na estatística, em particular na estatística bayesiana. Aliás, os
bayesianos olham para isto e dizem, ah, mas isso tudo são heurísticas
e se calhar a biologia, a pessoa sabe lá, a biologia faz
toda a espécie de disparates. Portanto, a gente tem a ter uma
abrodagem com princípios de otimização e o princípio fundamental é o Teorema
de Bayesian. Portanto, daí o ver o nome da aprendizagem
é Bayesian. Sim, já falamos aqui.
Portanto, A ideia aí é, nós temos espaço de hipóteses, qual é
a função que te diz gato ou cão a partir de imagens
de cão ou de gato. Temos esse espaço de hipóteses e depois
temos a priori a probabilidade de cada uma dessas funções ser a
função correta. E depois à medida que nós vamos ver dados, a
probabilidade evolui. Portanto há o chamado em estatística o princípio da máxima
versimilhança, que é a tua hipótese é provável se diz que o
que tu estás a ver é provável. Se a tua hipótese diz
que tu estás a ver é improvável, então a hipótese é improvável.
Portanto, as hipóteses que concordam com o que tu estás a ver,
tornam-se mais prováveis e as que discordam com o que estás a
ver, tornam-se menos prováveis. E depois as previsões são feitas por uma
média ponderada de todas estas hipóteses em que as mais prováveis contam
mais. Portanto, há probabilidade a priori multiplicada por a semelhança, que é
a parte que depende dos dados, produz a probabilidade a posteriori que
é, depois de eu ter visto estes dados agora, qual é que
acho que são as hipóteses mais prováveis e essas questões contam mais.
Pedro Domingos
a priori. Até convergir. E portanto, se a população de que eu
estou a fazer mostragem for estável, isto converge, finalmente, para a hipótese
óptima. Ou para conjunto de hipóteses indistinguíveis, igualmente boas, mas esses já
são pormenores. E depois, finalmente, há uma abordagem que é baseada na
psicologia, que é a da analogia. E que é, eu tenho-me dado
conta, que em geral, para a maior parte das pessoas é a
mais intuitiva, porque de facto nós todos funcionamos. A gente não sabe
neurologia, não sabemos evolução, não sabemos estatística, mas nós funcionamos por analogia
todos os dias. Portanto, a ideia da analogia é, quando tu tens
que resolver problema, por exemplo, eu sou médico, estou a tentar fazer
o diagnóstico de uma nova paciente, eu vou procurar pacientes antigos que
tenham sintomas semelhantes e o que tiver os sintomas mais parecidos é
o que eu vou dizer, ah, tu és parecida com este, portanto
vou-te dar o mesmo diagnóstico. Isto, mais uma vez, é uma ideia
ridiculamente simples, mas extraordinariamente poderosa. Portanto, nós com dados suficientes, simplesmente com
este princípio, conseguimos aprender qualquer função. Portanto, a ideia da aprendizagem automática
é poder aprender qualquer coisa e nós com este método somos capazes
de fazer. Portanto, são todos paradigmas diferentes e cada deles tem uma
escola, digamos assim, uma tribo de investigadores que acham que esta é
a solução e portanto vamos ver o que é que acontece em
última análise.
José Maria Pimentel
Survival of the fittest, outra vez. De certa forma, é. Eu, por
acaso, gosto muito do Teorema de Bayes e até falo disso num
workshop de pensamento crítico que dou, porque é muito útil para formar
opiniões com incerteza, que é basicamente o mundo em que nós vivemos,
99,9% do tempo, e depois conseguir tomar decisões. Voltando atrás, tu dizes,
isto são cinco escolas, digamos assim, cinco paradigmas, que embora nem todos
tenham sempre o mesmo peso, há modas, e atualmente estamos na moda,
ou pelo menos na tendência dos conectivistas, que foram aqueles primeiros que
falaste, mas eles também têm usos diferentes, ou seja, cada tem de
certa forma aquilo em que é melhor, e estes beis e anos
são melhores em que?
Pedro Domingos
Não, precisamente, Portanto, esse é que eu penso que é o ponto
essencial que infelizmente muitos dos meus colegas parecem não compreender, que é
cada destes paradigmas foi motivado por certos problemas e resolve esses problemas
muito bem. Mas o problema é que para resolver a indizença artificial
nós temos que resolver todos esses problemas. Portanto, nenhum desses paradigmas é
suficiente. Portanto, eu penso que nós precisamos de uma unificação desses paradigmas,
pelo menos e se calhar ainda mais. Isto Para mim é completamente
óbvio e para muita gente também, mas pronto, vamos ver onde é
que isto vai. Agora, os beiseanos, a grande qualidade dessa abordagem, e
o que eles estão sempre a insistir, é que todo o conhecimento
adquirido por aprendizagem é incerto. A incerteza é inescapável, por muitas razões.
E é, acho que ninguém devia. A incerteza é inescapável. E agora,
o que a verdadeira benzina faz é quantificar a incerteza através da
probabilidade e fazer o cálculo correto de umas probabilidades a partir de
outras. E há ponto aqui muito importante em que eles têm razão,
aliás é matematicamente indisportável que é. Há certo número de propriedades básicas
do cálculo da incerteza que implica que tem que ser feito com
probabilidades. Qualquer outra abordagem está necessariamente errada. É por isso que eu
sou tão fanático. Aliás, os beysianos vão a todos estes outros paradigmas
e desenvolvem a versão beysiana das redes neuronais, da analogia dos métodos
simbólicos, porque tem que haver uma versão.
Pedro Domingos
Exato. Mas este nível está completamente roto e aliás uma grande parte
da minha investigação tem sido a combinar métodos bayesianos com aliás tem
sido a combinar método com outro em muitos casos por exemplo métodos
bayesianos com os métodos simbólicos etc etc mas agora aqui grande problema
grande enorme problema que é o problema do custo computacional. O custo
computacional da aprendizagem baseana é astronómico.
Porque a
gente, para fazer a aprendizagem baseana correta, a pessoa tem que fazer
a média ponderada de todas as hipóteses. E se os partes de
hipóteses que a gente considera for pequeno, provavelmente não inclui a correta,
não inclui a verdadeira definição de gato e de cão. Se for
suficientemente grande para incluir tudo o que é preciso. É tão grande
que precisava computador muito maior do que o universo
para
fazer o cálculo. Portanto, nós temos necessariamente que fazer o cálculo aproximado
e é nisso que os beiseanos passam 99% do seu tempo, é
tentar melhor maneiras de fazer o cálculo aproximado. E a certa altura
a pessoa dá-se conta, ou pelo menos eu dei-me conta que, quando
a pessoa começa a fazer essas aproximações, volta outra vez para as
heurísticas. E a certa altura está a fazer uma coisa que não
é mais nem menos heurística do que os outros todos. Portanto, a
certa altura, embora a probabilidade seja teoricamente a maneira correta de fazer
as coisas, na prática não é suficiente. E agora, o que é
que a pessoa faz em vez disso? Essa é que é uma
questão de investigação interessante que continua em aberto.
José Maria Pimentel
É interessante porque isso tem certo paralelo com a utilização da regra
do Bayesian na vida real, digamos assim, porque uma das vantagens daquele
tipo de abordagem é que do ponto de vista conceptual tu podes
utilizar esta abordagem Bayesiana para formar opiniões, por exemplo, em que em
vez de formares uma opinião binária, formas uma opinião probabilística sobre determinado
tema, sei lá, sobre se o mercado de trabalho deve estar mais
ou menos liberalizado, por exemplo, e vês que tens uma opinião binária
formas uma opinião probabilística que vais atualizando à medida que vais lendo
artigos, por exemplo, só que na prática é impossível fazer isso, não
é? Então estás de volta às heurísticas e é interessante perceber que
isso também acontece
Pedro Domingos
com os algoritmos. Aliás, a esse nível conceptual eu acho que de
facto toda a gente deve compreender esta abordagem porque é importante a
pessoa não pensar que as coisas que são binárias quando elas na
realidade não são. E aliás, depois há a combinação das probabilidades que
nós aprendemos com as utilidades e com a teoria da decisão.
E
essa é que é a maneira correta de tomar decisões. O resto
são aproximações. Mas há aqui ponto muito importante que é, nós darmos
conta da incerteza e usarmos probabilidades não implica o bayesianismo, implica a
probabilidade. Mas os frequentistas dizem, ah sim concordo com isso tudo, mas
esse beizenismo é que não. A característica do beizenismo que é extremamente
controversa e que por exemplo é grande obstáculo à sua utilização nas
ciências é que as probabilidades a priori é o que te apetecer,
são subjetivas. Pois, claro, subjetivas. A diferença entre os beizenos e os
frequentistas é que as frequentistas dizem, ah que não, as suas probabilidades
a priori também têm que vir da frequência de eventos. Daí o
nome frequentista é. Eu digo que a probabilidade deste ser gato é
80%, 80% dos objetos que eu vejo são gatos. E os beizinhos
dizem que eu vou com os olhos fechados à priori dizer que
a probabilidade de gatos é de 90% e eu digo, ah mas
porquê? E tu diz, ah isto é subjetivo e isto do ponto
de vista da ciência é uma coisa que faz bocado as pessoas
não gostarem
Pedro Domingos
Mas a longo prazo, aliás, nós chamamos-lhe o asimptopia, é a utopia
asimptótica, a asimptopia, digamos assim, em que temos dados infinitos. O bayesianismo
é desnecessário,
porque
aí basta a máxima versemelhança. A pessoa simplesmente calcular a frequência chega.
Portanto, a vantagem do Bayesianismo é quando nós não temos muitos dados
e também é nesse caso que é fiável, porque quando temos dados
infinitos não temos capacidade
de os processar.
Pois, pois, pois.
Pedro Domingos
Aliás, os sistemas de recomendação são uma grande aplicação dos métodos de
analogia, mas a analogia que eles fazem é uma analogia diferente, esse
por acaso é ponto interessante.
O que
tu sugestas agora é o que as pessoas começaram por fazer, mas
isso não resulta muito bem. O que resulta espetacularmente bem está por
trás de uma quantidade enorme de recomendações que nós recebemos da Netflix,
da Spotify, de monte de coisas, é encontrar pessoas com gostos semelhantes
aos meus.
Se
os teus gostos são semelhantes aos meus, o que tu viste e
gostaste, o sistema recomenda a mim. Isso é que é espetacularmente poderoso.
Portanto, é uma analogia entre pessoas, não uma analogia entre os produtos.
Embora a pessoa pode fazer combinação etc.
Pedro Domingos
sim. Agora, os métodos Bayesianos, a grande aplicação é precisamente onde, número
quantificar em certeza é importante e, número dois, existem dados e o
problema computacional é suficientemente possível para resolver. Portanto, tradicionalmente uma grande área
de aplicação é em medicina. Há uma representação, tipo de método baseante
chamado de redes baseanas. Se hoje em dia me perguntassem, olha, quer
sistema para fazer diagnóstico médio, o que é que recomendo? Eu dizia,
redes Bayesianas. Outro exemplo diferente, a Google, antes de vir a esta
vaga dos sistemas neuronais, os grandes sistemas da Google eram Bayesianos ou
pelo menos probabilísticos. Por exemplo, o sistema que escolhia os anúncios a
mostrar nas páginas ou com os resultados de pesquisa, que é como
a Google ganha todo dinheiro, era uma realeziana enorme. O sistema de
tradução automática, portanto, aqui há 10, 15 anos havia já o Google
Translate, que era sistema de tradução automática que as pessoas diziam, ah
os tradutores vão todos perder os empregos, porque isto agora já faz
tradução automática tão boa como as pessoas. Era mais uma vez destes
sistemas probabilísticos em que aplicava o tirama de base, com a probabilidade
a priori, por exemplo, estava a traduzir português para inglês, tinha a
probabilidade a priori do que seria o inglês e tinha a probabilidade
do inglês dar do português, combinava para produzir a tradução. Qualquer destas
abordagens pode-se em princípio aplicar a tudo. Onde é que é melhor
e é pior? Também há várias dimensões para que a gente pode
olhar, mas em última análise não há como experimentar e ver.
Sim, sim, sim.
A inteligência artificial está sempre a dar surpresa. A pessoa apresenta que
vai ser isto melhor e aquilo. Pensa que isto vai ser fácil,
vai ser difícil e vice-versa. Por exemplo, uma das grandes descobertas da
inteligência artificial que é muito relevante para a sociedade é que as
pessoas partiram do princípio que iam ser primeiro as tarefas de manuais
chamados blue collar a ser automatizadas,
que
são as de mais nível baixo e as de nível mais alto
é que seriam as últimas, é precisamente o contrário. Aliás, eu gosto
de dizer a brincar que a Indezenia Estadual Social é a vingança
da classe operária. Porque eles perderam os empregos todos quando vem a
automatização, etc. Mas ora, com a Indezenia Estadual social quem vai ser
automatizado é os advogados e os professores
José Maria Pimentel
Sim, que nos é menos natural. E se liga para cá, liga
para cá uma pergunta que eu te queria fazer. Porque eu tenho
ideia, enfim, acho que não estou muito enganado, que a robótica tem
evoluído a ritmo mais lento do que o resto das ciências da
informação. Não sei se estou a usar o termo correto. E portanto,
nos últimos anos tem havido ascendente grande destes modelos de machine learning
e agora mais recentemente nestes modelos conectivistas baseados em modelos de linguagem
e o chat GPT em particular. E isto tem uma aplicação muito
difícil na robótica, não é? Porque lá está, estás a lidar com
skills e tarefas bastante diferentes. E dá ideia que a robótica, o
que há uns anos era? Se há 20 ou 30 anos falássemos
em inteligência artificial, aquilo que as pessoas se lembravam era de robôs.
E agora já não, aquilo que as pessoas pensam é numa janela
de browser.
Pedro Domingos
Precisamente, As pessoas, tradicionalmente, quando pensam em indecensar o cérebro, a primeira
coisa é em que pensam é aos robôs. E portanto, a robótica
é mais uma vez a automatização de certo tipo de capacidades humanas
que têm a ver com o movimento. É a pessoa deslocar-se, pegarem
coisas, fazer construções, etc. E a robótica, tens razão, é muito mais
difícil do que os outros campos por duas razões. É precisamente este
que, portanto, é genuinamente problema que nós ainda não sabemos como resolvê-lo.
Portanto, a capacidade que os seres humanos têm de manipular coisas É
extraordinária. A gente não compreende onde é que ela vem. Portanto, os
algoritmos que funcionam, por exemplo, para o diagnóstico médico, para a robótica
não chegam. E não é por falta da gente tentar. Há milhares
de pessoas a tentarem há décadas. Depois, há outro aspecto muito importante
hoje em dia, que é o chat GPT tira partido de haver
trilhões de palavras na web. Portanto, para fazer linguagem, compreensão de linguagem,
esse tipo de coisas, nós temos uma quantidade de dados espetacular. Para
a robótica não temos. Eu tenho colega meu que a certa altura
passou tempo na Google em que eles tinham centenas de robôs em
paralelo, todos a brincarem para gerar dados para aprender. Mas mesmo isso
não gera nem 0,01% dos dados que nós temos na linguagem.
José Maria Pimentel
Sim, não levou a esse impulso, quer dizer, no fundo, grande parte
do impulso da inteligência artificial nos últimos anos vem do big data,
da profusão de dados, e na robótica isso não aconteceu, não tinha
pensado nisso. E depois esse outro ponto que tu disseste também é
importante, e liga àquela questão do ensino, Essas competências motoras são inconscientes
por natureza. Por isso é que nós não conseguimos guiar carro. Quando
nós guiávamos carro conscientemente era quando estávamos a aprender a conduzir. E
não percebemos nada daquilo. Quando aquilo de repente entra no inconsciente, no
automatismo, o que a pessoa faz? Só que depois não consegue replicar.
José Maria Pimentel
Essa, aliás, é uma, talvez, a grande crítica a estes modelos conectivistas,
não
é? Correta.
E correta, sim, sim. Ou seja, que não conseguem, não é como
se houvesse uma paisagem, eles não conseguem ir ao ponto ao lado,
mas não conseguem...
Precisamente.
...Saltar para ponto que está a uma distância grande ao contrário do
que nós fazemos. Então, mas vamos por aí, que acho que é
o percurso correto para depois irmos dar a este ponto que liga,
acho eu, à tua ideia do Master Algorithm, do algoritmo mestre. Porque
eu acho que vale a pena, até para quem nos está a
ouvir, perceber pouco melhor esses modelos conectivistas que foram os primeiros que
nós falámos e o Chatship e Tim particular. Tu explicaste no início
que isto no fundo são redes neuronais e pelo que eu percebo,
a grande parte do segredo é o facto de elas terem várias
camadas, ou seja, não é só uma única camada são várias camadas
que permitem fazer esta calibração e esta correção de erros ao longo
do tempo E que de novo não é muito diferente do que
existe no nosso cérebro, não é? Porque no fundo o nosso cérebro
funciona com base em sinapses que disparam, quer dizer, não disparam de
uma maneira binária, disparam com uma força que vai ao longo do
tempo produzindo ou não determinadas memórias, produzindo ou não determinadas ideias. Mas
qual é que foi? Se é que é algum, qual é que
foi o grande passo do set GPT e do modelo GPT que
tem por trás que permitiu, quer dizer, que permitiu fazer apesar de
tudo, construir chatbot que não existia antes ou pelo menos a ideia
que eu tenho é que não existia antes. Ou seja, estes modelos
já existiam, não é? Mas qual foi aqui o grande salto?
Pedro Domingos
Voando sobre as décadas, quando estes modelos neuronais foram inicialmente propostos nos
anos 50, o modelo era só neurónio ou uma só camada de
neurónios. E matematicamente uma só camada de neurónios não tem capacidade de
reproduzir qualquer função. Para sermos capazes de reproduzir qualquer função é preciso
haver as chamadas camadas escondidas. É camadas intermédias que não são nem
o input nem o output e quanto mais camadas isto é ponto
muito importante, quanto mais camadas intermédias houver. Precisamos de uma camada escondida
e nos anos 80, não foi quando inventado, mas quando se difundiu
este algoritmo da reta propagação, que pela primeira vez era capaz de
treinar modelos com camadas escondidas. Mas nessa altura é só com uma
camada escondida. E tudo se pode reduzir a uma camada escondida, mas
precisa de exponencialmente mais neurônios. Portanto, o sonho era sempre ter muitas
camadas e daí é que veio o nome de Deep Learning. O
Deep Learning é a rede ser profunda, ter muitas camadas. Deep Learning
literalmente refere-se a redes neuronais com muitas camadas. Portanto, esse foi o
primeiro passo importante, foi ter redes neuronais com muitas camadas.
Pedro Domingos
mas agora esta onda atual que começou com a AlexNet no ano
2012 é precisamente a onda do deep learning é modelos com muitas
camadas. Agora, o chat GPT em particular é uma inovação que tem
5 anos de idade que são os transformadores, que é uma arquitetura
específica. Portanto, nós hoje em dia temos arquiteturas com centenas de camadas,
comparado com os anos 90 é uma coisa extraordinária. Já há pouco
mais nesse aspecto parecido as cores de cérebro. O cérebro tem uma
camada. Aliás, nós hoje em dia temos redes neuronais, provavelmente com muito
mais camadas do que o cérebro tem. O que também é sinal
de que se calhar não estamos a fazer o que devíamos. Mas
os transformadores em particular são uma dessas arquiteturas com muitas camadas. A
pergunta que estavas a fazer é qual é que é a inovação
fundamental nos transformadores? E há uma inovação fundamental mas é engraçado que
hoje em dia a gente vê centenas de artigos a falar dos
transformadores e nenhum deles põe o dedo. Aliás, fazem muitas vezes hand
waving e dizem assim umas coisas. A questão essencial é a seguinte.
Temos que ir bocadinho atrás e O que é Language Model? Language
Model, que é o que tem o chat GPT, Large Language Model
é grande modelo da linguagem. O que é modelo da linguagem? O
modelo da linguagem é uma ideia antiguíssima, desde Os anos 70 que
já há modelos de linguagem. E é modelo que prevê qual é
a próxima palavra num texto a partidas anteriores. Se eu disse o
cão foi atrás do, tu dizes ah, gato. Portanto, estás a prever
a próxima palavra a partidas anteriores. E agora a questão essencial é
a seguinte, olhando para isto do ponto de vista beiseano, se dá
a ter em mente esses temas, inicialmente eram precisamente beiseanos, é quanto
mais palavras anteriores tomares em conta, melhor consegues prever a seguinte. Se
eu disser, tipo, correu atrás do, sei lá, pode ter sido o
miúdo que correu atrás de outro miúdo, mas de ser o cão,
portanto, quanto mais palavras a pessoa tiver para condicionar usando a termo
técnico, melhor faz a previsão.
Vai afunilando.
Exato, e agora a questão é a seguinte, é o número de
possibilidades aumenta exponencialmente com o número de palavras. A quantidade de dados
que nós precisamos aumenta exponencialmente e a computação aumenta exponencialmente. O grande
breakthrough da Google em uma área ser alta, primeiro foi a correção
da ortografia, depois a tradução, foi Como eles tinham mais dados do
que alguma vez alguém tinha tido, eles em vez de condicionarem em
uma palavra ou duas, tipicamente os modelos dos anos 70 e 80,
previam a próxima palavra baseada nas duas anteriores.
O
que parece pouco, mas já é muito em termos do custo. E
a Google condicionava em 4, 5, 6. E o que é interessante
nisto é que, mesmo sem saber nada de Reuronice, a pessoa só
extrapolando esta coisa de quando eu vou condicionando em mais palavras a
melhoria do desempenho, é espetacular. A pessoa só olhando para si, se
eu conseguir condicionar em 100 palavras vou fazer coisas, vou escrever textos
maravilhosos eu dou-te exemplo pequeno o meu filho quando tinha 13 anos,
só para se divertir fez em Python programazinho que ele chamou Markov
Bot porque é baseado nas cadeias de Markov.
Pedro Domingos
tua investigação. Uma das coisas, uma das partes. E estes modelos são
todos cadeias de Markov, de uma forma ou de outra. Portanto, esse
é o termo técnico. Portanto, ele chamou-se o Markov Bot. Foi programa
que simplesmente previsia a próxima palavra, baseada nas três ou quatro anteriores,
e ele treinou numa série de artigos de revistas científicas e mostrou-me
parágrafo, sem me dizer, mostrou-me parágrafo e disse o que é que
achas deste parágrafo? Eu disse ah sim, é o costume. E ele
aí disse, olha não, isto foi gerado pelo meu Markov Bot. Portanto,
isto é, miúdo de 13 anos a fazer programa de 200 linhas
em Python consegue fazer uma coisa que já me enganava a mim.
Sim, é super incrível.
O ChantRPT é apenas este fenómeno mas a uma escala vastamente superior.
Onde é que entram os transformadores aqui? É que quando eu quero
condicionar em 100 palavras é impossível. Não há memória no universo para
isso. O que os transformadores permitem fazer é escolher, por exemplo, das
100 ou 1 mil ou 1 milhão de palavras anteriores, quais é
que são as palavras relevantes. Essa é que é a questão interessante.
E não só escolher, mas aprender a escolher utilizando a retropropagação. E
com isto, basicamente... Retropropagação é correção
José Maria Pimentel
Sim, sim. Interessante. Contribua para a continuidade e crescimento deste projeto no
site 45grauspodcast.com Selecione a opção apoiar para ver como contribuir, diretamente ou
através do Patreon, bem como os benefícios associados a cada modalidade.
Tu já
há bocadinho falaste da questão da generalização, que eu acho que está
muito... Enfim, em tu, que está relacionado com a tua ideia do
algoritmo mestre, e falaste das cinco tribos, destes cinco paradigmas, antes de
falarmos de como chegar a este algoritmo mestre e parte da resposta
que tu já referiste que é combinando estes cinco paradigmas, o que
é que é exatamente o algoritmo mestre? Ou seja, de que é
que tu estás a falar ao certo? Estás a falar de simplesmente
uma espécie de algoritmo versátil que combina diferentes tipos de algoritmos já
pré-existentes ou de uma coisa próxima àquilo que costuma se chamar AGI,
ou seja, inteligência artificial geral, por oposição à inteligência artificial mais narrow,
ou seja, inteligência artificial equivalente à inteligência humana. E quando se diz
equivalente, como sempre quando se fala em inteligência artificial, é muito mais,
não é? Porque a partir do momento em que tu consegues reproduzir
uma determinada tarefa humana, faz-la muito melhor do que já é feito.
Ou seja, tu estás a falar de quê exatamente quando te referes
ao algoritmo mestre?
Pedro Domingos
A noção do algoritmo mestre é uma noção muito mais básica do
que... Essas noções são todas relevantes, mas a noção central é muito
mais básica, que é simplesmente a seguinte, é... Todos os algoritmos de
aprendizagem que nós temos estado a falar são algoritmos mestres, no seguinte
sentido, da mesma maneira como a chave mestra é uma chave que
abre todas as fechaduras, porque é capaz de simular cada uma das
chaves, a chave de casa que tu tens é uma chave que
abre uma fechadura. A chave mestra, por exemplo, que tem, sei lá,
uma pessoa, o dono de hotel ou qualquer coisa, é uma chave
que abre todas as portas. Da mesma forma o algoritmo mestre é
algoritmo que é capaz de fazer tudo. Portanto, há esta noção muito
importante da informática da máquina de Turing, que é o computador, que
é a máquina universal. A mesma máquina é capaz de fazer tudo.
E hoje para nós esta é uma ideia intuitiva, mas na altura
em que o Alan Turing introduziu esta noção, era uma noção extraordinária,
porque o que é isso? Uma máquina que faz tudo. A máquina
de escrever escreve, a máquina de lavar lava, a máquina de cozer
cose. Não há uma máquina que faz essas coisas todas, mas o
computador é uma máquina que faz essas coisas todas, portanto, de certa
forma o computador é a máquina mestre. Tu pegas no teu telemóvel
e o telemóvel faz uma infinidade de coisas. É relógio, é telefone,
é computador, quer dizer, é incrível. Há circuito ali que faz isto
tudo, mas agora o que se deixa em aberto é, mas como
é que ele faz estas coisas? Tem que ser programado por nós.
Portanto, a ideia da aprendizagem, a ideia fundamental da aprendizagem é que
tu tens algoritmo de aprendizagem que se transforma em qualquer desses algoritmos
o mesmo algoritmo é capaz de fazer diagnóstico médico, de pilotar avião,
de jogar xadrez, de tudo o que quiseres, se lhe deres os
dados necessários para ele aprender. Os dados são os que transformam a
chave mestra na particular para aprender aquela fechadura.
Pedro Domingos
Precisamente. E agora, a primeira questão é mas esse algoritmo existe? E
há uma prova matemática e uma prova empírica. A prova empírica é
que o teu cérebro é algoritmo mestre, incontestavelmente. E outra prova empírica
é a evolução. A evolução é algoritmo mestre. A evolução é capaz
de criar tudo e mais uma coisa. Portanto, nós sabemos que existem
algoritmos mestres no mundo real. Há também a prova matemática que em
todos estes paradigmas existe teorema que diz que utilizando esta representação nós
somos capazes de representar qualquer função, utilizando uma rede neuronal, utilizando conjunto
de exemplos para analogia, utilizando conjunto de regras simbólicas. Portanto, cada destes
métodos, nós sabemos que, a priori, com o algoritmo certo é possível
aprender qualquer coisa. Portanto, nós sabemos, tanto matematicamente como empiricamente, que este
algoritmo é possível. Agora, porquê é que nós não temos já o
algoritmo mestre? Porque na prática o que acontece, como já tínhamos lido,
é que cada destes algoritmos depois verifica-se que é bom para algumas
coisas mas não bom para outras. O verdadeiro algoritmo mestre é algoritmo
que tem que ser bom para todas estas coisas ao mesmo tempo.
Pelo menos ao nível que o teu cérebro. Por exemplo, as redes
neuronais não são boas para todas as coisas que o teu cérebro
é. Por exemplo, não fazem descoberta científica, não fazem robótica, não fazem
uma série de coisas. Fazem visão, fazem linguagem, portanto. Esse algoritmo que
é na realidade capaz de descobrir tudo ainda não existe e agora
a questão é como é que o descobrimos e agora há várias
abordagens a essa questão.
Pedro Domingos
não é? Não, precisamente. Isso é uma questão essencial. Mas repara, isso
é verdade do teu cérebro. O teu cérebro é capaz de fazer
adições e multiplicações, mas é extraordinariamente ineficiente. E aliás, em última análise,
para qualquer aplicação é sempre melhor ter algoritmo específico para aquela aplicação.
Mas agora veio aqui exemplo muito importante, que é o dos microprocessadores.
O microprocessador foi uma coisa inventada nos anos 50 que, inicialmente, antes
disso havia circuitos integrados que faziam tarefas específicas e cada vez que
a gente queria fazer uma nova tarefa precisava de projetar e construir
novo circuito e por esse método não fomos muito longe. Quando inventar
os microprocessadores, o microprocessador é circuito que faz tudo, literalmente tudo, porque
tudo o que tu vês é feito por...
Mas não é o mais eficiente,
não é? Para cada uma dessas coisas, se tu quiseres, podes ir
buscar chamado AC, que é Application Specific Integrated, que faz aquilo melhor.
Mas a grande vantagem é que a velocidade a que tu consegues
e a simplicidade e a facilidade é vastamente mais importante do que
esse ganho de eficiência. Quando o ganho de eficiência é importante então
tu podes depois ir fazer as coisas mais eficientes e mais uma
vez também acontece com a aprendizagem. Portanto, embora seja verdade que em
última análise para qualquer aplicação há sempre algoritmo específico mais eficiente, se
o que a gente quer é inteligência artificial, precisamos ter algoritmo mestre
como o nosso cérebro ou como o microprocessor. Mais uma vez, o
que falta no microprocessor é a capacidade de aprender, mas em generalidade
o circuito já lá está.
José Maria Pimentel
tu achas que se chega lá? Parte da resposta, já deu para
perceber, e quem lê o livro também percebe bem, é a combinação
destas cinco escolas, destes cinco modelos. Enfim, já agora não sei se
queres elaborar pouco sobre isso. Ou seja, como é que vai-te perguntar
isto? Quando a pessoa elenca, neste caso cinco modelos, parece que eles
estão à mesma distância todos uns dos outros, não é? Na verdade,
aqui, enfim, pelo menos eu vendo de fora, intuito aqui uma certa
proximidade que os conectivistas e os evolucionistas parecem mais próximos do que,
respectivamente, esses dos simbolistas ou dos analogistas, para transir para o português
é sempre mais complicado, ou dos beysianos, ou seja, eles não parecem
estar à mesma distância uns dos outros, o que significa que podem
não ter todos o mesmo contributo para este algoritmo mestre, ou têm?
Ou seja, pergunto de outra forma, como é que eles se combinam?
Que contributo é que cada deles dá para este algoritmo mestre?
Pedro Domingos
Exato. O que as redes neuronais não são capazes de fazer e
daí é que vem a sua falta de robustez. Portanto, nós temos
que resolver todos esses problemas. Eu penso que isto é incontestável. Agora,
a maneira óbvia de os resolver, para mim e para muitos outros,
é nós já temos algoritmos que resolvem cada deles. Se os combinarmos,
então resolvemos esses problemas todos. Agora, há grande dificuldade em combiná-los e,
aliás, ao longo dos anos já houve pessoas que diziam que isto
era impossível mas hoje em dia é claramente possível porque em grande
parte já está feito e aliás uma grande parte da minha investigação
nos últimos 30 anos foi combinar estas coisas duas a duas. A
minha tese de doutoramento foi combinar analogia com o simbólico. Depois a
investigação mais conhecida que eu fiz foi combinar os métodos simbólicos com
os beiseantes. Mais recentemente as neuronais etc etc. E hoje em dia
nós já conseguimos combinar 3 e 3, 4 e 4 e basicamente
nós já temos hoje maneiras de combinar todos os cinco. Agora penso
que ainda há grandes questões a resolver, mas podemos deixar isso para
tarde.
Pedro Domingos
Faltam várias coisas. Uma é que há muitas maneiras possíveis de combinar
estes algoritmos, a maior parte das quais não são suficientemente eficazes. Uma
coisa é fazer a combinação teórica, e isso é fácil, já fizemos.
Outra coisa é fazer uma combinação... Aliás, eu posso fazer uma analogia
que penso que é bastante útil, que é... Na Física, famosamente, há
quatro forças, que parecem à partida muito diferentes. Há a gravidade, há
o eletromagnetismo, há as forças fortes e fracas nucleares. As pessoas na
Física e nas ciências maturas, digamos assim, à partida o tentar unificar
as coisas é óbvio que temos de tentar unificar. Não sei porque
é que em desigualdade social há mais resistência a esta. Aliás, sei,
mas pronto. Mas penso que também é sobre caminho. Os grandes progressos
da física foram em unificar coisas umas a seguir às outras. E
hoje em dia o chamado Standard Model unifica três dessas forças. Portanto,
o electromagnetismo e as forças nucleares fortes e fracas. Falta
Pedro Domingos
O grande problema em aberto a física é unificar a gravidade com
as outras forças. Mas a questão é, à partida essas forças parecem
tão diferentes que parece impossível combiná-las. Mas nós hoje sabemos, por exemplo,
eletricidade e magnetismo parecem muito diferentes, mas na realidade são dois aspectos
do mesmo fenómeno. O eletromagnetismo e a superação de nucleares à partida
parecem muito diferentes, mas hoje em dia sabemos que são o mesmo
fenómeno e como. E o que eu penso é que O que
se passa com estes paradigmas da aprendizagem é precisamente o mesmo. A
dificuldade é que à partir da pessoa ver o simbólico, o evolucionista,
o conexionista, parecem completamente diferentes. Mas como é que a pessoa pode
identificar estas coisas? Mas aquilo que nós sabemos hoje, que não sabíamos
há 20 anos, é que a nível mais profundo estes métodos são
todos extremamente simples, extremamente semelhantes na simplicidade. Todos eles, aliás isto é
engraçado porque há milhares e milhares de algoritmos de aprendizagem hoje em
dia e todos os anos saem mais dezenas de milhares, mas todos
têm as três mesmas componentes E nós percebermos o que é que
são estas componentes é o primeiro e de certa forma o mais
importante passo. O primeiro componente é a representação. É a linguagem matemática
que nós utilizamos para representar os conceitos que vamos aprender. Os seres
humanos temos as linguagens como o português, o inglês, etc. Na programação
há o Java, o Python, o C. Na industria estatal há certas
linguagens de representação, incluindo as redes neuronais, as redes bayesianas, estas coisas.
Portanto, há a questão da linguagem. Portanto, nós temos que unificar a
representação. Essa parte do problema hoje em dia está essencialmente completamente resolvida.
Nós sabemos como unificar completamente. Não foi fácil e houve muito quem
dissesse que era impossível. Por exemplo, para unificar o simbolismo e o
beizinismo é preciso unificar a lógica e a probabilidade, que é problema
que já preocupa os filósofos e os matemáticos dá centenas de anos.
Exato.
E eu falei com pessoas há algum tempo, disseram, ah, isto é
impossível. Há razões fundamentais porque não é possível unificar a lógica e
a probabilidade. Unificámos, esse problema está resolvido. Aliás, a grande parte dos
prémios que eu ganhei, etc, etc, foi precisamente por ter unificado a
lógica e a probabilidade. Que eu fiz com este objetivo mas que
obviamente tem implicações para a matemática, para a lógica, para a filosofia
etc etc. Unificar estas 5 representações está feito. O passo seguinte é
a avaliação. É qual é a função que diz quais são os
modelos melhores e os piores. Por exemplo, se estás a cometer muitos
erros ou poucos, ou qual é a quantidade de erros, etc. Essas
também temos que unificar, mas essa parte é relativamente fácil. Por exemplo,
a probabilidade posterior dos Bayesianos tem basicamente as outras medidas como casos
especiais. Simplificando pouco. Essa parte não é fácil. E finalmente há a
parte da procura que é, neste espaço de hipóteses definido pela minha
representação, com essa função objetivo, chama-se mesmo a função objetivo, há processo
de procura ou de otimização para encontrar a melhor. E agora os
diferentes paradigmas usam diferentes métodos. Por exemplo, a procura discreta, o gradient
descent, que é uma forma de procura contínua que usa as redes
neuronais, o crossover que é o que usa os algoritmos genéticos, também
temos que unificar esses. E há, mais uma vez, maneiras de fazer
isso tudo. Portanto, neste momento já estás a ver que unificar os
cinco paradigmas se calhar não é assim tão difícil.
José Maria Pimentel
Mas como é que tu unificas, por exemplo, paradigmas tão diferentes como
o conectivista e o simbolista? Ou seja, o conectivista, que é o
do 7GPT, impressiona-nos quando a pessoa começa a fazer perguntas e percebe
que se sai de lá uma resposta incorreita, mas como tu explicavas
há bocadinho, aquilo é modelo, aquilo não tem por base aquilo que
nós poderíamos chamar entendimento análogo ao entendimento humano, aquilo é simplesmente modelo
que vai procurar a palavra mais provável de surgir a seguir. O
modelo simbolista é completamente diferente disto, porque é modelo mais próximo de
lá está da lógica, de conceitos abstratos, e tem por base a
dedução invertida que tu falas no livro. Eu estou a perguntar isto
porque há aqui uma pergunta mais profunda embutida nesta, é que a
minha intuição é que isto é muito a maneira como o nosso
cérebro funciona, é precisamente a combinação entre estas duas coisas, se quiseres,
as heurísticas baseadas na nossa experiência, com uma camada de lógica por
cima e é do diálogo entre estas duas que resulta a razão
humana. Mas não faço ideia de como é que o nosso cérebro
faz isto e muito menos sei como é que algoritmicamente se pode
fazer isto.
Pedro Domingos
Aliás, a ideia básica é muito simples e é a seguinte, A
representação básica nos métodos simbólicos são as regras. As regras são coisas
do tipo se A e B e C e D então é.
Por exemplo, se o paciente tem este sintoma e aquele e aquele,
então o problema é diabetes. Portanto, regras. É a representação fundamental. Nas
redes neuronais a representação fundamental é o neurónio e o neurónio o
que faz é multiplica os inputs por pesos e se estiver acima
de determinado limiar dá 1 se não dá 0. Agora a questão
é como é que unifica estas duas coisas? Muito simplesmente A regra
é caso especial de neurónio. Eu com o neurónio consigo implementar qualquer
regra e posso ainda mais ter peso. E a implementação é a
seguinte, os meus sintomas dou o mesmo peso a todos eles, portanto
é caso muito simples, somo e se tenho 10 sintomas a soma
tem que ser 10. E isto implementou a regra. Portanto, eu sei
como implementar regras simbólicas com neurônios. Portanto, estas duas representações que parecem,
à partida, muito diferentes, regras simbólicas e neurônios no seu cérebro, intuitivamente
são muito diferentes, matematicamente não são. Matematicamente são externamente parecidas. Portanto, este
é exemplo pequeno. Há depois, como eu ouvi, uma série de outras
questões, mas isto é pequeno exemplo de como é que este processo
é feito.
José Maria Pimentel
Então deixa-me fazer outra pergunta que, de certa maneira, é relacionada com
esta, mas liga aquilo que tu falavas há bocadinho da dificuldade destes
algoritmos em generalizar. Olhando para este desafio de encontrar algoritmo mestre por
outra perspectiva, ou seja, esquecendo por momentos estes 5 paradigmas e pensando
como é que consegues replicar o cérebro humano, o nosso cérebro parece,
mesmo com as suas muitas imperfeições, ter essa capacidade que estes modelos
de tipo chat GPT não têm de dar saltos na paisagem, aquilo
que tu chamavas de generalizar, de chegar a uma conclusão que é
diferente daquilo que aconteceu nos últimos 20 minutos, o exemplo da condução
que tu davas há bocadinho. Estás a guiar, acontece uma coisa que
é completamente diferente do que aconteceu nos últimos 100 dias, não é?
E tu consegues na mesma lidar com ela porque consegues dar esse
salto lógico, não é? Como é que tu consegues combinar, e no
fundo esse parece-me ser o grande desafio, não é? Como é que
tu consegues combinar as propriedades destes modelos de linguagem com essa capacidade
lógica de generalizar, não é?
Pedro Domingos
Jornalizar para longe, precisamente. O problema de todos, em cada destes paradigmas,
os melhores algoritmos que nós temos hoje só generalizam para perto. E
por isso é que eu penso, nem toda a gente concorda, mas
para mim parece-me relativamente claro que mesmo que nós consigamos unificar os
melhores algoritmos de todos estes paradigmas, é melhor do que cada deles
individualmente, mas continua só a generalizar para perto. E agora a grande
questão é precisamente, mas generalizar para longe, o que é que falta?
Exato. Isto é uma questão para mim fascinante porque dá 70 anos
desde o princípio do campo que nós temos andado sempre, o que
é natural, a adaptar ideias de outros campos para este campo da
Cidade Social, mas eu penso que finalmente as ideias fundamentais da Cidade
Social não vão vir de desses campos. Têm que ser inventadas autonomamente,
digamos assim. Mas obviamente isso é muito mais difícil. Agora, como é
que isso poderá ser feito? Uma das áreas em que estou a
trabalhar é precisamente uma abordagem nesse sentido. Nós podemos aprender transformações. Por
exemplo, mudar a cor de objeto é uma transformação. Era azul e
pintei em vermelho. Mudar a forma é outra transformação. Pôr umas costas
num banco e transformá-lo numa cadeira é uma transformação. E há uma
área da matemática chamada a área da simetria que lida com a
combinação de transformações. E aliás é uma das áreas centrais na matemática
hoje em dia e centrais na física. A física moderna existe à
base destas chamadas simetrias. Por exemplo, uma simetria de quadrado é rodá-lo
de 90°, 180°, 270° ou 360°. Uma simetria de círculo é rodá-lo
de qualquer ângulo, porque rodá-lo de qualquer ângulo deixa-o na mesma figura.
Portanto, esta ideia de simetrias é extremamente importante na Física e na
Matemática. Aliás, este modelo que eu estava a falar, o Standard Model,
que é a base da Física hoje em dia, é basicamente conjunto
de simetrias. Portanto, o que eu estou a fazer é aplicar essas
ideias no contexto da aprendizagem automática em que a ideia é, nós
vamos descobrir transformações a partir dos dados, por exemplo, isto é uma
caneca, é vermelha, mas se eu mudar o vermelho para azul, continua
a ser uma caneca. Mas se lhe tirar a pega passa a
ser copo. E o ponto essencial é o seguinte, aprender transformações individuais
a partir de dados razoáveis não é difícil. Tu comparas duas coisas
que são ambas canecas e dizem, ah, então esta transformação não faz
diferença. Tu comparas, por exemplo, a minha cara assim, com a minha
cara rodada a 20° e dizes Ah! Isto continua a ser a
tua cara. Portanto, isto nós sabemos hoje o que fazer. Agora, o
ponto essencial é que com esta teoria dos grupos de simetria eu
agora posso fazer a composição das transformações. Eu digo assim, ah, eu
vi ali uma caneca que era verde em vez de vermelha, mas
eu já sei que mudar a cor não faz mal. E também
vi aqui uma caneca que era estreita em vez de longa, mas
também sim, não faz mal. E agora eu vou ver pela primeira
vez uma caneca que é estreita, em vez de longa, e verde
em vez de vermelha. Mas, combinando essas duas coisas, eu saio com
uma caneca verde e estreita, também é uma caneca... E agora, esta
combinação de duas transformações, eu posso fazer a combinação de centenas de
transformações. O que eu tenho ao fim dessas centenas de transformações é
objeto que parece completamente diferente do inicial, superficialmente, mas eu tenho razões
fortes para saber que é o mesmo. Portanto, descobrirmos estas transformações e
depois fazer a sua composição é uma maneira de fazer relações muito
mais longas, por exemplo, imagens de gatos é caso, ainda hoje em
dia é difícil de reconhecer gatos porque os gatos são exemplo famoso
porque o YouTube está cheio de vídeos de gatos, porque as pessoas
gostam de vídeos de
Pedro Domingos
O que é bom, portanto. Mas, o problema é que mesmo com
esses milhões de vídeos de gatos reconhecer gatos continua a ser extremamente
difícil, porque os gatos são incrivelmente flexíveis.
Os
gatos podem se pôr em posições completamente esquisitas e tu quando olhas
para uma imagem de gato numa posição esquisita indiretamente estás capaz de
dizer lá, isto sim é gato ou não, isto é uma imagem
esquisita generada pelo mid-journey num gato que é fisicamente impossível. Como é
que tu fizeste isso? Tu sabes que há movimentos das articulações que
são permitidos e outros que não são e esse movimento é uma
transformação, é uma destas simetrias. Portanto, eu quando giro o meu cotovelo,
continua a ser eu, mas se eu girar na direção errada só
se eu estiver partido. Portanto, Nós sabemos quais é que são essas
possibilidades e agora fazendo a composição...
Pedro Domingos
Não, mas precisamente, outro exemplo de transformação é, eu vi estas coisas
aplicarem-se a vacas e agora estou a ver cavalo, elefante. Eu vejo
pela primeira vez hipopótamo, nunca tinha visto hipopótamo, mas por ver a
semelhante acento do hipopótamo e o elefante e o rinoceronte, imediatamente aplico
uma série de coisas, como por exemplo quais é que são os
movimentos possíveis ao hipopótamo que eu sabia aplicar em só elefante. E,
por exemplo, no caso de gato, posso ver gato numa posição completamente
diferente das anteriores que eu vi, que eu já tinha visto, porque
é uma combinação de movimentos dos diferentes membros, da cor do pé
ou da cara etc etc que eu não tinha visto mas eu
vi cada uma delas e sei que são compatíveis. Eu penso que
desta forma e agora obviamente há algoritmos concretos para fazer isto nós
vamos conseguir e aliás já estamos a conseguir descobrir formas de fazer
generalização que vão muitíssimo mais longe fazem saltos muito maiores na paisagem
do que os métodos atuais.
José Maria Pimentel
eu penso que é produto. Mas já me parece ter menos utilidade
noutros campos mais enfim, intelectuais, se a mesmo mesmo dizer assim. Ou
seja, para dar exemplo óbvio, quando se escuta este tema, eu acho
que os exemplos mais comuns é pensar algoritmo ao qual tivesse sido
fornecido a mesma informação que o cérebro de Einstein, por exemplo, recebeu,
seria capaz de descobrir a teoria da relatividade? Ou seja, seria capaz
de dar aquele salto e propor uma explicação que... E este é
exemplo bom, não é? Porque na verdade era uma explicação que não
existia nem estava em certo sentido próxima das opções que existia. Ou
seja, é bom exemplo porque é daqueles raros casos na ciência que
não é salto incremental, que é salto bastante grande. E isso será
suficiente? Intuitivamente parece-me que não, mas enfim, eu também não sou desta
área.
Pedro Domingos
A ideia do Douglas Hofstadter, e aliás, este termo analogizer, ou analogizante,
analogista em português, que eu utilizo no livro, foi ele que criou
esse termo. E ele considera-se assim próprio analogista. E a teoria dele
é que, aliás, essa é a teoria do livro, é que tudo,
desde o senso comum às coisas mais pequenas no dia a dia,
até às grandes projectas científicas, é apenas analogia. E eu penso que
isso é exagero, mas
a
analogia claramente é dos componentes essenciais incontornáveis. Mesmo o Jeff Fenton disse
que as redes neuronais são melhores do que os métodos simbólicos porque
fazem raciocínio analógico. Mas depois não explica como é que fazem raciocínio
analógico. Portanto, aí uma falha qualquer. Mas tu estavas a dizer, nestas
descobertas com uma relatividade, a coisa que impressiona é o salto. Como
é que foi dado esse salto? E o salto é dado por
analogia. A pessoa vê estas descobertas, e há muitas outras que o
Douglas Austin não fala no livro, e o que levou a pessoa
a dar o salto foi, a certa altura, reparou numa semelhança entre
duas coisas que anteriormente ninguém tinha relacionado. Por exemplo, entre eletricidade e
magnetismo, ou no caso de Newton, entre o que se passa no
céu e o que se passa na Terra. A unificação que ele
fez foi entre a mecânica celeste e a terrestre, que supostamente eram
completamente diferentes. E o que o levou, o salto dele, às vezes
as pessoas não sabem isso, pensam lá, ah, caiu uma maçã. Aliás,
mesmo que tivesse sido cair a maçã, o salto dele foi dizer
lá, ah, Isto é uma história apócrifa, mas usando a história apófrica
por efeitos ilustrativos. Qual é o salto? É dar-se conta da semelhança
entre a maçã e a lua. Quer dizer, tanto a maçã como
a lua estão a ser influenciadas pela gravidade. Na realidade, a maneira
como ele fez o salto, que tem a ver com o teu
ponto também, é preciso o cálculo, ele sabia qual era o valor
da aceleração na superfície da Terra. Já o Galileu tinha medida, etc,
etc. E ele também sabia qual era o valor, na sua teoria,
que na nossa altura já tinha mecânica, qual era a aceleração da
Lua ao rodar em torno da Terra. Portanto, a direção que estamos
a ter. Mas essas acelerações são diferentes. O grande passo, o salto,
foi quando disse Ah, mas se a gente pegasse na Lua e
a começasse a aproximar da Terra e ela continuava a orbitar quando
ela estivesse à superfície da Terra qual é que era a aceleração?
E de subito revelou-se-lhe que a aceleração era a mesma da maçã
e nesse momento se pensou, ah, então se calhar a força que
está sujeita à lua e a força à estrela é a mesma
portanto, houve salto analógico mas foi salto analógico fundado no cálculo
José Maria Pimentel
É a ponte, exatamente, não há milagres. É aquilo que te permite
fazer a ponte de uma... Precisamente. E eu acho que se nós
pensarmos na maior parte das ideias que nós temos individualmente, vem todas
desse tipo de analogia, de repente... Enfim, aliás, na verdade parte do
nome deste podcast, pergunto-me muitas vezes, tem a ver... Eu não lhes
chamo de analogias, mas chamo de intersecções entre áreas diferentes, porque às
vezes ao estás a discutir uma área, tens insights que são úteis
para outros e a Inteligência Artificial é bom exemplo disso, porque como
tu explicas, estes 5 paradigmas têm todas a inspiração noutras áreas. Pedro,
olha, para acabar, havia tema que não queria deixar de falar, até
porque sei que tens uma opinião forte em relação a ele, que
é da questão dos perigos da inteligência artificial, que tem sido muito
discutida agora. E depois tem sempre muita visibilidade nos médias, porque depois
tens alguns exemplos muito vistosos, como aquele tipo que era engenheiro da
Google e que em 2022 disse que aquele chatbot deles, o Lambda,
que era senciente, não é? Ou seja, ele não disse que tinha
consciência, mas que sentia. Depois tens o Yuval Noaharar e tens depois
o Elon Musk com declarações de género, não é? Enfim, há sempre
toda esta conversa em torno da... Até do chamado conceito da singularidade,
que é de repente... No fundo é quase o contrário do que
nós estivemos a dizer, não é? Porque nós estivemos a falar das
dificuldades em chegar a uma inteligência geral e aqui é achar que
aquilo que já existe pode produzir essa espécie de mega inteligência pela
propriedade de se conseguir ir reproduzindo e portanto uma vez atingindo esse
estado, tornar-se incontrolável. A ideia que eu tenho é que este termo
e esta ideia é mais discutida fora da área da inteligência artificial
do que propriamente por quem está dentro dela, apesar destes exemplos mais
vistosos.
Pedro Domingos
Não, e além disso, hoje em dia, e isso é diferente de
há aqui alguns anos, já há críticos, pelo menos pessoas a preocuparem-se
com isto, que vêm de dentro do campo.
Que
é também o que tem levado a esta atenção. Portanto, uma parte
da atenção vem de fato de pessoas como Elon Musk, que são
muito famosas a preocuparem-se com isso, mas outra parte vem de pessoas
como por exemplo a Yoshua Benji e o Geoff Hinton, que são
dois grandes líderes precisamente do conexionismo, manifestarem esta preocupação. Ah, isto se
calhar é perigoso. Portanto, a pessoa também deve compreender porque é que
estas pessoas que sabem de indecensidade social se começam a preocupar com
isto. Mas a realidade é que 99% das pessoas em licença artificial
fazem trabalho dia a dia que está muito longe destas preocupações todas
e por boa razão. A ideia de que isto vai conduzir a
alguma catástrofe etc. É absurda. Mas Eu acho que é importante nós
compreendermos quais é que são os perigos reais e os perigos imaginários.
O meu ponto não é que não há perigos reais, porque há,
é que atualmente as pessoas estão preocupadas com os imaginários e isso
distrai-nos dos reais. E pior ainda, há uma panóplia de perigos com
que as pessoas se preocupam, desde os de muito longo prazo, que
é a extinção e a singularidade e o Terminator e essas coisas,
até os de muito curto prazo, que é a desinformação, a perca
de emprego, os enviesamentos, etc, etc. E portanto, estes são perigos muito
diferentes, cada deles tem que ser discutido individualmente, mas a solução geral,
ironicamente, é sempre temos que pôr limites na indignação artificial. Temos que
regulamentar, temos que fazer moratórias, temos que mandar chá. E o que
é irónico é que os perigos reais da indigência artificial derivam todos
da indigência artificial ser demasiado estúpida. A estupidez é que é perigosa.
Pedro Domingos
É porque os problemas da indigência artificial derivam dos sistemas de IA
não serem suficientemente inteligentes. Eles cometem erros, desde os mais curto prazo
aos mais longo prazo, potencialmente, porque são demasiado estúpidos. Aliás, nós podemos
já ver alguns exemplos concretos disso.
Sim, é o que eu tinha perguntado. Mas
o meu ponto é o seguinte, esta ideia de limitar a indecencia
artificial para conter os perigos é precisamente o oposto do necessário. Para
diminuir os perigos da indecencia artificial o que nós temos que fazer
é torná-la o mais inteligente possível. Por exemplo, aliás, Escolhe, vamos falar
primeiro dos perigos de curto prazo ou dos de longo prazo?
Talvez curto prazo.
Curto prazo, por exemplo, os enviesamentos. Aliás, isto já é uma coisa
que é muito falada daqui há 10 anos, portanto, a desinformação e
o desemprego é mais recente, mas a ideia dos enviesamentos é que
os sistemas de reconhecimento facial têm enviesamentos, perpetuam os enviesamentos humanos em
relação à raça, em relação ao sexo, etc. E há uma série
de exemplos que deves ter visto porque estão sempre a aparecer nos
mídias antigos em que, ah, olha, este sistema de reconhecimento facial discrimina
contra os negros porque dá resultados piores do que para os brancos.
O problema não é que o sistema tem enviesamentos, o problema
é que o
sistema tem menos dados e é mais difícil reconhecer caras escuras porque
o contraste e a cor são extremamente importantes. Portanto, o que nós
precisamos não é, como agora o AI Act, que na Europa vai
passar, proíbe a utilização de enteses de arte social para reconhecimento facial.
É uma estupidez inacreditável. O que nós queremos não é proibir, porque
isso tem de facto montes de aplicações e outras, o que temos
é melhorar esses temas para que o saberem reconhecer cada indivíduo o
melhor possível, independentemente da raça ou do sexo, seja o que for.
Portanto, e exemplo ainda mais mundano, quando eu hoje faço pedido de
crédito, cartão de crédito ou de empréstimo para comprar uma casa de
cera etc, pelo menos aqui na América hoje em dia, a análise
disso é feita por algoritmos de aprendizagem, que apendem a prever se
tu vais pagar as tuas dívidas ou não a partir dos dados.
E mais uma vez, isso é uma área com uma grande história
de dizer ah, tu tens preconceitos contra as pessoas desta raça porque
não lhe das empréstimos ou das empréstimos aos homens mas não às
mulheres. Mas tipicamente o que acontece neste caso é sempre que O
sistema é demasiado estúpido, não tem senso comum. O sistema nem sequer
sabe o que é raça, o que é sexo, o que é
uma casa. Não sabe nada. Isto é assim, fez uma regressão linear,
caso mais simples. E o problema é que uma regressão linear tem
uma integência limitada.
José Maria Pimentel
Mas ó Pedro, eu acho que pode ser mais do que isso.
Eu concordo com o teu ponto, enfim, e até de ponto de
vista genérico, irrita-me sempre quando se tenta proibir, quando se pode melhorar,
mas neste caso pode haver algumas situações em que, quer dizer, no
fundo o que estes algoritmos fazem não é muito diferente da mente
humana, não é muito diferente daquilo que nós fazemos estereotipando. E o
problema dos estereótipos é que são-nos muito úteis. Aliás, nós não vivíamos
sem estereótipos, sem esse tipo de heurísticas. Só que depois podem perpetuar
discriminações, porque se tu vives num mundo em que pessoas com determinada
característica são prejudicadas e se tu mantiveres esses estereótipos vais mantê-los. Portanto,
não me choca que tu em algumas situações possas impedir a utilização
de determinadas ferramentas que serão sempre estereotipantes independentemente dos dados, não
José Maria Pimentel
Ou seja, o que eu quero dizer é, imagina que tu tens,
por razão, nisso há exemplo óbvio, não é? Os negros têm, em
média, rendimento inferior aos dos brancos. Claro que essa coisa dos negros
e brancos é muito discutível, mas enfim, usando essa simplificação, algoritmo de
banco, se usar a cor da pele como variável, vai tender a
dar em média pior nota ao negro do que ao branco. E
tu diz-me, às vezes, ah, sim, mas pode-se tornar o modelo mais
complexo introduzindo outras variáveis. Claro, eu estou a falar de que serão
sempre casos pontuais, mas não me choca que em alguns casos tu
possas limitar, que no fundo é objectivo maior.
Pedro Domingos
Não, mas precisamente, isso é ótimo exemplo, é exemplo muito simples e
muito claro, penso eu. Portanto, qual é o problema e qual é
a solução? O princípio geral que eu estou aqui a dizer é
que a maneira de resolver o problema é tornar o sistema de
licenciamento social mais inteligente e não menos. Neste caso, tornamos o sistema
mais inteligente. Se, por exemplo, se a variável essencial é o rendimento,
então o que nós queremos é que o sistema utilize essa variável
como lose input e depois prevê a partir do rendimento e ignora
a cor da pele.
Ah, claro, ponto.
Porque o rendimento, uma vez condicionado, a cor da pele torna-se irrelevante.
Aliás, o exemplo perfeito, se nós queremos é não discriminar na base
da raça, ou estamos a proibir isto, o que estamos a fazer
é causar a discriminação em vez de evitar. Aliás, posso omitir aqui
uma parte importante, que é o seguinte, historicamente nos Estados Unidos havia
muita discriminação na base da raça e depois isso foi proibido por
lei nos anos 60, mas depois havia o fenómeno chamado redlining que
é, eu quero discriminar contra ti por seres negros e vou utilizar
o teu rendimento como uma proxy da tua raça. E então as
leis proíbem utilizar essas coisas, como por exemplo o código postal, diz
assim, não podes usar, isto é exemplo real, não podes usar o
código postal para fazer a previsão de se deves ter empréstimo para
comprar a casa, porque isso é uma proxy da raça. Mas agora,
olhando para isto do ponto de vista de sistema de isenção social,
eu quero utilizar o código postal porque é utilizando o que torna
a raça irrelevante. Se eu proíbo utilizar o código postal, causa o
resultado mais racista.
Pedro Domingos
Não, mas aqui vem outra questão importante que é a seguinte. Eu
quero utilizar, eu banco, eu não sou racista, eu quero apenas prever
se tu vais pagar o teu empréstimo ou não. E o código
postal é uma variável relevante, independentemente da raça. E o rendimento é
uma variável importante, independente da raça. Portanto, eu devo utilizá-las para tomar
boas decisões. Agora, se há correlações entre essas variáveis e a raça,
isso é outra questão. Não sei qual é a expressão que estão
em português, mas esta é a expressão na América de disparate impact,
que é os resultados são diferentes para raças diferentes. O disparate impact
não implica discriminação, não confundir a correlação com a causalidade.
Pedro Domingos
que as pessoas estão... Aliás, nestes artigos todos afilados em investimentos, sistematicamente
as pessoas fazem esta confusão entre a correlação e a causalidade. Há
resultado diferente para diferentes raças que não é causado por racismo. E
se a gente tenta resolver o problema proibindo o sistema ou tentando,
mais uma vez há uma data de investigação nisto que é, modificar
o sistema para não ser racista. O que nós estamos a fazer
é modificar o sistema para ser racista noutra direção. O que nós
temos de fazer é fazer o sistema que faz a decisão, prevê
a variável, decisão baseada nas variáveis relevantes, utilizando por exemplo o método
Weiziano. E aliás, há aqui outra distinção extremamente importante que as pessoas
nunca fazem é a seguinte, e tem a ver com a ideia
que estás a dizer, portanto, da perpetuação dos enviasamentos. Se os dados
de que eu estou a aprender, se o meu conjunto de treino
são as decisões tomadas por seres humanos e o que eu estou
a aprender é reproduzir as decisões deles obviamente vou copiar os enviesamentos
deles. Isso é má ideia. Às vezes é o mais fácil. A
boa ideia é eu estou a fazer a previsão de, na realidade,
a pessoa pagou empréstimo ou não. E a realidade é a realidade.
José Maria Pimentel
E depois há outro perigo que eu acho que é tópico bom
para fazer a ponta entre estes perigos de curto prazo e de
longo prazo porque de certa forma está nos dois campos, que é
o perigo dos algoritmos serem controlados por pessoas com más intenções, digamos
assim. O exemplo mais óbvio são governos de países que são ditaduras,
por exemplo. E aí já é possível argumentar que, mesmo os algoritmos
atuais, e sobretudo algoritmos futuros, se controlados por pessoas mal intencionadas, ou
organizações mal intencionadas, podem ter efeitos negativos, mesmo os atuais, no caso
de, sei lá, fake news, por exemplo, é o exemplo mais óbvio,
mas sobretudo assumindo algoritmos mais desenvolvidos. Isso pode acontecer independentemente de nós
comprarmos a tese da singularidade, ou seja, isto não pressupõe, no fundo,
o ponto é, este argumento não pressupõe haver takeover do próprio algoritmo,
tipo 2001, ou disser no espaço.
Pedro Domingos
Não, mas precisamente, nos períodos de longo prazo, a grande preocupação das
pessoas como Elon Musk etc etc é as máquinas tornarem-se espontaneamente más.
2001 é o perfeito exemplo, Terminator, os filmes de Hollywood estão cheios
das incercias sociais espontaneamente más e dos robôs, do X-Machina etc etc.
Mas esse é o perigo imaginário. As máquinas propriamente projetadas, e nós
podemos discutir isso, não se podem fisicamente tornar espontaneamente más. Isto é
fisicamente, matematicamente, impossível. O perigo real é precisamente estes dois. É as
máquinas serem utilizadas por pessoas com más intenções, quer sejam criminosos ou
regimes totalitários, etc, etc. Ou a indecensidade social que faz coisas más
por não compreender o que é que deve fazer. Que mais uma
vez o problema é demasiada estupidez e não demasiada inteligência. Portanto, as
pessoas tão preocupadas com as máquinas decidirem espontaneamente matar as pessoas porque
querem ser elas donas do planeta. Isto é ficção científica. A solução
para este problema imaginário é limitar a inteligência. O problema real é
a máquina não perceber o que é que deve fazer e fazer
grandes disparates. A solução para isso é tornar as máquinas mais inteligentes,
não menos.
Pedro Domingos
Precisamente, isto é assim, as pessoas que se preocupam com isto, tanto
os leigos como os especialistas, o que lhes dá uma certa trepidação
é esta ideia de que quando as máquinas aprendem, e essa é
a ideia da singularidade, é a máquina produz uma máquina mais inteligente,
depois produz outra ainda mais inteligente, e agora vão-se tornar infinitamente inteligentes
e nós perdemos completamente o controle das máquinas. Mas o primeiro ponto
importante é, a inteligência e o controle são coisas completamente diferentes. Nós
podemos ter uma inteligência infinita que está completamente controlada via essa função
objetivo. Portanto, as pessoas que não sabem que os sistemas de inteligência
social são controlados por uma função objetiva têm grandes confusões. As pessoas
que sabem... O que nós estamos a fazer em aprendizagem, como já
falámos há pouco, é evolução acelerada. E a evolução para as máquinas
nos servirem. A cada momento, em cada geração, as máquinas, os programas
que não nos servem, morrem. Aliás, uma analogia simples é a seguinte.
Se tu tens cão, não te preocupas que o teu cão te
vai matar esta noite, de repente. O que é cão? O cão
é lobo domesticado. E os lobos matam pessoas. Agora, nós evoluímos os
lobos para se tornarem cães. E por isso não temos mais eles.
Agora, se tu não tens medo do teu cão, porquê é que
havias de ter medo de robô que foi ainda muito mais completamente
evoluído por nós para nos servir?
José Maria Pimentel
Pois, é que eu acho que o teu ponto é que vai
mais longe do que isso, não é? Porque o cão... Enfim, eu
tenho duas cadelas e tenho a certeza, no sentido heurístico, de que
elas não vão fazer nada. Mas não é impossível. Há casos de
cães que agredem os donos, porque lá está, às vezes até por
ter tumor no cérebro, ou qualquer coisa, não é? Quer dizer, isso
é possível. O teu ponto é que aqui é impossível.
Pedro Domingos
Precisamente. Não, mas isso é ponto importante. Aliás, penso que todos concordamos,
o risco destas coisas acontecerem é pequeno, mas não é zero. Agora,
aqui a discussão é, quanto mais pequeno, menos nos iremos preocupar com
ele. E agora, quanto menor a probabilidade, e portanto, eu diria que
probabilidade de uma destas coisas acontecer é 0,001%, mas há quem diga
que é 0,1% e há quem diga que é 10%.
Pedro Domingos
Não, não, por exemplo, do sistema, aliás, os sistemas de interseccional por
natureza própria têm sempre alguma autonomia.
E o
que as pessoas dizem, ah, mas esse sistema, nós, portanto, vamos agora
para a ocupação das pessoas que são mais socialistas, portanto, ah, sim,
sim, Nós dissemos quais é que são os objetivos do sistema, mas
o sistema depois escolhe os seus sub-objetivos.
José Maria Pimentel
Eu percebo, eu percebo o teu ponto, mas dos viéses do nosso
cérebro é o viés da negatividade, não é? E que não vem...
Exato. Não surge do nada, não é? Nós temos mais falsos positivos
do que falsos negativos porque se olharmos para o lado este, na
savana, e parece que vimos leão, mas não é leão, pá, se
calhar tivemos ali uma libertação de adrenalina escusada, mas se tiver leão
ao nosso lado e nós não virmos o leão, vamos dar-se para
melhor. Portanto, preocupa-nos mais a negatividade porque, dizendo de outra forma, o
risco do extermínio da humanidade não é recuperável. E o benefício de
teres mais gente no mundo ou de aumentar a longevidade é bom,
Mas não é simétrico, é o que eu quero dizer, não é?
Pedro Domingos
Precisamente, precisamente. Mas continuando com essa analogia, que acho que é uma
boa analogia, aliás, não é uma analogia. Este fenómeno todo vem precisamente
da nossa amígdala a disparar com o instinto do medo,
que vem
precisamente disso. É, mais vale ter medo dos arbustos, quando eram só
arbustos, do que não ter medo quando estava lá leão e leão
te mata. Mas agora repara, há aqui dois aspectos, é a evolução
que alibrou esse fenómeno. Se tu tivesse tanto medo de tudo o
tempo todo que nem sequer saíste da tua caverna morrias de fome.
José Maria Pimentel
Sim, sim, isso absolutamente. Sim, sim, sim, sim. Bom, Pedro, isto, enfim,
só esta parte dava episódio por si só, mas eu não quero
tomar mais o teu tempo. Sei que tens livro para recomendar, não
sei qual é, nem sei se está estritamente relacionado com o tema.
Enfim, o teu livro já está implicitamente recomendado, mas para lá disso,
não sei o que é que vais recomendar, o que é que
nos traz?
Pedro Domingos
Aliás, toca nem vários pontos em que a gente aqui falou, mas
o Teorema de Godel é teorema que, aliás, ele tem vários teoremas,
mas o teorema mais conhecido é teorema que mostra que há teoremas
que são verdade mas não podem ser provados. É teorema fundamental na
matemática porque no princípio dos séculos XX, o grande objetivo da matemática,
enunciado pelo Hilbert, que era o meio matemático dessa altura, etc. Era,
nós vamos automatizar tudo. Aliás, automatizar é uma versão moderna disto. Era.
A ideia é todas as verdades matemáticas do universo nós vamos prová-las.
Pedro Domingos
Temos axiomas e depois provamos a partir dos axiomas. O que o
Godel aprovou, que deixou as pessoas completamente estarrecidas, eu estou a omitir
aqui alguns pormenores importantes, mas simplificando, o que ele mostrou foi que
há coisas que são verdade, matematicamente verdade, Há verdades matemáticas que não
podem ser provadas. Isto é uma coisa que a pessoa, pelo menos
para quem sabe a matemática mais banal, é bocado como é que
isso pode ser possível, como é que isso pode ser possível provar
tal coisa. Existe teorema, que é teorema, Portanto, há sistema formal, há
certos axiomas e o que ele mostrou para ser bocadinho mais preciso,
aliás relevante para a Indústria da Cidade Social, é que os sistemas
de axiomas que nós usamos na matemática todos têm certas coisas em
comum, básicas, por exemplo a existência de números naturais. A partir do
momento em que tu presumes que existem números naturais que vão até
ao infinito, em qualquer sistema que tenha este axioma, há teoremas verdadeiros
que são indemonstráveis. Verdadeiros, mas indemonstráveis. Portanto, este foi terramoto na matemática.
E há também muita gente que diga que, ah, então este artesanal
é impossível por causa do teorema de Gödel.
O que
é disparate completo, mas isso é outra conversa.
Mas, portanto,
é teorema fascinante em si mesmo e com montes de ramificações e
implicações. E O livro basicamente, Gödel, Escher, Bach, é o Gödel, o
Escher e o Bach. O que ele faz é uma analogia entre
o Teorema de Gödel e a arte do Escher e a música
do Bach. Na realidade, o que ele usa é a arte do
Escher e a música do Bach para explicar o Teorema de Gödel.
O livro em si é divertidíssimo porque tem diálogos entre Aquiles e
a tartaruga. Quer dizer, é livro extraordinariamente imaginativo e tem puzzles matemáticos
e faz uma coisa extraordinária que é o livro basicamente é sobre
lógica e como demonstrar teoremas, que é uma coisa que tu pensas
que é demasiado, extremamente seca, chata e ele torna-no-a uma coisa completamente
fechante e ao mesmo tempo explica as coisas a sério como deve
ser. Tu sabes, ao contrário de muitos livros de divulgação que fazem
umas analogias e a pessoa pensa que percebeu mas não percebeu. É
livro em que de facto tu percebes aquilo a sério e vês
também, pronto, e depois ele passa uma grande parte a falar da
indigensidade social em parte por causa da relação com isto e em
parte porque, pronto, se ele também se interessa
por ela.
Portanto, é livro extremamente divertido de se ler e em que tu
aprendes uma quantidade enorme de coisas sobre várias áreas desde a matemática
até a inteligência social até a música até a arte
Pedro Domingos
Parece bizarra vista de fora, mas eu sei o que é que
aconteceu. Aliás, é bastante simples, que é o seguinte, portanto... Aliás, quando
ele diz sentiente, o que ele quer dizer com isso é consciente.
Consciente, exatamente.
O que ele disse foi que eu estou a falar com uma
pessoa. Isto não é computador. Eu mostrava os diálogos que tive, é
impossível ter diálogo destes com algo que não tenha consciência. Portanto, tem
consciência e agora a revelação, etc, etc. Agora, porquê que isto aconteceu?
Por uma combinação de coisas. Muito interessante. A primeira coisa que nós
já falámos é que estes temas, era parecido com a chatos CPT,
têm uma capacidade inacreditável de parecer humanos. Eles estão apenas a gerar
a palavra seguinte, mas estão a gerá-la imitando os seres humanos e
têm uma capacidade enorme de fazer isso. Portanto, voltando mais uma vez
ao Mark Lovebot do meu filho, não deve surpreender ninguém que quando
tu falas com destes temas ele te parece humano, porque foi otimizado
para ser humano.
Pedro Domingos
O que é ótimo, aliás, Isso é que é bom que está
a acontecer, isso é muito salutar. Mas o outro passo foi que,
o passo final, mas eu vou agora anticipar, foi uma jornalista do
Washington Post, muito esperta, que pegou neste tipo e fez uma história,
fez grande escarcel. Diz, engenheiro da Google, declara que o sistema de
educação social é consciente. E a reação das pessoas é, ah, se
isto é engenheiro da Google, não é imbecil qualquer, ele deve ter
credibilidade. E a partir daí, pronto, para ela foi sucesso enorme, like,
centenas de histórias sobre isto. Portanto, desperteza dela ou boa capacidade jornalística,
digamos assim. Mas porquê que isto aconteceu? Porque esse engenheiro da Google
não foi dos engenheiros da Google que são especialistas em aprendizagem automática.
Ah, ok. Porque os que
são especialistas em indecencia automática, aliás, essas pessoas riram-se, como eu me
rio com todos nos rimos. Quando eu vi essa história, caí da
cadeira a rir. Esse foi engenheiro da Google, do grupo precisamente da
Ethical AI, ela queria entrevistar uma pessoa sobre isto, foi ao grupo
da ética de indecencia social, que é precisamente o pessoal que data
destas coisas dos enviesamentos e não sei quantos, que são pessoas que
em geral não são especialistas em indecenciedade social, pelo menos a este
nível, e essas pessoas não quiseram, portanto encaminharam a jornalista para este
engenheiro, que é apenas engenheiro de baixo nível e francamente imbecil que
estava ali a fazer umas coisas, aliás penso que nem sequer era
empregado permanente ou não sei muito bem qual era a posição dele,
mas portanto é tipo muito mais ignorante sob a indecensidade social do
que as pessoas pensam que ele era, portanto, as pessoas deram à
história dele uma credibilidade que ela desvaga e depois obviamente perdeu o
emprego, mas enfim, devia ter tido mais cuidado.