#149 Pedro Domingos - O que falta para a Inteligência Artificial nos superar?

Click on a part of the transcription, to jump to its video, and get an anchor to it in the address bar

José Maria Pimentel
Olá, o meu nome é José Maria Pimentel e este é o 45 Graus Regressado de Férias. Espero que as vossas tenham sido descansativas, as minhas mais ou menos, mas também ninguém mandou ter filhos E o episódio de hoje é grande tema e grande convidado para o regresso, como vão ver. Antes disso, o habitual agradecimento aos novos mecenas do 45 RAUS. Desta vez, desde julho, são muitos e por isso tive de selecionar só alguns nomes. Muito obrigado à Sasha Fonseca, à Inês Barbosa, ao Mauro Silva e ao Leonardo Azevedo. Agradeço também a todos os que se inscreveram nos workshops de pensamento crítico do módulo Lógica e Argumentação que estou a fazer estes meses e que anunciei no episódio de final de temporada em julho. Os workshops estão todos gotados, com exceção de Coimbra, dia 23, e de Braga, que entretanto passou para dia 21 de outubro. Vejam no site ou na descrição deste episódio como fazê-lo. Se tiverem ainda interesse nas versões online em Lisboa ou no Porto, vejam também na descrição do episódio como deixar o vosso email para receberem notícias futuras de novas sessões que venham a haver. Pelo menos mais uma sessão online, quase de certeza que vou fazer. E agora ao episódio de hoje. Desde que o Chat GPT foi lançado no final do ano passado, que o tema da inteligência artificial veio de novo em força para a discussão, gerando entusiasmo e receios, e muitas vezes na mesma pessoa. Entusiasmo por este grande salto tecnológico, e neste caso é que nós não nos limitamos a ver em notícias como quando algoritmos conseguiram vencer seres humanos no xadrez ou no jogo de gó, mas que nós próprios conseguimos usar diariamente de várias maneiras. Mas também receio porque, claro, o contacto com o chat GPT mostra-nos como a inteligência artificial já está muito avançada e portanto voltou em força a conversa em torno dos perigos da Inteligência Artificial. Estava, por isso, mais do que na altura a trazer este tema de volta ao 45° e dificilmente poderia pedir melhor convidado para isso. O Pedro Domingos é professor e investigador na área da Inteligência Artificial e é autor do livro Master Algorithm, ou em português, A Revolução do algoritmo mestre. O Pedro licenciou-se pelo técnico em Lisboa e depois doutorou-se nos Estados Unidos na Universidade da Califórnia, em Irvine, e é atualmente professor em mérito na Universidade de Washington. Ele tem uma grande investigação nesta área, da inteligência artificial e da ciência de dados, pela qual recebeu em 2014 o prémio SIGS, não sei se estou a dizer isto bem, o prémio mais prestigiado nesta área. No seu livro, o Algoritmo Mestre, que tem dado muito o que falar desde que foi lançado, o Pedro aborda o modo como o Machine Learning está a mudar o mundo e o livro foi escrito, atenção, antes do ChatsCPT ter vindo dar este salto mais recente, mais uma vez baseado em Machine Learning. No início da nossa conversa, pedi-lhe então que descrevesse o que é revolucionário nos modelos de Machine Learning face à inteligência artificial mais clássica e depois pedi-lhe que ele encasse as 5 famílias de modelos deste tipo, aquilo que ele chama as 5 tribos de modelos de Machine Learning. O Pedro organiza os modelos nesta área, e atenção, isto é uma taxonomia proposta por ele, mas como vão ver faz sentido, ele organiza-os em cinco famílias diferentes. Os conectivistas, nos quais se inclui o GPT, os simbolistas, os evolucionistas, os natureza Bayesiana e os baseados em analogias. Pedi ao Pedro que explicasse estes 5, sendo que depois, como seria de esperar, passámos mais tempo a descrever os modelos do tipo conectivista e em particular a perceber como funciona especificamente o chat GPT. De seguida discutimos o elemento central da tese que o Pedro propõe no livro, aquilo a que ele chama o algoritmo mestre. Perguntei-lhe o que ele quer dizer exatamente com o algoritmo mestre e como é que isso se relaciona com o grande objetivo nesta área, que é chegar à chamada inteligência artificial geral, ou seja, capaz de desempenhar qualquer tarefa humana. Isso levou-nos a discutir o que é que é ainda especial e difícil de replicar no cérebro humano pela inteligência artificial. Isso é, segundo Pedro e muita gente nesta área, e não só, também na filosofia, a capacidade de generalizar, ou seja, de reagir, de entender a uma situação nova que nunca tenha sido visto no passado. Isso é algo que estes algoritmos, mesmo o THPT, têm ainda muita dificuldade em fazer. E finalmente, no último terço da conversa, abordámos o tema incontornável dos perigos na inteligência artificial. Será que vem aí uma singularidade, Ou seja, que o desenvolvimento tecnológico irá crescer exponencialmente? E será que a inteligência artificial vai sair de controle ou pode sair de controle já na sua configuração atual? Que outros perigos é que existem de curto e longo prazo? Foi assim que terminámos esta conversa, muito desafiante e que, na minha opinião, foi dos episódios mais densos em conhecimento e em ideias, porque o Pedro também tem algumas ideias controversas dos últimos tempos no 45°. Espero que gostem, até à próxima. Pedro Domingos, muito bem-vindo ao 45°. Obrigado. Eu já falei aqui algumas vezes, tanto de inteligência artificial como de machine learning, mas acho que faz sentido, até para quem não tem ouvido esses episódios, e para entrarmos aqui no tema, eu pedi-te para explicar a machine learning e porque é que é este paradigma que tem, este macro paradigma que tem dominado a inteligência artificial nos últimos anos. Isto já acontecia antes e desde o chat GPT e outros modelos de chatbot que têm dado muito a falar nos últimos tempos, dá a ideia que é a única coisa que se fala. O que é que existe no machine learning que é diferente e que o torna muito mais versátil e potente do que a inteligência artificial clássica, digamos assim, não sei se este é o termo certo.
Pedro Domingos
Sim, portanto, em primeiro lugar, o que é inteligência artificial? A inteligência artificial, assim, em termos leigos, é automatizar as coisas que os seres humanos fazem, que os computadores à partida não fazem, como por exemplo o pensamento, resolver problemas, o senso comum, a visão, a linguagem. Uma dessas capacidades que nós procuramos automatizar é a aprendizagem. Machine Learning ou aprendizagem automática é o subcampo da indigência artificial que trata de automatizar a aprendizagem. E porquê que isso é tão importante? Houve uma prévia onda de indecencia artificial que atingiu o máximo nos anos 80 em que o método era método clássico de escrever programas para fazer diagnóstico médico ou para fazer calcular coisas, etc. Mas esse paradigma falhou. E a razão porque esse paradigma falhou, portanto a ideia é, nós vamos escrever monte de regras aos chamados sistemas periciais, etc. Dos problemas aos chamados, o problema da aquisição do conhecimento, é, há demasiado conhecimento necessário e há sempre mais regras e a certa altura houve projeto muito conhecido chamado Cycles que diziam em 10 anos com 100 mil regras está a intensidade social resolvida. 30 anos depois com milhões de regras ainda não está. Esse problema é resolvido pela aprendizagem automática. Em vez de escrevermos programas, o que a aprendizagem automática faz é, os programas são aprendidos automaticamente a partir dos dados. Nós damos ao sistema de aprendizagem exemplos do input, por exemplo, os sintomas do paciente, e o output desejado, por exemplo, o diagnóstico correto, e o sistema descobre como é que faz a computação do output pretendido a partir do input. E isto é extremamente poderoso porque, em primeiro lugar, resolve esse problema chamado knowledge acquisition bottleneck, o estrangulamento da acusição do conhecimento. E outro aspecto extremamente importante hoje em dia é que à medida que os dados disponíveis aumentam, o sistema torna-se mais inteligente, quase sem intervenção nossa. Uma das grandes diferenças dos anos 80 para agora é que a quantidade de dados disponível tentava aumentar exponencialmente e, portanto, esta abordagem baseada na aprendizagem torna-se cada vez mais poderosa, enquanto que a outra continua tão pouco poderosa como sempre foi.
José Maria Pimentel
Sim. E eu já ouvi dizer várias vezes, e presumo que seja verdade, que os algoritmos em si de Machine Learning são pouco diferentes do que já existia há algumas décadas. O que mudou foi essencialmente mais computação e muito mais dados do que havia antes que no fundo deram esta grande vantagem.
Pedro Domingos
Isso é verdade e não. De facto, isso é uma posição muito comum, mas eu penso que a realidade é a seguinte, há três grandes fatores no sucesso da aprendizagem, haver mais dados, haver mais computação, porque sem mais computação a gente não consegue ter perdido os mais dados. E também é verdade, e isto para mim é aspecto interessante, que os grandes paradigmas da aprendizagem automática, os grandes tipos de algoritmos, digamos assim, são os mesmos desde os princípios, desde os anos 50. As ideias básicas neste campo que está a mover-se a uma velocidade incrível são as mesmas agora que eram há 50 ou 60 anos. Mas o que nós podemos fazer hoje em dia depende criticamente de inovações algorítmicas que foram feitas nos últimos 10, 20, 30 anos. Portanto, nós mesmo com essa computação toda e esses dados todos, se só tivéssemos hoje exatamente os algoritmos que tínhamos nos anos 80, não íamos ao lado nenhum. Portanto, essa inovação dos algoritmos é também muito importante.
José Maria Pimentel
Sim. E o que é que acontece lá dentro especificamente? Porque tu deste uma explicação que eu já ouvi dizer muitas vezes que é basicamente nós damos os inputs e os outputs e o próprio algoritmo, quer dizer, o próprio sistema aprende automaticamente a ligar uns e outros, e eu entendo essa explicação até certo ponto, mas está lá alguma coisa dentro, não é? É certo que não está, ou que estava nos algoritmos clássicos, que era tudo pré-escrito, a totalidade, mas há uma infraestrutura, há uma arquitetura que permite ligar esse input aos outputs. E depois eu sei que há muitos paradigmas diferentes dessa arquitetura, mas quer dizer, se é possível explicar isto genericamente, o que é que lá está, quer dizer, aquilo não é algoritmo vazio, naturalmente, porque senão não precisava ter sido inventado, o que é que lá está que permita depois que existe essa aprendizagem, que existe essa quase autoprogramação a partir daquele ponto inicial.
Pedro Domingos
Precisamente, aí é que está o ponto essencial. E o que está lá podem ser várias coisas, como estavas a dizer, há vários paradigmas. O paradigma mais conhecido hoje em dia, o chamado Deep Learning, Conexionismo às redes neuronais, é baseado na ideia de imitar o cérebro. O teu cérebro faz isto. Não é magia. Recebe determinados inputs e aprende a associá-los a outros outputs, etc, etc. Como é que ele faz isso? Tens dentro do teu cérebro uma grande rede de neurónios e essa rede de neurónios, por exemplo, te vês uma imagem de gato e dizes Ah gato, como é que foi feita esta associação? Neste paradigma o que acontece é que há uma rede que computa várias saídas possíveis e depois o que compara é as saídas inicialmente é aleatório os pesos são aleatórios como no teu cérebro, presumivelmente E depois o que faz é ajustar esses pesos para tentar fazer o output pretendido e o output gerado aproximarem-se. Isto é algoritmo muito interessante chamado de backpropagation, a retro-propagação.
José Maria Pimentel
Que é o que está por trás do Chatterpitt e outros, não é?
Pedro Domingos
É o que está por trás destas coisas todas. Esse algoritmo a certo nível é uma coisa extremamente simples. Está apenas a fazer o seguinte, está a minimizar o erro das previsões feitas pela rede neuronal. A rede neuronal é simplesmente uma função muito grande, muito complicada, não linear, que ajustando os pesos pode se transformar em qualquer função possível. Isto é teorema que diz que com o suficiente capacidade podes realizar qualquer função. E o que a reta programação faz é apenas minimizar a diferença, é ajustar os parâmetros da função para minimizar a diferença entre a previsão e a realidade. De certa forma é uma coisa estupidamente simples. Agora fazer isto tudo funcionar é extremamente complicado, mas a ideia base é que é ridiculamente simples. Pronto, isto é os métodos conexionistas. Há também os métodos simbólicos, que tradicionalmente são os que dominavam antes desta nova vaga. Aliás, é engraçado que todas as décadas há paradigma diferente a dominar e as redes neuronais já vêm na sua terceira onda. Houve anos 150, depois houve anos 80, agora vem outra e se calhar depois houve outras. Portanto, quais é que são as outras? Os outros paradigmas que se vão alternando na dominância, o conexionismo é baseado na neurociência.
José Maria Pimentel
Sim, no fundo replicar como dizias o nosso cérebro funciona.
Pedro Domingos
É, não funciona muito certo. E portanto cada destes paradigmas, por acaso isso é interessante, é baseado numa área diferente da ciência em que nós vamos buscar ideias.
José Maria Pimentel
Sim, tu explicas isso no livro, que tem muita piada.
Pedro Domingos
Pois, precisamente. Aliás, uma das coisas interessantes neste campo é que a propósito da aprendizagem a pessoa vai quase a todo lado. Eu, aliás, digo
José Maria Pimentel
aos meus alunos,
Pedro Domingos
se gostas de uma área qualquer que ainda não foi usada na aprendizagem, começa a trabalhar em aplicá-la que pode ser que resulte. Outra grande área é a aprendizagem simbólica que é baseada na lógica e na matemática e de certa forma o que essa abordagem pretende fazer é automatizar o método científico. O método científico descobre coisas e como é que descobre? Observando, formulando hipóteses e depois deitando fora ou refinando as hipóteses. Os teóricos cientistas fazem de uma forma simplificada. E, portanto, nós podemos automatizar isto. Da mesma maneira que podemos automatizar o cérebro, podemos automatizar isto. O automatizar o cérebro é fazer as coisas a nível muito baixo e, aliás, é para as coisas de mais baixo nível que o conexionismo costuma funcionar bem. Isto é mais a nível mais elevado, de raciocínio mais consciente, chamar de sistema 2 em vez do sistema 1.
José Maria Pimentel
Sim, por acaso também me lembra disso, curioso.
Pedro Domingos
Há pessoas que fazem essa comparação. Portanto, esta é a abordagem simbólica. Depois há a abordagem evolucionária, que também é baseada na biologia, mas não na neurociência, mas na evolução. A evolução também é algoritmo de aprendizagem descobre como fazer animais
José Maria Pimentel
e plantas desculpa interromper-te mas tu dizias há bocadinho que este sistema, os algoritmos conectivistas e estes de largas lénguas modals começavam com pesos aleatórios mas o nosso cérebro provavelmente não começa com pesos aleatórios precisamente porque já vem da evolução,
Pedro Domingos
não é? Não, aliás, os pesos provavelmente são aleatórios porque tem que ser, há demasiado, no teu cérebro há trilhões de ligações, portanto o teu genoma não tem capacidade de conter isso, mas o que o teu genoma contém que é extremamente importante é a arquitetura do teu ser e nas aprendizagens conexionistas a arquitetura é predeterminada, portanto o pessoal, os evolucionistas dizem ah mas essa arquitetura de onde é que vem? Vem da evolução. A evolução é que evolui o teu cérebro e o meu e o dos ratos e das abelhas e tudo e mais alguma coisa. E a gente sabe como é que funciona a evolução. Há uma geração, uma população, depois mede-se a sua chamada fitness. Não sei agora como é que se diz em português, mas portanto é...
José Maria Pimentel
Sim, adequação ou adaptação talvez.
Pedro Domingos
Adaptação, portanto, a pessoa aplica esses animais que neste caso são programas ou circuitos ou robôs ou qualquer coisa ao problema e os que dão melhores resultados depois faz-se a reprodução, literalmente faz-se a reprodução faz-se, há operador chamado crossover que é misturar o genoma de dois pais, do pai e da mãe, digamos assim, para produzir filho, literalmente produzem uma geração de filhos e depois repete-se. E o que é extraordinário é que a pessoa começando com os genomas aleatórios ao fim de uma centena de gerações está a fazer coisas melhores do que os seres humanos em muitas áreas. Portanto, esta abordagem evolucionária. Depois, outra abordagem que é baseada na estatística, em particular na estatística bayesiana. Aliás, os bayesianos olham para isto e dizem, ah, mas isso tudo são heurísticas e se calhar a biologia, a pessoa sabe lá, a biologia faz toda a espécie de disparates. Portanto, a gente tem a ter uma abrodagem com princípios de otimização e o princípio fundamental é o Teorema de Bayesian. Portanto, daí o ver o nome da aprendizagem é Bayesian. Sim, já falamos aqui. Portanto, A ideia aí é, nós temos espaço de hipóteses, qual é a função que te diz gato ou cão a partir de imagens de cão ou de gato. Temos esse espaço de hipóteses e depois temos a priori a probabilidade de cada uma dessas funções ser a função correta. E depois à medida que nós vamos ver dados, a probabilidade evolui. Portanto há o chamado em estatística o princípio da máxima versimilhança, que é a tua hipótese é provável se diz que o que tu estás a ver é provável. Se a tua hipótese diz que tu estás a ver é improvável, então a hipótese é improvável. Portanto, as hipóteses que concordam com o que tu estás a ver, tornam-se mais prováveis e as que discordam com o que estás a ver, tornam-se menos prováveis. E depois as previsões são feitas por uma média ponderada de todas estas hipóteses em que as mais prováveis contam mais. Portanto, há probabilidade a priori multiplicada por a semelhança, que é a parte que depende dos dados, produz a probabilidade a posteriori que é, depois de eu ter visto estes dados agora, qual é que acho que são as hipóteses mais prováveis e essas questões contam mais.
José Maria Pimentel
E assim sucessivamente, não é? Vais com processo iterativo em que vais atualizando sempre
Pedro Domingos
a priori. Até convergir. E portanto, se a população de que eu estou a fazer mostragem for estável, isto converge, finalmente, para a hipótese óptima. Ou para conjunto de hipóteses indistinguíveis, igualmente boas, mas esses já são pormenores. E depois, finalmente, há uma abordagem que é baseada na psicologia, que é a da analogia. E que é, eu tenho-me dado conta, que em geral, para a maior parte das pessoas é a mais intuitiva, porque de facto nós todos funcionamos. A gente não sabe neurologia, não sabemos evolução, não sabemos estatística, mas nós funcionamos por analogia todos os dias. Portanto, a ideia da analogia é, quando tu tens que resolver problema, por exemplo, eu sou médico, estou a tentar fazer o diagnóstico de uma nova paciente, eu vou procurar pacientes antigos que tenham sintomas semelhantes e o que tiver os sintomas mais parecidos é o que eu vou dizer, ah, tu és parecida com este, portanto vou-te dar o mesmo diagnóstico. Isto, mais uma vez, é uma ideia ridiculamente simples, mas extraordinariamente poderosa. Portanto, nós com dados suficientes, simplesmente com este princípio, conseguimos aprender qualquer função. Portanto, a ideia da aprendizagem automática é poder aprender qualquer coisa e nós com este método somos capazes de fazer. Portanto, são todos paradigmas diferentes e cada deles tem uma escola, digamos assim, uma tribo de investigadores que acham que esta é a solução e portanto vamos ver o que é que acontece em última análise.
José Maria Pimentel
Sim, tu chamas precisamente as cinco tribos.
Pedro Domingos
Porque são as cinco tribos, de facto, são tribos. Eu acho, eu penso que isto existe em todos os campos. Ah sim, sim, claro. E também na sociedade social, portanto, não há grande certeza aí.
José Maria Pimentel
E os beisianos em particular são muito... Fanáticos. São muito fanáticos, sim, certo.
Pedro Domingos
São os mais fanáticos. Aliás, por razões históricas interessantes, porque os beizenos vêm da estatística e na estatística, tradicionalmente, o campo é dominado pelos frequentistas. Exato. E os beizenos foram sempre uma minoria reprimida, oprimida, portanto, tiveram que ser muito fanáticos para sobreviverem. E depois isso se transfere também para a ciência artificial, para a aprendizagem automática, portanto...
José Maria Pimentel
Survival of the fittest, outra vez. De certa forma, é. Eu, por acaso, gosto muito do Teorema de Bayes e até falo disso num workshop de pensamento crítico que dou, porque é muito útil para formar opiniões com incerteza, que é basicamente o mundo em que nós vivemos, 99,9% do tempo, e depois conseguir tomar decisões. Voltando atrás, tu dizes, isto são cinco escolas, digamos assim, cinco paradigmas, que embora nem todos tenham sempre o mesmo peso, há modas, e atualmente estamos na moda, ou pelo menos na tendência dos conectivistas, que foram aqueles primeiros que falaste, mas eles também têm usos diferentes, ou seja, cada tem de certa forma aquilo em que é melhor, e estes beis e anos são melhores em que?
Pedro Domingos
Não, precisamente, Portanto, esse é que eu penso que é o ponto essencial que infelizmente muitos dos meus colegas parecem não compreender, que é cada destes paradigmas foi motivado por certos problemas e resolve esses problemas muito bem. Mas o problema é que para resolver a indizença artificial nós temos que resolver todos esses problemas. Portanto, nenhum desses paradigmas é suficiente. Portanto, eu penso que nós precisamos de uma unificação desses paradigmas, pelo menos e se calhar ainda mais. Isto Para mim é completamente óbvio e para muita gente também, mas pronto, vamos ver onde é que isto vai. Agora, os beiseanos, a grande qualidade dessa abordagem, e o que eles estão sempre a insistir, é que todo o conhecimento adquirido por aprendizagem é incerto. A incerteza é inescapável, por muitas razões. E é, acho que ninguém devia. A incerteza é inescapável. E agora, o que a verdadeira benzina faz é quantificar a incerteza através da probabilidade e fazer o cálculo correto de umas probabilidades a partir de outras. E há ponto aqui muito importante em que eles têm razão, aliás é matematicamente indisportável que é. Há certo número de propriedades básicas do cálculo da incerteza que implica que tem que ser feito com probabilidades. Qualquer outra abordagem está necessariamente errada. É por isso que eu sou tão fanático. Aliás, os beysianos vão a todos estes outros paradigmas e desenvolvem a versão beysiana das redes neuronais, da analogia dos métodos simbólicos, porque tem que haver uma versão.
José Maria Pimentel
Já é começo para essa integração.
Pedro Domingos
Exato. Mas este nível está completamente roto e aliás uma grande parte da minha investigação tem sido a combinar métodos bayesianos com aliás tem sido a combinar método com outro em muitos casos por exemplo métodos bayesianos com os métodos simbólicos etc etc mas agora aqui grande problema grande enorme problema que é o problema do custo computacional. O custo computacional da aprendizagem baseana é astronómico. Porque a gente, para fazer a aprendizagem baseana correta, a pessoa tem que fazer a média ponderada de todas as hipóteses. E se os partes de hipóteses que a gente considera for pequeno, provavelmente não inclui a correta, não inclui a verdadeira definição de gato e de cão. Se for suficientemente grande para incluir tudo o que é preciso. É tão grande que precisava computador muito maior do que o universo para fazer o cálculo. Portanto, nós temos necessariamente que fazer o cálculo aproximado e é nisso que os beiseanos passam 99% do seu tempo, é tentar melhor maneiras de fazer o cálculo aproximado. E a certa altura a pessoa dá-se conta, ou pelo menos eu dei-me conta que, quando a pessoa começa a fazer essas aproximações, volta outra vez para as heurísticas. E a certa altura está a fazer uma coisa que não é mais nem menos heurística do que os outros todos. Portanto, a certa altura, embora a probabilidade seja teoricamente a maneira correta de fazer as coisas, na prática não é suficiente. E agora, o que é que a pessoa faz em vez disso? Essa é que é uma questão de investigação interessante que continua em aberto.
José Maria Pimentel
É interessante porque isso tem certo paralelo com a utilização da regra do Bayesian na vida real, digamos assim, porque uma das vantagens daquele tipo de abordagem é que do ponto de vista conceptual tu podes utilizar esta abordagem Bayesiana para formar opiniões, por exemplo, em que em vez de formares uma opinião binária, formas uma opinião probabilística sobre determinado tema, sei lá, sobre se o mercado de trabalho deve estar mais ou menos liberalizado, por exemplo, e vês que tens uma opinião binária formas uma opinião probabilística que vais atualizando à medida que vais lendo artigos, por exemplo, só que na prática é impossível fazer isso, não é? Então estás de volta às heurísticas e é interessante perceber que isso também acontece
Pedro Domingos
com os algoritmos. Aliás, a esse nível conceptual eu acho que de facto toda a gente deve compreender esta abordagem porque é importante a pessoa não pensar que as coisas que são binárias quando elas na realidade não são. E aliás, depois há a combinação das probabilidades que nós aprendemos com as utilidades e com a teoria da decisão. E essa é que é a maneira correta de tomar decisões. O resto são aproximações. Mas há aqui ponto muito importante que é, nós darmos conta da incerteza e usarmos probabilidades não implica o bayesianismo, implica a probabilidade. Mas os frequentistas dizem, ah sim concordo com isso tudo, mas esse beizenismo é que não. A característica do beizenismo que é extremamente controversa e que por exemplo é grande obstáculo à sua utilização nas ciências é que as probabilidades a priori é o que te apetecer, são subjetivas. Pois, claro, subjetivas. A diferença entre os beizenos e os frequentistas é que as frequentistas dizem, ah que não, as suas probabilidades a priori também têm que vir da frequência de eventos. Daí o nome frequentista é. Eu digo que a probabilidade deste ser gato é 80%, 80% dos objetos que eu vejo são gatos. E os beizinhos dizem que eu vou com os olhos fechados à priori dizer que a probabilidade de gatos é de 90% e eu digo, ah mas porquê? E tu diz, ah isto é subjetivo e isto do ponto de vista da ciência é uma coisa que faz bocado as pessoas não gostarem
José Maria Pimentel
sim, no longo prazo convergiriam para o mesmo, não é só que o problema que deduzo eu é que o beinzeno para convergir precisa dessa capacidade computacional que muitas vezes é impossível.
Pedro Domingos
Aliás, precisamente a longo prazo convergem para o mesmo, desde que, a priori, não demos probabilidade zero à hipótese correta.
José Maria Pimentel
Sim, pois, exato, certo, certo.
Pedro Domingos
Mas a longo prazo, aliás, nós chamamos-lhe o asimptopia, é a utopia asimptótica, a asimptopia, digamos assim, em que temos dados infinitos. O bayesianismo é desnecessário, porque aí basta a máxima versemelhança. A pessoa simplesmente calcular a frequência chega. Portanto, a vantagem do Bayesianismo é quando nós não temos muitos dados e também é nesse caso que é fiável, porque quando temos dados infinitos não temos capacidade de os processar. Pois, pois, pois.
José Maria Pimentel
E isto é usado em quê? Este tipo de algoritmos são usados na prática em que tipo de áreas ou em que tipo de tarefas? Por exemplo, tu à bocado falaste dos analogistas, eu tenho a ideia que são usados por exemplo em sistemas de recomendação, tipo o Amazon de livros e Netflix de filmes. O que faz sentido, não é? Porque é do género, tu gostaste deste filme, então provavelmente vais gostar de idêntico. Estes beizianos são usados normalmente em quê?
Pedro Domingos
Aliás, os sistemas de recomendação são uma grande aplicação dos métodos de analogia, mas a analogia que eles fazem é uma analogia diferente, esse por acaso é ponto interessante. O que tu sugestas agora é o que as pessoas começaram por fazer, mas isso não resulta muito bem. O que resulta espetacularmente bem está por trás de uma quantidade enorme de recomendações que nós recebemos da Netflix, da Spotify, de monte de coisas, é encontrar pessoas com gostos semelhantes aos meus. Se os teus gostos são semelhantes aos meus, o que tu viste e gostaste, o sistema recomenda a mim. Isso é que é espetacularmente poderoso. Portanto, é uma analogia entre pessoas, não uma analogia entre os produtos. Embora a pessoa pode fazer combinação etc.
José Maria Pimentel
Claro, claro, mas é one to one é isso? Ou seja, não é uma combinação de pessoas?
Pedro Domingos
Não, no caso mais simples é one to one, mas na realidade é uma combinação de pessoas. E lá às vezes, por exemplo, a Netflix pode estar a fazer uma recomendação de filme para ti baseado nas, sei lá, nas 30 pessoas mais semelhantes a ti. Sim, exato. Que podem estar nos antípodas mas têm gostos semelhantes
José Maria Pimentel
a ti. Exato, sim,
Pedro Domingos
sim. Agora, os métodos Bayesianos, a grande aplicação é precisamente onde, número quantificar em certeza é importante e, número dois, existem dados e o problema computacional é suficientemente possível para resolver. Portanto, tradicionalmente uma grande área de aplicação é em medicina. Há uma representação, tipo de método baseante chamado de redes baseanas. Se hoje em dia me perguntassem, olha, quer sistema para fazer diagnóstico médio, o que é que recomendo? Eu dizia, redes Bayesianas. Outro exemplo diferente, a Google, antes de vir a esta vaga dos sistemas neuronais, os grandes sistemas da Google eram Bayesianos ou pelo menos probabilísticos. Por exemplo, o sistema que escolhia os anúncios a mostrar nas páginas ou com os resultados de pesquisa, que é como a Google ganha todo dinheiro, era uma realeziana enorme. O sistema de tradução automática, portanto, aqui há 10, 15 anos havia já o Google Translate, que era sistema de tradução automática que as pessoas diziam, ah os tradutores vão todos perder os empregos, porque isto agora já faz tradução automática tão boa como as pessoas. Era mais uma vez destes sistemas probabilísticos em que aplicava o tirama de base, com a probabilidade a priori, por exemplo, estava a traduzir português para inglês, tinha a probabilidade a priori do que seria o inglês e tinha a probabilidade do inglês dar do português, combinava para produzir a tradução. Qualquer destas abordagens pode-se em princípio aplicar a tudo. Onde é que é melhor e é pior? Também há várias dimensões para que a gente pode olhar, mas em última análise não há como experimentar e ver. Sim, sim, sim. A inteligência artificial está sempre a dar surpresa. A pessoa apresenta que vai ser isto melhor e aquilo. Pensa que isto vai ser fácil, vai ser difícil e vice-versa. Por exemplo, uma das grandes descobertas da inteligência artificial que é muito relevante para a sociedade é que as pessoas partiram do princípio que iam ser primeiro as tarefas de manuais chamados blue collar a ser automatizadas, que são as de mais nível baixo e as de nível mais alto é que seriam as últimas, é precisamente o contrário. Aliás, eu gosto de dizer a brincar que a Indezenia Estadual Social é a vingança da classe operária. Porque eles perderam os empregos todos quando vem a automatização, etc. Mas ora, com a Indezenia Estadual social quem vai ser automatizado é os advogados e os professores
José Maria Pimentel
e etc etc É pelo lado físico não é?
Pedro Domingos
Pois, não, o físico é difícil. Exato, exato. O operário de construção tem uma série de capacidades psicomotoras etc que a evolução passou 500 milhões de anos a aperfeiçoar. Enquanto que uma profissão que precisa de curso superior, por definição, a evolução não nos adaptou a isso. Portanto, nós somos muito piores médicos do que somos operários da construção. Portanto, é mais fácil os computadores baterem-nos na medicina do que baterem-nos na construção.
José Maria Pimentel
Sim, que nos é menos natural. E se liga para cá, liga para cá uma pergunta que eu te queria fazer. Porque eu tenho ideia, enfim, acho que não estou muito enganado, que a robótica tem evoluído a ritmo mais lento do que o resto das ciências da informação. Não sei se estou a usar o termo correto. E portanto, nos últimos anos tem havido ascendente grande destes modelos de machine learning e agora mais recentemente nestes modelos conectivistas baseados em modelos de linguagem e o chat GPT em particular. E isto tem uma aplicação muito difícil na robótica, não é? Porque lá está, estás a lidar com skills e tarefas bastante diferentes. E dá ideia que a robótica, o que há uns anos era? Se há 20 ou 30 anos falássemos em inteligência artificial, aquilo que as pessoas se lembravam era de robôs. E agora já não, aquilo que as pessoas pensam é numa janela de browser.
Pedro Domingos
Precisamente, As pessoas, tradicionalmente, quando pensam em indecensar o cérebro, a primeira coisa é em que pensam é aos robôs. E portanto, a robótica é mais uma vez a automatização de certo tipo de capacidades humanas que têm a ver com o movimento. É a pessoa deslocar-se, pegarem coisas, fazer construções, etc. E a robótica, tens razão, é muito mais difícil do que os outros campos por duas razões. É precisamente este que, portanto, é genuinamente problema que nós ainda não sabemos como resolvê-lo. Portanto, a capacidade que os seres humanos têm de manipular coisas É extraordinária. A gente não compreende onde é que ela vem. Portanto, os algoritmos que funcionam, por exemplo, para o diagnóstico médico, para a robótica não chegam. E não é por falta da gente tentar. Há milhares de pessoas a tentarem há décadas. Depois, há outro aspecto muito importante hoje em dia, que é o chat GPT tira partido de haver trilhões de palavras na web. Portanto, para fazer linguagem, compreensão de linguagem, esse tipo de coisas, nós temos uma quantidade de dados espetacular. Para a robótica não temos. Eu tenho colega meu que a certa altura passou tempo na Google em que eles tinham centenas de robôs em paralelo, todos a brincarem para gerar dados para aprender. Mas mesmo isso não gera nem 0,01% dos dados que nós temos na linguagem.
José Maria Pimentel
Na robótica, por lado,
Pedro Domingos
é problema mais difícil e ao mesmo tempo também tem menos dados, portanto, é problema.
José Maria Pimentel
Sim, não levou a esse impulso, quer dizer, no fundo, grande parte do impulso da inteligência artificial nos últimos anos vem do big data, da profusão de dados, e na robótica isso não aconteceu, não tinha pensado nisso. E depois esse outro ponto que tu disseste também é importante, e liga àquela questão do ensino, Essas competências motoras são inconscientes por natureza. Por isso é que nós não conseguimos guiar carro. Quando nós guiávamos carro conscientemente era quando estávamos a aprender a conduzir. E não percebemos nada daquilo. Quando aquilo de repente entra no inconsciente, no automatismo, o que a pessoa faz? Só que depois não consegue replicar.
Pedro Domingos
Por acaso, esse é ponto importante. O ser inconsciente à partida não é problema. Aliás, dos grandes benefícios da aprendizagem é que nós podemos fazer o computador aprender coisas que nós não sabemos explicar. E guiar carro é precisamente o exemplo que o Otten disse. Estes self-driving cars que já existem há décadas, as pessoas pensam que é uma coisa recente mas existem há décadas, basicamente ele tem uma câmera de vídeo apontada para a estrada a ver o que a pessoa vê e está ao mesmo tempo a registrar o que é que a pessoa está a fazer com o volante e com os pedais e correlaciona as duas coisas, portanto aprende a guiar imitando-te.
José Maria Pimentel
Ah, os inputs, certo, certo.
Pedro Domingos
Tu sabes guiar, ninguém sabe como programar carro para guiar, mas com aprendizagem nós pomos o carro a guiar imitando as pessoas. Agora, infelizmente, não tão bem como as pessoas. Aliás, o problema do self-driving car é problema interessante porque, ao contrário de muitas áreas das robóticas, nessa área até temos muitos dados. A Google já tem milhões de horas de guia. Mas o problema é que 99.9% desses milhões de horas é a mesma chachada de sempre. É a repetição de coisas que o carro já sabe fazer. E depois de vez em quando aparecem estas coisas chamadas corner cases, que são aqueles casos raros mas importantes, em que a pessoa sabe o que fazer e o computador não sabe porque nunca viu nada nem nada parecido e portanto faz disparate completo.
José Maria Pimentel
Sim, nós sabemos pela experiência noutras áreas, não é?
Pedro Domingos
Pela experiência noutras áreas e pela generalização. Aliás, a questão essencial na aprendizagem e a generalização é a memorização é, ah, se eu tenho agora aqui paciente que é igualzinho a anterior vem o mesmo diagnóstico a arte toda da aprendizagem, quer nos seres humanos, quer nas máquinas, é eu tenho aqui paciente ou uma situação na estrada que é diferente de todas as que tive no passado, mas eu ainda sei o que fazer em buscar coisas que eu vi antes. E a grande diferença hoje em dia entre os seres humanos e a aprendizagem automática é que os seres humanos fazem generalização muito, muito mais longe do que a aprendizagem automática.
José Maria Pimentel
Essa, aliás, é uma, talvez, a grande crítica a estes modelos conectivistas, não é? Correta. E correta, sim, sim. Ou seja, que não conseguem, não é como se houvesse uma paisagem, eles não conseguem ir ao ponto ao lado, mas não conseguem... Precisamente. ...Saltar para ponto que está a uma distância grande ao contrário do que nós fazemos. Então, mas vamos por aí, que acho que é o percurso correto para depois irmos dar a este ponto que liga, acho eu, à tua ideia do Master Algorithm, do algoritmo mestre. Porque eu acho que vale a pena, até para quem nos está a ouvir, perceber pouco melhor esses modelos conectivistas que foram os primeiros que nós falámos e o Chatship e Tim particular. Tu explicaste no início que isto no fundo são redes neuronais e pelo que eu percebo, a grande parte do segredo é o facto de elas terem várias camadas, ou seja, não é só uma única camada são várias camadas que permitem fazer esta calibração e esta correção de erros ao longo do tempo E que de novo não é muito diferente do que existe no nosso cérebro, não é? Porque no fundo o nosso cérebro funciona com base em sinapses que disparam, quer dizer, não disparam de uma maneira binária, disparam com uma força que vai ao longo do tempo produzindo ou não determinadas memórias, produzindo ou não determinadas ideias. Mas qual é que foi? Se é que é algum, qual é que foi o grande passo do set GPT e do modelo GPT que tem por trás que permitiu, quer dizer, que permitiu fazer apesar de tudo, construir chatbot que não existia antes ou pelo menos a ideia que eu tenho é que não existia antes. Ou seja, estes modelos já existiam, não é? Mas qual foi aqui o grande salto?
Pedro Domingos
Voando sobre as décadas, quando estes modelos neuronais foram inicialmente propostos nos anos 50, o modelo era só neurónio ou uma só camada de neurónios. E matematicamente uma só camada de neurónios não tem capacidade de reproduzir qualquer função. Para sermos capazes de reproduzir qualquer função é preciso haver as chamadas camadas escondidas. É camadas intermédias que não são nem o input nem o output e quanto mais camadas isto é ponto muito importante, quanto mais camadas intermédias houver. Precisamos de uma camada escondida e nos anos 80, não foi quando inventado, mas quando se difundiu este algoritmo da reta propagação, que pela primeira vez era capaz de treinar modelos com camadas escondidas. Mas nessa altura é só com uma camada escondida. E tudo se pode reduzir a uma camada escondida, mas precisa de exponencialmente mais neurônios. Portanto, o sonho era sempre ter muitas camadas e daí é que veio o nome de Deep Learning. O Deep Learning é a rede ser profunda, ter muitas camadas. Deep Learning literalmente refere-se a redes neuronais com muitas camadas. Portanto, esse foi o primeiro passo importante, foi ter redes neuronais com muitas camadas.
José Maria Pimentel
Mas isso já existe há, não sei, 10, 15 anos? Ou pelo menos já ouço falar há...
Pedro Domingos
Precisamente. Portanto, nos anos 80 e 90, as pessoas... Eu lembro-me dessa altura do Otimo, que foi quando eu era aluno de prós-graduações, as pessoas falavam ah isto agora vamos acrescentando camadas e daqui a pouco estamos no cérebro humano não foi assim tão
José Maria Pimentel
simples não foi tão fácil
Pedro Domingos
mas agora esta onda atual que começou com a AlexNet no ano 2012 é precisamente a onda do deep learning é modelos com muitas camadas. Agora, o chat GPT em particular é uma inovação que tem 5 anos de idade que são os transformadores, que é uma arquitetura específica. Portanto, nós hoje em dia temos arquiteturas com centenas de camadas, comparado com os anos 90 é uma coisa extraordinária. Já há pouco mais nesse aspecto parecido as cores de cérebro. O cérebro tem uma camada. Aliás, nós hoje em dia temos redes neuronais, provavelmente com muito mais camadas do que o cérebro tem. O que também é sinal de que se calhar não estamos a fazer o que devíamos. Mas os transformadores em particular são uma dessas arquiteturas com muitas camadas. A pergunta que estavas a fazer é qual é que é a inovação fundamental nos transformadores? E há uma inovação fundamental mas é engraçado que hoje em dia a gente vê centenas de artigos a falar dos transformadores e nenhum deles põe o dedo. Aliás, fazem muitas vezes hand waving e dizem assim umas coisas. A questão essencial é a seguinte. Temos que ir bocadinho atrás e O que é Language Model? Language Model, que é o que tem o chat GPT, Large Language Model é grande modelo da linguagem. O que é modelo da linguagem? O modelo da linguagem é uma ideia antiguíssima, desde Os anos 70 que já há modelos de linguagem. E é modelo que prevê qual é a próxima palavra num texto a partidas anteriores. Se eu disse o cão foi atrás do, tu dizes ah, gato. Portanto, estás a prever a próxima palavra a partidas anteriores. E agora a questão essencial é a seguinte, olhando para isto do ponto de vista beiseano, se dá a ter em mente esses temas, inicialmente eram precisamente beiseanos, é quanto mais palavras anteriores tomares em conta, melhor consegues prever a seguinte. Se eu disser, tipo, correu atrás do, sei lá, pode ter sido o miúdo que correu atrás de outro miúdo, mas de ser o cão, portanto, quanto mais palavras a pessoa tiver para condicionar usando a termo técnico, melhor faz a previsão. Vai afunilando. Exato, e agora a questão é a seguinte, é o número de possibilidades aumenta exponencialmente com o número de palavras. A quantidade de dados que nós precisamos aumenta exponencialmente e a computação aumenta exponencialmente. O grande breakthrough da Google em uma área ser alta, primeiro foi a correção da ortografia, depois a tradução, foi Como eles tinham mais dados do que alguma vez alguém tinha tido, eles em vez de condicionarem em uma palavra ou duas, tipicamente os modelos dos anos 70 e 80, previam a próxima palavra baseada nas duas anteriores. O que parece pouco, mas já é muito em termos do custo. E a Google condicionava em 4, 5, 6. E o que é interessante nisto é que, mesmo sem saber nada de Reuronice, a pessoa só extrapolando esta coisa de quando eu vou condicionando em mais palavras a melhoria do desempenho, é espetacular. A pessoa só olhando para si, se eu conseguir condicionar em 100 palavras vou fazer coisas, vou escrever textos maravilhosos eu dou-te exemplo pequeno o meu filho quando tinha 13 anos, só para se divertir fez em Python programazinho que ele chamou Markov Bot porque é baseado nas cadeias de Markov.
José Maria Pimentel
Que é o que tu estudas, não é? Precisamente. É a
Pedro Domingos
tua investigação. Uma das coisas, uma das partes. E estes modelos são todos cadeias de Markov, de uma forma ou de outra. Portanto, esse é o termo técnico. Portanto, ele chamou-se o Markov Bot. Foi programa que simplesmente previsia a próxima palavra, baseada nas três ou quatro anteriores, e ele treinou numa série de artigos de revistas científicas e mostrou-me parágrafo, sem me dizer, mostrou-me parágrafo e disse o que é que achas deste parágrafo? Eu disse ah sim, é o costume. E ele aí disse, olha não, isto foi gerado pelo meu Markov Bot. Portanto, isto é, miúdo de 13 anos a fazer programa de 200 linhas em Python consegue fazer uma coisa que já me enganava a mim. Sim, é super incrível. O ChantRPT é apenas este fenómeno mas a uma escala vastamente superior. Onde é que entram os transformadores aqui? É que quando eu quero condicionar em 100 palavras é impossível. Não há memória no universo para isso. O que os transformadores permitem fazer é escolher, por exemplo, das 100 ou 1 mil ou 1 milhão de palavras anteriores, quais é que são as palavras relevantes. Essa é que é a questão interessante. E não só escolher, mas aprender a escolher utilizando a retropropagação. E com isto, basicamente... Retropropagação é correção
José Maria Pimentel
de erro, basicamente, não é?
Pedro Domingos
É, precisamente. O que os transformadores fazem, que nunca tinha sido feito antes, é que a retroavaliação escolhe automaticamente quais são as palavras relevantes no passado para prever a seguinte. E isto parece simples, mas é extraordinariamente poderoso e esse poder estamos nós hoje a vê-lo na utilização do chat GPT em todas essas aplicações.
José Maria Pimentel
Sim, é como se usasse uma... Enfim, não sei se estou a ver isto bem, mas... Dá a ideia que usa uma avaliação probabilística em dois passos. Porque usado sempre, que é na... Qual é a palavra mais provável que surgir a seguir, mas... Filtra antes, pela cocação desta frase, as palavras mais prováveis de serem relevantes para ele depois ir avaliar.
Pedro Domingos
É precisamente. Aliás, em termos matemáticos, há umas interações multiplicativas que não existiam antes e que é precisamente o que torna este possível.
José Maria Pimentel
Sim, no fundo torna-no muito mais eficiente.
Pedro Domingos
Não é explicitamente probabilístico, mas digamos que é implicitamente probabilístico.
José Maria Pimentel
Sim, sim. Interessante. Contribua para a continuidade e crescimento deste projeto no site 45grauspodcast.com Selecione a opção apoiar para ver como contribuir, diretamente ou através do Patreon, bem como os benefícios associados a cada modalidade. Tu já há bocadinho falaste da questão da generalização, que eu acho que está muito... Enfim, em tu, que está relacionado com a tua ideia do algoritmo mestre, e falaste das cinco tribos, destes cinco paradigmas, antes de falarmos de como chegar a este algoritmo mestre e parte da resposta que tu já referiste que é combinando estes cinco paradigmas, o que é que é exatamente o algoritmo mestre? Ou seja, de que é que tu estás a falar ao certo? Estás a falar de simplesmente uma espécie de algoritmo versátil que combina diferentes tipos de algoritmos já pré-existentes ou de uma coisa próxima àquilo que costuma se chamar AGI, ou seja, inteligência artificial geral, por oposição à inteligência artificial mais narrow, ou seja, inteligência artificial equivalente à inteligência humana. E quando se diz equivalente, como sempre quando se fala em inteligência artificial, é muito mais, não é? Porque a partir do momento em que tu consegues reproduzir uma determinada tarefa humana, faz-la muito melhor do que já é feito. Ou seja, tu estás a falar de quê exatamente quando te referes ao algoritmo mestre?
Pedro Domingos
A noção do algoritmo mestre é uma noção muito mais básica do que... Essas noções são todas relevantes, mas a noção central é muito mais básica, que é simplesmente a seguinte, é... Todos os algoritmos de aprendizagem que nós temos estado a falar são algoritmos mestres, no seguinte sentido, da mesma maneira como a chave mestra é uma chave que abre todas as fechaduras, porque é capaz de simular cada uma das chaves, a chave de casa que tu tens é uma chave que abre uma fechadura. A chave mestra, por exemplo, que tem, sei lá, uma pessoa, o dono de hotel ou qualquer coisa, é uma chave que abre todas as portas. Da mesma forma o algoritmo mestre é algoritmo que é capaz de fazer tudo. Portanto, há esta noção muito importante da informática da máquina de Turing, que é o computador, que é a máquina universal. A mesma máquina é capaz de fazer tudo. E hoje para nós esta é uma ideia intuitiva, mas na altura em que o Alan Turing introduziu esta noção, era uma noção extraordinária, porque o que é isso? Uma máquina que faz tudo. A máquina de escrever escreve, a máquina de lavar lava, a máquina de cozer cose. Não há uma máquina que faz essas coisas todas, mas o computador é uma máquina que faz essas coisas todas, portanto, de certa forma o computador é a máquina mestre. Tu pegas no teu telemóvel e o telemóvel faz uma infinidade de coisas. É relógio, é telefone, é computador, quer dizer, é incrível. Há circuito ali que faz isto tudo, mas agora o que se deixa em aberto é, mas como é que ele faz estas coisas? Tem que ser programado por nós. Portanto, a ideia da aprendizagem, a ideia fundamental da aprendizagem é que tu tens algoritmo de aprendizagem que se transforma em qualquer desses algoritmos o mesmo algoritmo é capaz de fazer diagnóstico médico, de pilotar avião, de jogar xadrez, de tudo o que quiseres, se lhe deres os dados necessários para ele aprender. Os dados são os que transformam a chave mestra na particular para aprender aquela fechadura.
José Maria Pimentel
No fundo é desenvolver algoritmo versátil que permita, uma vez alimentado pelos dados, fazer tudo aquilo que tu já fazes, só com algoritmos diferentes, especializados, digamos assim.
Pedro Domingos
Precisamente. E agora, a primeira questão é mas esse algoritmo existe? E há uma prova matemática e uma prova empírica. A prova empírica é que o teu cérebro é algoritmo mestre, incontestavelmente. E outra prova empírica é a evolução. A evolução é algoritmo mestre. A evolução é capaz de criar tudo e mais uma coisa. Portanto, nós sabemos que existem algoritmos mestres no mundo real. Há também a prova matemática que em todos estes paradigmas existe teorema que diz que utilizando esta representação nós somos capazes de representar qualquer função, utilizando uma rede neuronal, utilizando conjunto de exemplos para analogia, utilizando conjunto de regras simbólicas. Portanto, cada destes métodos, nós sabemos que, a priori, com o algoritmo certo é possível aprender qualquer coisa. Portanto, nós sabemos, tanto matematicamente como empiricamente, que este algoritmo é possível. Agora, porquê é que nós não temos já o algoritmo mestre? Porque na prática o que acontece, como já tínhamos lido, é que cada destes algoritmos depois verifica-se que é bom para algumas coisas mas não bom para outras. O verdadeiro algoritmo mestre é algoritmo que tem que ser bom para todas estas coisas ao mesmo tempo. Pelo menos ao nível que o teu cérebro. Por exemplo, as redes neuronais não são boas para todas as coisas que o teu cérebro é. Por exemplo, não fazem descoberta científica, não fazem robótica, não fazem uma série de coisas. Fazem visão, fazem linguagem, portanto. Esse algoritmo que é na realidade capaz de descobrir tudo ainda não existe e agora a questão é como é que o descobrimos e agora há várias abordagens a essa questão.
José Maria Pimentel
Sim, e antes disso, muita gente argumentará, digo eu, que só por isso não é necessariamente preciso algoritmo mestre. Ou seja, tu se calhar estás melhor com os vários algoritmos especializados porque são mais eficientes cada na sua área,
Pedro Domingos
não é? Não, precisamente. Isso é uma questão essencial. Mas repara, isso é verdade do teu cérebro. O teu cérebro é capaz de fazer adições e multiplicações, mas é extraordinariamente ineficiente. E aliás, em última análise, para qualquer aplicação é sempre melhor ter algoritmo específico para aquela aplicação. Mas agora veio aqui exemplo muito importante, que é o dos microprocessadores. O microprocessador foi uma coisa inventada nos anos 50 que, inicialmente, antes disso havia circuitos integrados que faziam tarefas específicas e cada vez que a gente queria fazer uma nova tarefa precisava de projetar e construir novo circuito e por esse método não fomos muito longe. Quando inventar os microprocessadores, o microprocessador é circuito que faz tudo, literalmente tudo, porque tudo o que tu vês é feito por... Mas não é o mais eficiente, não é? Para cada uma dessas coisas, se tu quiseres, podes ir buscar chamado AC, que é Application Specific Integrated, que faz aquilo melhor. Mas a grande vantagem é que a velocidade a que tu consegues e a simplicidade e a facilidade é vastamente mais importante do que esse ganho de eficiência. Quando o ganho de eficiência é importante então tu podes depois ir fazer as coisas mais eficientes e mais uma vez também acontece com a aprendizagem. Portanto, embora seja verdade que em última análise para qualquer aplicação há sempre algoritmo específico mais eficiente, se o que a gente quer é inteligência artificial, precisamos ter algoritmo mestre como o nosso cérebro ou como o microprocessor. Mais uma vez, o que falta no microprocessor é a capacidade de aprender, mas em generalidade o circuito já lá está.
José Maria Pimentel
Então, mas em que medida é que o que tu estás a propor como algoritmo mestre, ou a ideia de algoritmo mestre, não é caminho para a inteligência artificial geral? Onde é que eles se separam? Não, é, aliás... Ah, ok, pronto, eu estou a ter-te entendido mal.
Pedro Domingos
Como eu estava a dizer, o que tu disseste é correto mas não é noção fundamental agora certo agora é assim
José Maria Pimentel
é implicação
Pedro Domingos
é se nós queremos chegar à intensidade social e é subjetivo eu penso que há duas vias a curta e a longa havia longa é havia tradicional que é vamos construir esta parte e mais aquela, temos a memória, temos a atenção, temos o movimento, temos a linguagem e vamos tentar juntar estas partes de todas isso. Até agora tem falhado e penso vai continuar a falhar. Havia curta que ia descobrir o algoritmo mestre. Descobres o algoritmo mestre, dais os dados necessários e chegaste. Portanto, obviamente, destas duas abordagens é a segunda que eu acho mais interessante. E como é que
José Maria Pimentel
tu achas que se chega lá? Parte da resposta, já deu para perceber, e quem lê o livro também percebe bem, é a combinação destas cinco escolas, destes cinco modelos. Enfim, já agora não sei se queres elaborar pouco sobre isso. Ou seja, como é que vai-te perguntar isto? Quando a pessoa elenca, neste caso cinco modelos, parece que eles estão à mesma distância todos uns dos outros, não é? Na verdade, aqui, enfim, pelo menos eu vendo de fora, intuito aqui uma certa proximidade que os conectivistas e os evolucionistas parecem mais próximos do que, respectivamente, esses dos simbolistas ou dos analogistas, para transir para o português é sempre mais complicado, ou dos beysianos, ou seja, eles não parecem estar à mesma distância uns dos outros, o que significa que podem não ter todos o mesmo contributo para este algoritmo mestre, ou têm? Ou seja, pergunto de outra forma, como é que eles se combinam? Que contributo é que cada deles dá para este algoritmo mestre?
Pedro Domingos
Bem, eu penso que eles são todos necessários porque de facto cada deles resolve problema importante. Portanto, na reta à progressão resolve o problema do chamado credit assignment, que é estás a tentar aprender sistema muito complicado e quando o sistema falha, quem é que é a culpa? Quem é que eu vou modificar? Tens aqui sistema com milhões de partes, é problema muito difícil, a reta progressão resolve esse problema. Cada dos outros paradigmas tem também problema que resolve. E a questão importante não é utilizar o paradigma, é nós temos que resolver esses problemas todos. Por exemplo, a grande vantagem da aprendizagem simbólica que nenhuma das outras tem é que descobres conhecimento de forma modular. Descobres regras que depois podem ser combinadas de formas completamente diferentes, em contextos completamente diferentes daqueles em que foram aprendidos.
José Maria Pimentel
Sim, são abstrações no fundo, não é?
Pedro Domingos
Exato. O que as redes neuronais não são capazes de fazer e daí é que vem a sua falta de robustez. Portanto, nós temos que resolver todos esses problemas. Eu penso que isto é incontestável. Agora, a maneira óbvia de os resolver, para mim e para muitos outros, é nós já temos algoritmos que resolvem cada deles. Se os combinarmos, então resolvemos esses problemas todos. Agora, há grande dificuldade em combiná-los e, aliás, ao longo dos anos já houve pessoas que diziam que isto era impossível mas hoje em dia é claramente possível porque em grande parte já está feito e aliás uma grande parte da minha investigação nos últimos 30 anos foi combinar estas coisas duas a duas. A minha tese de doutoramento foi combinar analogia com o simbólico. Depois a investigação mais conhecida que eu fiz foi combinar os métodos simbólicos com os beiseantes. Mais recentemente as neuronais etc etc. E hoje em dia nós já conseguimos combinar 3 e 3, 4 e 4 e basicamente nós já temos hoje maneiras de combinar todos os cinco. Agora penso que ainda há grandes questões a resolver, mas podemos deixar isso para tarde.
José Maria Pimentel
Não, não, podes dizer agora o que era o que eu ia perguntar agora. Ou seja, o que é que falta depois de combinar os...
Pedro Domingos
Faltam várias coisas. Uma é que há muitas maneiras possíveis de combinar estes algoritmos, a maior parte das quais não são suficientemente eficazes. Uma coisa é fazer a combinação teórica, e isso é fácil, já fizemos. Outra coisa é fazer uma combinação... Aliás, eu posso fazer uma analogia que penso que é bastante útil, que é... Na Física, famosamente, há quatro forças, que parecem à partida muito diferentes. Há a gravidade, há o eletromagnetismo, há as forças fortes e fracas nucleares. As pessoas na Física e nas ciências maturas, digamos assim, à partida o tentar unificar as coisas é óbvio que temos de tentar unificar. Não sei porque é que em desigualdade social há mais resistência a esta. Aliás, sei, mas pronto. Mas penso que também é sobre caminho. Os grandes progressos da física foram em unificar coisas umas a seguir às outras. E hoje em dia o chamado Standard Model unifica três dessas forças. Portanto, o electromagnetismo e as forças nucleares fortes e fracas. Falta
José Maria Pimentel
a gravidade.
Pedro Domingos
O grande problema em aberto a física é unificar a gravidade com as outras forças. Mas a questão é, à partida essas forças parecem tão diferentes que parece impossível combiná-las. Mas nós hoje sabemos, por exemplo, eletricidade e magnetismo parecem muito diferentes, mas na realidade são dois aspectos do mesmo fenómeno. O eletromagnetismo e a superação de nucleares à partida parecem muito diferentes, mas hoje em dia sabemos que são o mesmo fenómeno e como. E o que eu penso é que O que se passa com estes paradigmas da aprendizagem é precisamente o mesmo. A dificuldade é que à partir da pessoa ver o simbólico, o evolucionista, o conexionista, parecem completamente diferentes. Mas como é que a pessoa pode identificar estas coisas? Mas aquilo que nós sabemos hoje, que não sabíamos há 20 anos, é que a nível mais profundo estes métodos são todos extremamente simples, extremamente semelhantes na simplicidade. Todos eles, aliás isto é engraçado porque há milhares e milhares de algoritmos de aprendizagem hoje em dia e todos os anos saem mais dezenas de milhares, mas todos têm as três mesmas componentes E nós percebermos o que é que são estas componentes é o primeiro e de certa forma o mais importante passo. O primeiro componente é a representação. É a linguagem matemática que nós utilizamos para representar os conceitos que vamos aprender. Os seres humanos temos as linguagens como o português, o inglês, etc. Na programação há o Java, o Python, o C. Na industria estatal há certas linguagens de representação, incluindo as redes neuronais, as redes bayesianas, estas coisas. Portanto, há a questão da linguagem. Portanto, nós temos que unificar a representação. Essa parte do problema hoje em dia está essencialmente completamente resolvida. Nós sabemos como unificar completamente. Não foi fácil e houve muito quem dissesse que era impossível. Por exemplo, para unificar o simbolismo e o beizinismo é preciso unificar a lógica e a probabilidade, que é problema que já preocupa os filósofos e os matemáticos dá centenas de anos. Exato. E eu falei com pessoas há algum tempo, disseram, ah, isto é impossível. Há razões fundamentais porque não é possível unificar a lógica e a probabilidade. Unificámos, esse problema está resolvido. Aliás, a grande parte dos prémios que eu ganhei, etc, etc, foi precisamente por ter unificado a lógica e a probabilidade. Que eu fiz com este objetivo mas que obviamente tem implicações para a matemática, para a lógica, para a filosofia etc etc. Unificar estas 5 representações está feito. O passo seguinte é a avaliação. É qual é a função que diz quais são os modelos melhores e os piores. Por exemplo, se estás a cometer muitos erros ou poucos, ou qual é a quantidade de erros, etc. Essas também temos que unificar, mas essa parte é relativamente fácil. Por exemplo, a probabilidade posterior dos Bayesianos tem basicamente as outras medidas como casos especiais. Simplificando pouco. Essa parte não é fácil. E finalmente há a parte da procura que é, neste espaço de hipóteses definido pela minha representação, com essa função objetivo, chama-se mesmo a função objetivo, há processo de procura ou de otimização para encontrar a melhor. E agora os diferentes paradigmas usam diferentes métodos. Por exemplo, a procura discreta, o gradient descent, que é uma forma de procura contínua que usa as redes neuronais, o crossover que é o que usa os algoritmos genéticos, também temos que unificar esses. E há, mais uma vez, maneiras de fazer isso tudo. Portanto, neste momento já estás a ver que unificar os cinco paradigmas se calhar não é assim tão difícil.
José Maria Pimentel
Mas como é que tu unificas, por exemplo, paradigmas tão diferentes como o conectivista e o simbolista? Ou seja, o conectivista, que é o do 7GPT, impressiona-nos quando a pessoa começa a fazer perguntas e percebe que se sai de lá uma resposta incorreita, mas como tu explicavas há bocadinho, aquilo é modelo, aquilo não tem por base aquilo que nós poderíamos chamar entendimento análogo ao entendimento humano, aquilo é simplesmente modelo que vai procurar a palavra mais provável de surgir a seguir. O modelo simbolista é completamente diferente disto, porque é modelo mais próximo de lá está da lógica, de conceitos abstratos, e tem por base a dedução invertida que tu falas no livro. Eu estou a perguntar isto porque há aqui uma pergunta mais profunda embutida nesta, é que a minha intuição é que isto é muito a maneira como o nosso cérebro funciona, é precisamente a combinação entre estas duas coisas, se quiseres, as heurísticas baseadas na nossa experiência, com uma camada de lógica por cima e é do diálogo entre estas duas que resulta a razão humana. Mas não faço ideia de como é que o nosso cérebro faz isto e muito menos sei como é que algoritmicamente se pode fazer isto.
Pedro Domingos
Aliás, a ideia básica é muito simples e é a seguinte, A representação básica nos métodos simbólicos são as regras. As regras são coisas do tipo se A e B e C e D então é. Por exemplo, se o paciente tem este sintoma e aquele e aquele, então o problema é diabetes. Portanto, regras. É a representação fundamental. Nas redes neuronais a representação fundamental é o neurónio e o neurónio o que faz é multiplica os inputs por pesos e se estiver acima de determinado limiar dá 1 se não dá 0. Agora a questão é como é que unifica estas duas coisas? Muito simplesmente A regra é caso especial de neurónio. Eu com o neurónio consigo implementar qualquer regra e posso ainda mais ter peso. E a implementação é a seguinte, os meus sintomas dou o mesmo peso a todos eles, portanto é caso muito simples, somo e se tenho 10 sintomas a soma tem que ser 10. E isto implementou a regra. Portanto, eu sei como implementar regras simbólicas com neurônios. Portanto, estas duas representações que parecem, à partida, muito diferentes, regras simbólicas e neurônios no seu cérebro, intuitivamente são muito diferentes, matematicamente não são. Matematicamente são externamente parecidas. Portanto, este é exemplo pequeno. Há depois, como eu ouvi, uma série de outras questões, mas isto é pequeno exemplo de como é que este processo é feito.
José Maria Pimentel
Então deixa-me fazer outra pergunta que, de certa maneira, é relacionada com esta, mas liga aquilo que tu falavas há bocadinho da dificuldade destes algoritmos em generalizar. Olhando para este desafio de encontrar algoritmo mestre por outra perspectiva, ou seja, esquecendo por momentos estes 5 paradigmas e pensando como é que consegues replicar o cérebro humano, o nosso cérebro parece, mesmo com as suas muitas imperfeições, ter essa capacidade que estes modelos de tipo chat GPT não têm de dar saltos na paisagem, aquilo que tu chamavas de generalizar, de chegar a uma conclusão que é diferente daquilo que aconteceu nos últimos 20 minutos, o exemplo da condução que tu davas há bocadinho. Estás a guiar, acontece uma coisa que é completamente diferente do que aconteceu nos últimos 100 dias, não é? E tu consegues na mesma lidar com ela porque consegues dar esse salto lógico, não é? Como é que tu consegues combinar, e no fundo esse parece-me ser o grande desafio, não é? Como é que tu consegues combinar as propriedades destes modelos de linguagem com essa capacidade lógica de generalizar, não é?
Pedro Domingos
Precisamente. Portanto, todos estes métodos são capazes de generalizar, senão não era aprendizagem. O que define a aprendizagem automática é generalizar. Portanto, se tu tens uma base de dados de pacientes e dos seus sintomas diagnósticos e a única coisa que faz é ir buscar, então isso é uma base de dados no endocenciado social. Claro, claro. O endocenciado social é quando tens... Agora a questão é...
José Maria Pimentel
Jornalizar para longe, se quiser.
Pedro Domingos
Jornalizar para longe, precisamente. O problema de todos, em cada destes paradigmas, os melhores algoritmos que nós temos hoje só generalizam para perto. E por isso é que eu penso, nem toda a gente concorda, mas para mim parece-me relativamente claro que mesmo que nós consigamos unificar os melhores algoritmos de todos estes paradigmas, é melhor do que cada deles individualmente, mas continua só a generalizar para perto. E agora a grande questão é precisamente, mas generalizar para longe, o que é que falta? Exato. Isto é uma questão para mim fascinante porque dá 70 anos desde o princípio do campo que nós temos andado sempre, o que é natural, a adaptar ideias de outros campos para este campo da Cidade Social, mas eu penso que finalmente as ideias fundamentais da Cidade Social não vão vir de desses campos. Têm que ser inventadas autonomamente, digamos assim. Mas obviamente isso é muito mais difícil. Agora, como é que isso poderá ser feito? Uma das áreas em que estou a trabalhar é precisamente uma abordagem nesse sentido. Nós podemos aprender transformações. Por exemplo, mudar a cor de objeto é uma transformação. Era azul e pintei em vermelho. Mudar a forma é outra transformação. Pôr umas costas num banco e transformá-lo numa cadeira é uma transformação. E há uma área da matemática chamada a área da simetria que lida com a combinação de transformações. E aliás é uma das áreas centrais na matemática hoje em dia e centrais na física. A física moderna existe à base destas chamadas simetrias. Por exemplo, uma simetria de quadrado é rodá-lo de 90°, 180°, 270° ou 360°. Uma simetria de círculo é rodá-lo de qualquer ângulo, porque rodá-lo de qualquer ângulo deixa-o na mesma figura. Portanto, esta ideia de simetrias é extremamente importante na Física e na Matemática. Aliás, este modelo que eu estava a falar, o Standard Model, que é a base da Física hoje em dia, é basicamente conjunto de simetrias. Portanto, o que eu estou a fazer é aplicar essas ideias no contexto da aprendizagem automática em que a ideia é, nós vamos descobrir transformações a partir dos dados, por exemplo, isto é uma caneca, é vermelha, mas se eu mudar o vermelho para azul, continua a ser uma caneca. Mas se lhe tirar a pega passa a ser copo. E o ponto essencial é o seguinte, aprender transformações individuais a partir de dados razoáveis não é difícil. Tu comparas duas coisas que são ambas canecas e dizem, ah, então esta transformação não faz diferença. Tu comparas, por exemplo, a minha cara assim, com a minha cara rodada a 20° e dizes Ah! Isto continua a ser a tua cara. Portanto, isto nós sabemos hoje o que fazer. Agora, o ponto essencial é que com esta teoria dos grupos de simetria eu agora posso fazer a composição das transformações. Eu digo assim, ah, eu vi ali uma caneca que era verde em vez de vermelha, mas eu já sei que mudar a cor não faz mal. E também vi aqui uma caneca que era estreita em vez de longa, mas também sim, não faz mal. E agora eu vou ver pela primeira vez uma caneca que é estreita, em vez de longa, e verde em vez de vermelha. Mas, combinando essas duas coisas, eu saio com uma caneca verde e estreita, também é uma caneca... E agora, esta combinação de duas transformações, eu posso fazer a combinação de centenas de transformações. O que eu tenho ao fim dessas centenas de transformações é objeto que parece completamente diferente do inicial, superficialmente, mas eu tenho razões fortes para saber que é o mesmo. Portanto, descobrirmos estas transformações e depois fazer a sua composição é uma maneira de fazer relações muito mais longas, por exemplo, imagens de gatos é caso, ainda hoje em dia é difícil de reconhecer gatos porque os gatos são exemplo famoso porque o YouTube está cheio de vídeos de gatos, porque as pessoas gostam de vídeos de
José Maria Pimentel
gatos Eu por acaso Nunca apanhei esses vídeos, mas ouço sempre dizer isso.
Pedro Domingos
O que é bom, portanto. Mas, o problema é que mesmo com esses milhões de vídeos de gatos reconhecer gatos continua a ser extremamente difícil, porque os gatos são incrivelmente flexíveis. Os gatos podem se pôr em posições completamente esquisitas e tu quando olhas para uma imagem de gato numa posição esquisita indiretamente estás capaz de dizer lá, isto sim é gato ou não, isto é uma imagem esquisita generada pelo mid-journey num gato que é fisicamente impossível. Como é que tu fizeste isso? Tu sabes que há movimentos das articulações que são permitidos e outros que não são e esse movimento é uma transformação, é uma destas simetrias. Portanto, eu quando giro o meu cotovelo, continua a ser eu, mas se eu girar na direção errada só se eu estiver partido. Portanto, Nós sabemos quais é que são essas possibilidades e agora fazendo a composição...
José Maria Pimentel
E tu conheces isso, desculpa interromper, tu conheces isso não só de olhar para gatos, conheces isso de olhar para todo tipo de animais, não é? Precisamente. Mesmo para objetos, quer dizer, da tua experiência no dia a dia.
Pedro Domingos
Não, mas precisamente, outro exemplo de transformação é, eu vi estas coisas aplicarem-se a vacas e agora estou a ver cavalo, elefante. Eu vejo pela primeira vez hipopótamo, nunca tinha visto hipopótamo, mas por ver a semelhante acento do hipopótamo e o elefante e o rinoceronte, imediatamente aplico uma série de coisas, como por exemplo quais é que são os movimentos possíveis ao hipopótamo que eu sabia aplicar em só elefante. E, por exemplo, no caso de gato, posso ver gato numa posição completamente diferente das anteriores que eu vi, que eu já tinha visto, porque é uma combinação de movimentos dos diferentes membros, da cor do pé ou da cara etc etc que eu não tinha visto mas eu vi cada uma delas e sei que são compatíveis. Eu penso que desta forma e agora obviamente há algoritmos concretos para fazer isto nós vamos conseguir e aliás já estamos a conseguir descobrir formas de fazer generalização que vão muitíssimo mais longe fazem saltos muito maiores na paisagem do que os métodos atuais.
José Maria Pimentel
É, e esse é método, pelo que tu descreves, parece justamente método que pode ter muito potencial nos carros de condução automática, por exemplo.
Pedro Domingos
E na robótica, aliás,
José Maria Pimentel
eu penso que é produto. Mas já me parece ter menos utilidade noutros campos mais enfim, intelectuais, se a mesmo mesmo dizer assim. Ou seja, para dar exemplo óbvio, quando se escuta este tema, eu acho que os exemplos mais comuns é pensar algoritmo ao qual tivesse sido fornecido a mesma informação que o cérebro de Einstein, por exemplo, recebeu, seria capaz de descobrir a teoria da relatividade? Ou seja, seria capaz de dar aquele salto e propor uma explicação que... E este é exemplo bom, não é? Porque na verdade era uma explicação que não existia nem estava em certo sentido próxima das opções que existia. Ou seja, é bom exemplo porque é daqueles raros casos na ciência que não é salto incremental, que é salto bastante grande. E isso será suficiente? Intuitivamente parece-me que não, mas enfim, eu também não sou desta área.
Pedro Domingos
Eu diria, intuitivamente parece-me que sim. Aliás, eu penso que precisamente a ideia de... Aliás, hoje em dia é uma área popular, Aliás, já há muitas décadas, mas hoje em dia é ainda mais popular de tentar fazer descobertas científicas utilizando algoritmos de aprendizagem. E, por exemplo, as leis de Kepler já foram redescobertas por algoritmos de aprendizagem.
José Maria Pimentel
Ah, não sabia disso. Interessante.
Pedro Domingos
Mas não as leis de Newton. Mas eu tenho método que é capaz de descobrir as leis de Newton. E aliás, uma das coisas que está na minha lista de coisas a tentar fazer é redescobrir a atividade da relatividade. O que a maior parte das pessoas diriam que é impossível. Mas precisamente, por exemplo, o Douglas Hofstadter, que é uma pessoa muito famosa, dos analogistas mais conhecidos, ele tem livro em que dos capítulos é a mostrar como as grandes descobertas da ciência foram feitas por analogia. Sim, e é verdade. Incluindo a relatividade.
José Maria Pimentel
Incluindo a relatividade, sim, sim.
Pedro Domingos
Nós já sabemos, se nós tivermos, soubemos fazer analogia, pelo menos certo tipo de analogia, em princípio somos capazes de descobrir o tipo de relatividade só utilizando a analogia. Na prática, além da analogia, é preciso outros componentes, portanto, mais uma vez,
José Maria Pimentel
a nossa função está... Pois, mas é que não era só a analogia, no fundo era a analogia combinada com a lógica, desde logo, não é?
Pedro Domingos
Mas nós sabemos combinar a analogia com
José Maria Pimentel
a lógica. Pois lá, está mais fácil. Sim, certo. Mas é verdade, a analogia tem peso, não é suficiente por si só. Aliás, ando a ler a biografia do Da Vinci.
Pedro Domingos
Do Walter Isaacson.
José Maria Pimentel
Exatamente, do Walter Isaacson. E é muito giro, e o Da Vinci era exemplo muito interessante, tipo que tinha uma capacidade de criar analogias quase super humana, mas depois faltava-lhe a parte matemática desde logo e faltava-lhe uma literacia científica que o impediram de ir mais longe, não é? Mas ao mesmo tempo é incrível a capacidade que ele tinha para traçar analogias.
Pedro Domingos
A ideia do Douglas Hofstadter, e aliás, este termo analogizer, ou analogizante, analogista em português, que eu utilizo no livro, foi ele que criou esse termo. E ele considera-se assim próprio analogista. E a teoria dele é que, aliás, essa é a teoria do livro, é que tudo, desde o senso comum às coisas mais pequenas no dia a dia, até às grandes projectas científicas, é apenas analogia. E eu penso que isso é exagero, mas a analogia claramente é dos componentes essenciais incontornáveis. Mesmo o Jeff Fenton disse que as redes neuronais são melhores do que os métodos simbólicos porque fazem raciocínio analógico. Mas depois não explica como é que fazem raciocínio analógico. Portanto, aí uma falha qualquer. Mas tu estavas a dizer, nestas descobertas com uma relatividade, a coisa que impressiona é o salto. Como é que foi dado esse salto? E o salto é dado por analogia. A pessoa vê estas descobertas, e há muitas outras que o Douglas Austin não fala no livro, e o que levou a pessoa a dar o salto foi, a certa altura, reparou numa semelhança entre duas coisas que anteriormente ninguém tinha relacionado. Por exemplo, entre eletricidade e magnetismo, ou no caso de Newton, entre o que se passa no céu e o que se passa na Terra. A unificação que ele fez foi entre a mecânica celeste e a terrestre, que supostamente eram completamente diferentes. E o que o levou, o salto dele, às vezes as pessoas não sabem isso, pensam lá, ah, caiu uma maçã. Aliás, mesmo que tivesse sido cair a maçã, o salto dele foi dizer lá, ah, Isto é uma história apócrifa, mas usando a história apófrica por efeitos ilustrativos. Qual é o salto? É dar-se conta da semelhança entre a maçã e a lua. Quer dizer, tanto a maçã como a lua estão a ser influenciadas pela gravidade. Na realidade, a maneira como ele fez o salto, que tem a ver com o teu ponto também, é preciso o cálculo, ele sabia qual era o valor da aceleração na superfície da Terra. Já o Galileu tinha medida, etc, etc. E ele também sabia qual era o valor, na sua teoria, que na nossa altura já tinha mecânica, qual era a aceleração da Lua ao rodar em torno da Terra. Portanto, a direção que estamos a ter. Mas essas acelerações são diferentes. O grande passo, o salto, foi quando disse Ah, mas se a gente pegasse na Lua e a começasse a aproximar da Terra e ela continuava a orbitar quando ela estivesse à superfície da Terra qual é que era a aceleração? E de subito revelou-se-lhe que a aceleração era a mesma da maçã e nesse momento se pensou, ah, então se calhar a força que está sujeita à lua e a força à estrela é a mesma portanto, houve salto analógico mas foi salto analógico fundado no cálculo
José Maria Pimentel
lá está, exatamente, é essa combinação E do ponto de vista psicológico, enfim, é difícil imaginar outra maneira de dar esses saltos na paisagem que não há analogia, não é?
Pedro Domingos
Exato, quer dizer, não há milagres.
José Maria Pimentel
É a ponte, exatamente, não há milagres. É aquilo que te permite fazer a ponte de uma... Precisamente. E eu acho que se nós pensarmos na maior parte das ideias que nós temos individualmente, vem todas desse tipo de analogia, de repente... Enfim, aliás, na verdade parte do nome deste podcast, pergunto-me muitas vezes, tem a ver... Eu não lhes chamo de analogias, mas chamo de intersecções entre áreas diferentes, porque às vezes ao estás a discutir uma área, tens insights que são úteis para outros e a Inteligência Artificial é bom exemplo disso, porque como tu explicas, estes 5 paradigmas têm todas a inspiração noutras áreas. Pedro, olha, para acabar, havia tema que não queria deixar de falar, até porque sei que tens uma opinião forte em relação a ele, que é da questão dos perigos da inteligência artificial, que tem sido muito discutida agora. E depois tem sempre muita visibilidade nos médias, porque depois tens alguns exemplos muito vistosos, como aquele tipo que era engenheiro da Google e que em 2022 disse que aquele chatbot deles, o Lambda, que era senciente, não é? Ou seja, ele não disse que tinha consciência, mas que sentia. Depois tens o Yuval Noaharar e tens depois o Elon Musk com declarações de género, não é? Enfim, há sempre toda esta conversa em torno da... Até do chamado conceito da singularidade, que é de repente... No fundo é quase o contrário do que nós estivemos a dizer, não é? Porque nós estivemos a falar das dificuldades em chegar a uma inteligência geral e aqui é achar que aquilo que já existe pode produzir essa espécie de mega inteligência pela propriedade de se conseguir ir reproduzindo e portanto uma vez atingindo esse estado, tornar-se incontrolável. A ideia que eu tenho é que este termo e esta ideia é mais discutida fora da área da inteligência artificial do que propriamente por quem está dentro dela, apesar destes exemplos mais vistosos.
Pedro Domingos
Precisamente. A grande preocupação com os por exemplo da inteligência artificial vem das pessoas que não sabem nada de energia social.
José Maria Pimentel
O que não quer dizer, atenção, desculpem-me, o que não quer dizer é que não devam ser ouvidas, acho eu, ou seja, o que quer dizer é que esse ponto é importante, o ponto que estás a fazer, diz-nos alguma coisa o facto dos principais críticos virem de fora. Não quer dizer imediatamente que eles não devam ser ouvidos, mas...
Pedro Domingos
Não, e além disso, hoje em dia, e isso é diferente de há aqui alguns anos, já há críticos, pelo menos pessoas a preocuparem-se com isto, que vêm de dentro do campo. Que é também o que tem levado a esta atenção. Portanto, uma parte da atenção vem de fato de pessoas como Elon Musk, que são muito famosas a preocuparem-se com isso, mas outra parte vem de pessoas como por exemplo a Yoshua Benji e o Geoff Hinton, que são dois grandes líderes precisamente do conexionismo, manifestarem esta preocupação. Ah, isto se calhar é perigoso. Portanto, a pessoa também deve compreender porque é que estas pessoas que sabem de indecensidade social se começam a preocupar com isto. Mas a realidade é que 99% das pessoas em licença artificial fazem trabalho dia a dia que está muito longe destas preocupações todas e por boa razão. A ideia de que isto vai conduzir a alguma catástrofe etc. É absurda. Mas Eu acho que é importante nós compreendermos quais é que são os perigos reais e os perigos imaginários. O meu ponto não é que não há perigos reais, porque há, é que atualmente as pessoas estão preocupadas com os imaginários e isso distrai-nos dos reais. E pior ainda, há uma panóplia de perigos com que as pessoas se preocupam, desde os de muito longo prazo, que é a extinção e a singularidade e o Terminator e essas coisas, até os de muito curto prazo, que é a desinformação, a perca de emprego, os enviesamentos, etc, etc. E portanto, estes são perigos muito diferentes, cada deles tem que ser discutido individualmente, mas a solução geral, ironicamente, é sempre temos que pôr limites na indignação artificial. Temos que regulamentar, temos que fazer moratórias, temos que mandar chá. E o que é irónico é que os perigos reais da indigência artificial derivam todos da indigência artificial ser demasiado estúpida. A estupidez é que é perigosa.
José Maria Pimentel
O que é que tu queres dizer com isso?
Pedro Domingos
É porque os problemas da indigência artificial derivam dos sistemas de IA não serem suficientemente inteligentes. Eles cometem erros, desde os mais curto prazo aos mais longo prazo, potencialmente, porque são demasiado estúpidos. Aliás, nós podemos já ver alguns exemplos concretos disso. Sim, é o que eu tinha perguntado. Mas o meu ponto é o seguinte, esta ideia de limitar a indecencia artificial para conter os perigos é precisamente o oposto do necessário. Para diminuir os perigos da indecencia artificial o que nós temos que fazer é torná-la o mais inteligente possível. Por exemplo, aliás, Escolhe, vamos falar primeiro dos perigos de curto prazo ou dos de longo prazo? Talvez curto prazo. Curto prazo, por exemplo, os enviesamentos. Aliás, isto já é uma coisa que é muito falada daqui há 10 anos, portanto, a desinformação e o desemprego é mais recente, mas a ideia dos enviesamentos é que os sistemas de reconhecimento facial têm enviesamentos, perpetuam os enviesamentos humanos em relação à raça, em relação ao sexo, etc. E há uma série de exemplos que deves ter visto porque estão sempre a aparecer nos mídias antigos em que, ah, olha, este sistema de reconhecimento facial discrimina contra os negros porque dá resultados piores do que para os brancos. O problema não é que o sistema tem enviesamentos, o problema é que o sistema tem menos dados e é mais difícil reconhecer caras escuras porque o contraste e a cor são extremamente importantes. Portanto, o que nós precisamos não é, como agora o AI Act, que na Europa vai passar, proíbe a utilização de enteses de arte social para reconhecimento facial. É uma estupidez inacreditável. O que nós queremos não é proibir, porque isso tem de facto montes de aplicações e outras, o que temos é melhorar esses temas para que o saberem reconhecer cada indivíduo o melhor possível, independentemente da raça ou do sexo, seja o que for. Portanto, e exemplo ainda mais mundano, quando eu hoje faço pedido de crédito, cartão de crédito ou de empréstimo para comprar uma casa de cera etc, pelo menos aqui na América hoje em dia, a análise disso é feita por algoritmos de aprendizagem, que apendem a prever se tu vais pagar as tuas dívidas ou não a partir dos dados. E mais uma vez, isso é uma área com uma grande história de dizer ah, tu tens preconceitos contra as pessoas desta raça porque não lhe das empréstimos ou das empréstimos aos homens mas não às mulheres. Mas tipicamente o que acontece neste caso é sempre que O sistema é demasiado estúpido, não tem senso comum. O sistema nem sequer sabe o que é raça, o que é sexo, o que é uma casa. Não sabe nada. Isto é assim, fez uma regressão linear, caso mais simples. E o problema é que uma regressão linear tem uma integência limitada.
José Maria Pimentel
Mas ó Pedro, eu acho que pode ser mais do que isso. Eu concordo com o teu ponto, enfim, e até de ponto de vista genérico, irrita-me sempre quando se tenta proibir, quando se pode melhorar, mas neste caso pode haver algumas situações em que, quer dizer, no fundo o que estes algoritmos fazem não é muito diferente da mente humana, não é muito diferente daquilo que nós fazemos estereotipando. E o problema dos estereótipos é que são-nos muito úteis. Aliás, nós não vivíamos sem estereótipos, sem esse tipo de heurísticas. Só que depois podem perpetuar discriminações, porque se tu vives num mundo em que pessoas com determinada característica são prejudicadas e se tu mantiveres esses estereótipos vais mantê-los. Portanto, não me choca que tu em algumas situações possas impedir a utilização de determinadas ferramentas que serão sempre estereotipantes independentemente dos dados, não
Pedro Domingos
é? Não, mas precisamente, os órgãos de aprendizagem não são sempre estereotipantes independente dos dados.
José Maria Pimentel
Ou seja, o que eu quero dizer é, imagina que tu tens, por razão, nisso há exemplo óbvio, não é? Os negros têm, em média, rendimento inferior aos dos brancos. Claro que essa coisa dos negros e brancos é muito discutível, mas enfim, usando essa simplificação, algoritmo de banco, se usar a cor da pele como variável, vai tender a dar em média pior nota ao negro do que ao branco. E tu diz-me, às vezes, ah, sim, mas pode-se tornar o modelo mais complexo introduzindo outras variáveis. Claro, eu estou a falar de que serão sempre casos pontuais, mas não me choca que em alguns casos tu possas limitar, que no fundo é objectivo maior.
Pedro Domingos
Não, mas precisamente, isso é ótimo exemplo, é exemplo muito simples e muito claro, penso eu. Portanto, qual é o problema e qual é a solução? O princípio geral que eu estou aqui a dizer é que a maneira de resolver o problema é tornar o sistema de licenciamento social mais inteligente e não menos. Neste caso, tornamos o sistema mais inteligente. Se, por exemplo, se a variável essencial é o rendimento, então o que nós queremos é que o sistema utilize essa variável como lose input e depois prevê a partir do rendimento e ignora a cor da pele. Ah, claro, ponto. Porque o rendimento, uma vez condicionado, a cor da pele torna-se irrelevante. Aliás, o exemplo perfeito, se nós queremos é não discriminar na base da raça, ou estamos a proibir isto, o que estamos a fazer é causar a discriminação em vez de evitar. Aliás, posso omitir aqui uma parte importante, que é o seguinte, historicamente nos Estados Unidos havia muita discriminação na base da raça e depois isso foi proibido por lei nos anos 60, mas depois havia o fenómeno chamado redlining que é, eu quero discriminar contra ti por seres negros e vou utilizar o teu rendimento como uma proxy da tua raça. E então as leis proíbem utilizar essas coisas, como por exemplo o código postal, diz assim, não podes usar, isto é exemplo real, não podes usar o código postal para fazer a previsão de se deves ter empréstimo para comprar a casa, porque isso é uma proxy da raça. Mas agora, olhando para isto do ponto de vista de sistema de isenção social, eu quero utilizar o código postal porque é utilizando o que torna a raça irrelevante. Se eu proíbo utilizar o código postal, causa o resultado mais racista.
José Maria Pimentel
Não, o que eles não queriam era que utilizassem nenhum dos dois.
Pedro Domingos
Não, mas aqui vem outra questão importante que é a seguinte. Eu quero utilizar, eu banco, eu não sou racista, eu quero apenas prever se tu vais pagar o teu empréstimo ou não. E o código postal é uma variável relevante, independentemente da raça. E o rendimento é uma variável importante, independente da raça. Portanto, eu devo utilizá-las para tomar boas decisões. Agora, se há correlações entre essas variáveis e a raça, isso é outra questão. Não sei qual é a expressão que estão em português, mas esta é a expressão na América de disparate impact, que é os resultados são diferentes para raças diferentes. O disparate impact não implica discriminação, não confundir a correlação com a causalidade.
José Maria Pimentel
Ah claro, claro, claro. Este é erro
Pedro Domingos
que as pessoas estão... Aliás, nestes artigos todos afilados em investimentos, sistematicamente as pessoas fazem esta confusão entre a correlação e a causalidade. Há resultado diferente para diferentes raças que não é causado por racismo. E se a gente tenta resolver o problema proibindo o sistema ou tentando, mais uma vez há uma data de investigação nisto que é, modificar o sistema para não ser racista. O que nós estamos a fazer é modificar o sistema para ser racista noutra direção. O que nós temos de fazer é fazer o sistema que faz a decisão, prevê a variável, decisão baseada nas variáveis relevantes, utilizando por exemplo o método Weiziano. E aliás, há aqui outra distinção extremamente importante que as pessoas nunca fazem é a seguinte, e tem a ver com a ideia que estás a dizer, portanto, da perpetuação dos enviasamentos. Se os dados de que eu estou a aprender, se o meu conjunto de treino são as decisões tomadas por seres humanos e o que eu estou a aprender é reproduzir as decisões deles obviamente vou copiar os enviesamentos deles. Isso é má ideia. Às vezes é o mais fácil. A boa ideia é eu estou a fazer a previsão de, na realidade, a pessoa pagou empréstimo ou não. E a realidade é a realidade.
José Maria Pimentel
Mas a realidade também pode traduzir em envejecimentos sociais, digamos assim, não é?
Pedro Domingos
Pois pode, mas isso é problema diferente. Aliás, não compete a individualidade social resolver esse problema.
José Maria Pimentel
Ah, claro, claro que não.
Pedro Domingos
Compete, Aliás, isto é o que eu defendo, algumas pessoas discordam, mas é, o que nós pretendemos da aprendizagem automática é que nos dê uma imagem correta do mundo. Modificar o mundo para ser o que a gente quer, isso é diferente.
José Maria Pimentel
E depois podes decidir o que fazes com essa imagem, não é? Claro.
Pedro Domingos
Aliás, se eu quero resolver esse problema, por exemplo, de haver preconceitos que levaram a pessoas de raças terem menos empréstimos ou terem menos dinheiro, o primeiro passo é eu ter dados e modelos que mostram exatamente o problema e o que ele é e a dimensão do problema. Não é modificar os dados criando modelos que fazem de conta que o problema não existe. Que é uma ideia absurda, mas é uma ideia muito difundida hoje. As Googles e as Facebooks, etc. Todas têm grupos que estão a tentar pôr estas ideias nos produtos deles.
José Maria Pimentel
E depois há outro perigo que eu acho que é tópico bom para fazer a ponta entre estes perigos de curto prazo e de longo prazo porque de certa forma está nos dois campos, que é o perigo dos algoritmos serem controlados por pessoas com más intenções, digamos assim. O exemplo mais óbvio são governos de países que são ditaduras, por exemplo. E aí já é possível argumentar que, mesmo os algoritmos atuais, e sobretudo algoritmos futuros, se controlados por pessoas mal intencionadas, ou organizações mal intencionadas, podem ter efeitos negativos, mesmo os atuais, no caso de, sei lá, fake news, por exemplo, é o exemplo mais óbvio, mas sobretudo assumindo algoritmos mais desenvolvidos. Isso pode acontecer independentemente de nós comprarmos a tese da singularidade, ou seja, isto não pressupõe, no fundo, o ponto é, este argumento não pressupõe haver takeover do próprio algoritmo, tipo 2001, ou disser no espaço.
Pedro Domingos
Não, mas precisamente, nos períodos de longo prazo, a grande preocupação das pessoas como Elon Musk etc etc é as máquinas tornarem-se espontaneamente más. 2001 é o perfeito exemplo, Terminator, os filmes de Hollywood estão cheios das incercias sociais espontaneamente más e dos robôs, do X-Machina etc etc. Mas esse é o perigo imaginário. As máquinas propriamente projetadas, e nós podemos discutir isso, não se podem fisicamente tornar espontaneamente más. Isto é fisicamente, matematicamente, impossível. O perigo real é precisamente estes dois. É as máquinas serem utilizadas por pessoas com más intenções, quer sejam criminosos ou regimes totalitários, etc, etc. Ou a indecensidade social que faz coisas más por não compreender o que é que deve fazer. Que mais uma vez o problema é demasiada estupidez e não demasiada inteligência. Portanto, as pessoas tão preocupadas com as máquinas decidirem espontaneamente matar as pessoas porque querem ser elas donas do planeta. Isto é ficção científica. A solução para este problema imaginário é limitar a inteligência. O problema real é a máquina não perceber o que é que deve fazer e fazer grandes disparates. A solução para isso é tornar as máquinas mais inteligentes, não menos.
José Maria Pimentel
Ou seja, recapitulando, no que toca a singularidade, ou seja, no que toca a haver uma espécie de takeover das máquinas, o teu ponto é que isso é matematicamente impossível pela razão de que isso não está na função objetiva desse algoritmo. Ou seja, eles estão restringidos a sequer seguir esse caminho e portanto isso não pode ocorrer por geração espontânea.
Pedro Domingos
Precisamente, isto é assim, as pessoas que se preocupam com isto, tanto os leigos como os especialistas, o que lhes dá uma certa trepidação é esta ideia de que quando as máquinas aprendem, e essa é a ideia da singularidade, é a máquina produz uma máquina mais inteligente, depois produz outra ainda mais inteligente, e agora vão-se tornar infinitamente inteligentes e nós perdemos completamente o controle das máquinas. Mas o primeiro ponto importante é, a inteligência e o controle são coisas completamente diferentes. Nós podemos ter uma inteligência infinita que está completamente controlada via essa função objetivo. Portanto, as pessoas que não sabem que os sistemas de inteligência social são controlados por uma função objetiva têm grandes confusões. As pessoas que sabem... O que nós estamos a fazer em aprendizagem, como já falámos há pouco, é evolução acelerada. E a evolução para as máquinas nos servirem. A cada momento, em cada geração, as máquinas, os programas que não nos servem, morrem. Aliás, uma analogia simples é a seguinte. Se tu tens cão, não te preocupas que o teu cão te vai matar esta noite, de repente. O que é cão? O cão é lobo domesticado. E os lobos matam pessoas. Agora, nós evoluímos os lobos para se tornarem cães. E por isso não temos mais eles. Agora, se tu não tens medo do teu cão, porquê é que havias de ter medo de robô que foi ainda muito mais completamente evoluído por nós para nos servir?
José Maria Pimentel
Pois, é que eu acho que o teu ponto é que vai mais longe do que isso, não é? Porque o cão... Enfim, eu tenho duas cadelas e tenho a certeza, no sentido heurístico, de que elas não vão fazer nada. Mas não é impossível. Há casos de cães que agredem os donos, porque lá está, às vezes até por ter tumor no cérebro, ou qualquer coisa, não é? Quer dizer, isso é possível. O teu ponto é que aqui é impossível.
Pedro Domingos
Não é impossível, mas não é razão para não termos cães ou para nos preocuparmos que eles nos vão matar. E aliás, se eles têm tumores é precisamente o mal funcionamento. Portanto, estas coisas podem acontecer por mal funcionamento. Agora, fisicamente é possível, por exemplo, é possível esta caneca agora de repente saltar para o ar. As leis da termodinâmica não proibem que a caneca salte para o ar, mas a probabilidade é tão pequena que é uma perda de tempo de nos preocuparmos com ela.
José Maria Pimentel
Desculpa interromper-te, mas no paradigma atual sim, mas num paradigma em que tu desenvolves algoritmo mestre, mesmo risco pequeno tem impacto tão grande que justifica considerá-lo, não é? Não, mas isto é assim... A não ser que o risco seja zero, não é? Aí já não justifica.
Pedro Domingos
Precisamente. Não, mas isso é ponto importante. Aliás, penso que todos concordamos, o risco destas coisas acontecerem é pequeno, mas não é zero. Agora, aqui a discussão é, quanto mais pequeno, menos nos iremos preocupar com ele. E agora, quanto menor a probabilidade, e portanto, eu diria que probabilidade de uma destas coisas acontecer é 0,001%, mas há quem diga que é 0,1% e há quem diga que é 10%.
José Maria Pimentel
Mas tu estás... Desculpa Pedro, tu estás a falar aqui especificamente do sistema ganhar autonomia?
Pedro Domingos
Não, não, por exemplo, do sistema, aliás, os sistemas de interseccional por natureza própria têm sempre alguma autonomia. E o que as pessoas dizem, ah, mas esse sistema, nós, portanto, vamos agora para a ocupação das pessoas que são mais socialistas, portanto, ah, sim, sim, Nós dissemos quais é que são os objetivos do sistema, mas o sistema depois escolhe os seus sub-objetivos.
José Maria Pimentel
Ou interpreta mal, sim, sim.
Pedro Domingos
Precisamente, mas interpretar mal é precisamente estupidez. A cura para o interpretar mal não é ilimitar a inteligência, é aumentar-va. Precisamente, O risco, e isso não é probabilidade zero, isso acontece todos os dias, é o sistema interpretar mal. O que é muito pouco provável é o sistema espontaneamente decidir que, ah, eu agora quero ser senhor do mundo. Isso é baseado numa má analogia entre as máquinas e as pessoas.
José Maria Pimentel
É muito pouco provável ou é impossível? Porque o meu entendimento é que é impossível, porque não está na função objetiva e portanto não... Mas se calhar estou a ser mais papista que o Papa.
Pedro Domingos
Não é impossível porque, por exemplo, pode haver bugs, pode haver uma radiação que modifica uns bits, portanto ao nível do fisicamente impossível estas coisas todas
José Maria Pimentel
podem acontecer. É inversível mas não é impossível.
Pedro Domingos
Exato, é inversível mas não é impossível. Mas a questão importante é a seguinte, nós quando decidimos o que é que queremos fazer com a agência social temos que ver quais é que são os perigos e quais é que são as oportunidades e as probabilidades e a quantidade de benefício. Estes perigos, mesmo que nós os aceitemos como reais, são insignificantes comparados com os benefícios potenciais. Aliás, uma das coisas irónicas para mim é o seguinte, é que as pessoas dizem Ah, mas a indecenciabilidade social pode causar a extinção da humanidade. É muito mais provável que a indecenciabilidade social salve a humanidade da extinção do que a cause.
José Maria Pimentel
Eu percebo, eu percebo o teu ponto, mas dos viéses do nosso cérebro é o viés da negatividade, não é? E que não vem... Exato. Não surge do nada, não é? Nós temos mais falsos positivos do que falsos negativos porque se olharmos para o lado este, na savana, e parece que vimos leão, mas não é leão, pá, se calhar tivemos ali uma libertação de adrenalina escusada, mas se tiver leão ao nosso lado e nós não virmos o leão, vamos dar-se para melhor. Portanto, preocupa-nos mais a negatividade porque, dizendo de outra forma, o risco do extermínio da humanidade não é recuperável. E o benefício de teres mais gente no mundo ou de aumentar a longevidade é bom, Mas não é simétrico, é o que eu quero dizer, não é?
Pedro Domingos
Precisamente, precisamente. Mas continuando com essa analogia, que acho que é uma boa analogia, aliás, não é uma analogia. Este fenómeno todo vem precisamente da nossa amígdala a disparar com o instinto do medo, que vem precisamente disso. É, mais vale ter medo dos arbustos, quando eram só arbustos, do que não ter medo quando estava lá leão e leão te mata. Mas agora repara, há aqui dois aspectos, é a evolução que alibrou esse fenómeno. Se tu tivesse tanto medo de tudo o tempo todo que nem sequer saíste da tua caverna morrias de fome.
José Maria Pimentel
Claro, claro, absolutamente, sim, sim. Portanto, a gente tem que fazer essa reclamação. Não é ilimitado, claro, claro. Mas o meu ponto é que não é absurdo tu temeres, por muito improvável que seja, outcome que levasse ao fim da humanidade.
Pedro Domingos
Não, não é absurdo. Não é absurdo. Mas há outra questão em quem que é importante é. O nosso cérebro foi condicionado para a evolução, para estado do mundo muito diferente do atual. E na evolução, na pré-história, os benefícios possíveis eram muito limitados. Nós hoje em dia podem acontecer coisas que melhoram o mundo 10 vezes mais, 1000 vezes mais. Nós evolucionários só pensávamos no medo porque o melhor que nos podia acontecer era alimentarmos, reproduzíamos, morríamos.
José Maria Pimentel
O upside era limitado, não é? Sim. A
Pedro Domingos
indústria artificial tem maiores downsides, mas também tem maiores upsides. E nós temos que tomar ambos em consideração.
José Maria Pimentel
Sim, sim, isso absolutamente. Sim, sim, sim, sim. Bom, Pedro, isto, enfim, só esta parte dava episódio por si só, mas eu não quero tomar mais o teu tempo. Sei que tens livro para recomendar, não sei qual é, nem sei se está estritamente relacionado com o tema. Enfim, o teu livro já está implicitamente recomendado, mas para lá disso, não sei o que é que vais recomendar, o que é que nos traz?
Pedro Domingos
Livro que eu recomendo, que eu gostei imenso e que está relacionado com a indecensidade social, embora não seja sobre a indecensidade social, é precisamente deste autor, Douglas Alstatt, é o livro mais famoso dele, é livro chamado God Alesher Bach, An Eternal Golden Braid. E é livro muito famoso que saiu nos anos 70 e eu conheço uma série de pessoas que se tornaram investigadores em indecifencial por terem lido este livro.
José Maria Pimentel
Pois, eu tenho a ideia que é muito influente nesta área.
Pedro Domingos
Eu quando o li já me tinha decidido a ir para a indecifencial porque não teve esse efeito mas é livro fascinante. O livro é basicamente sobre o Teorema de Godel.
José Maria Pimentel
Tenho de te explicar o que é o Teorema de Godel.
Pedro Domingos
Aliás, toca nem vários pontos em que a gente aqui falou, mas o Teorema de Godel é teorema que, aliás, ele tem vários teoremas, mas o teorema mais conhecido é teorema que mostra que há teoremas que são verdade mas não podem ser provados. É teorema fundamental na matemática porque no princípio dos séculos XX, o grande objetivo da matemática, enunciado pelo Hilbert, que era o meio matemático dessa altura, etc. Era, nós vamos automatizar tudo. Aliás, automatizar é uma versão moderna disto. Era. A ideia é todas as verdades matemáticas do universo nós vamos prová-las.
José Maria Pimentel
Provar os axiomas, mesmo.
Pedro Domingos
Temos axiomas e depois provamos a partir dos axiomas. O que o Godel aprovou, que deixou as pessoas completamente estarrecidas, eu estou a omitir aqui alguns pormenores importantes, mas simplificando, o que ele mostrou foi que há coisas que são verdade, matematicamente verdade, Há verdades matemáticas que não podem ser provadas. Isto é uma coisa que a pessoa, pelo menos para quem sabe a matemática mais banal, é bocado como é que isso pode ser possível, como é que isso pode ser possível provar tal coisa. Existe teorema, que é teorema, Portanto, há sistema formal, há certos axiomas e o que ele mostrou para ser bocadinho mais preciso, aliás relevante para a Indústria da Cidade Social, é que os sistemas de axiomas que nós usamos na matemática todos têm certas coisas em comum, básicas, por exemplo a existência de números naturais. A partir do momento em que tu presumes que existem números naturais que vão até ao infinito, em qualquer sistema que tenha este axioma, há teoremas verdadeiros que são indemonstráveis. Verdadeiros, mas indemonstráveis. Portanto, este foi terramoto na matemática. E há também muita gente que diga que, ah, então este artesanal é impossível por causa do teorema de Gödel. O que é disparate completo, mas isso é outra conversa. Mas, portanto, é teorema fascinante em si mesmo e com montes de ramificações e implicações. E O livro basicamente, Gödel, Escher, Bach, é o Gödel, o Escher e o Bach. O que ele faz é uma analogia entre o Teorema de Gödel e a arte do Escher e a música do Bach. Na realidade, o que ele usa é a arte do Escher e a música do Bach para explicar o Teorema de Gödel. O livro em si é divertidíssimo porque tem diálogos entre Aquiles e a tartaruga. Quer dizer, é livro extraordinariamente imaginativo e tem puzzles matemáticos e faz uma coisa extraordinária que é o livro basicamente é sobre lógica e como demonstrar teoremas, que é uma coisa que tu pensas que é demasiado, extremamente seca, chata e ele torna-no-a uma coisa completamente fechante e ao mesmo tempo explica as coisas a sério como deve ser. Tu sabes, ao contrário de muitos livros de divulgação que fazem umas analogias e a pessoa pensa que percebeu mas não percebeu. É livro em que de facto tu percebes aquilo a sério e vês também, pronto, e depois ele passa uma grande parte a falar da indigensidade social em parte por causa da relação com isto e em parte porque, pronto, se ele também se interessa por ela. Portanto, é livro extremamente divertido de se ler e em que tu aprendes uma quantidade enorme de coisas sobre várias áreas desde a matemática até a inteligência social até a música até a arte
José Maria Pimentel
Sim, incrível E ele tem mais recente que é precisamente sobre a analogia, não é?
Pedro Domingos
Sim, portanto, ele tem vários livros O que o tornou famoso foi o Godolescer Bach E é dos grandes best-sellers de sempre Este livro mais recente que eu falei dele chama-se Surfaces and Essences e o subtítulo é Analogy as the Fuel and Fire Thinking. Portanto, há analogia como o combustível e o fogo do lançamento. E o que é engraçado é que o Godelé-Chabac saiu nos anos 70 quando dominava a indecenciar de salvo simbólica e é 100% sobre a indecenciar de salvo simbólica e sobre simbolismo. É sobre lógica e precisamente como é que se manipulam símbolos para chegar a conclusões e a semántica, a sintaxe. Mas o livro em si é uma analogia e 20 anos depois ele publica livro a mostrar que, ah, isto é tudo analogia, portanto o germe da analogia já estava nisto, supostamente era sobre simbolismo e lógica e etc.
José Maria Pimentel
Aqui estava no título.
Pedro Domingos
Exatamente, o título é analogia entre os três.
José Maria Pimentel
E por acaso, agora, só para terminar, eu antes cheguei a perguntar à bocado. Aquele tipo da Google, que a meados do ano passado ainda não tinha saído sequer o 7 CPT, isto era sobre o chatbot deles, que veio dizer que ele se tornou sentiente. Qual é a tua interpretação? É o que parece-me uma coisa muito bizarra vista de fora.
Pedro Domingos
Parece bizarra vista de fora, mas eu sei o que é que aconteceu. Aliás, é bastante simples, que é o seguinte, portanto... Aliás, quando ele diz sentiente, o que ele quer dizer com isso é consciente. Consciente, exatamente. O que ele disse foi que eu estou a falar com uma pessoa. Isto não é computador. Eu mostrava os diálogos que tive, é impossível ter diálogo destes com algo que não tenha consciência. Portanto, tem consciência e agora a revelação, etc, etc. Agora, porquê que isto aconteceu? Por uma combinação de coisas. Muito interessante. A primeira coisa que nós já falámos é que estes temas, era parecido com a chatos CPT, têm uma capacidade inacreditável de parecer humanos. Eles estão apenas a gerar a palavra seguinte, mas estão a gerá-la imitando os seres humanos e têm uma capacidade enorme de fazer isso. Portanto, voltando mais uma vez ao Mark Lovebot do meu filho, não deve surpreender ninguém que quando tu falas com destes temas ele te parece humano, porque foi otimizado para ser humano.
José Maria Pimentel
Ele em certo sentido parece mais humano do que muitos humanos, porque é a média, não é?
Pedro Domingos
E agora o que tu fazes e o que ele fez é, tu projetas sobre este sistema qualidades que os humanos têm mas que o sistema não tem, incluindo a consciência, as emoções, os desejos, as intenções, essas coisas todas. Esse é o primeiro passo e que é muito relevante hoje em dia. Portanto, as pessoas continuam a fazer esta confusão, mas também começam a descobrir as maneiras todas como chat de IPT na realidade não funciona como ser humano.
José Maria Pimentel
Pois, tu estás usando mais e percebes as limitações.
Pedro Domingos
O que é ótimo, aliás, Isso é que é bom que está a acontecer, isso é muito salutar. Mas o outro passo foi que, o passo final, mas eu vou agora anticipar, foi uma jornalista do Washington Post, muito esperta, que pegou neste tipo e fez uma história, fez grande escarcel. Diz, engenheiro da Google, declara que o sistema de educação social é consciente. E a reação das pessoas é, ah, se isto é engenheiro da Google, não é imbecil qualquer, ele deve ter credibilidade. E a partir daí, pronto, para ela foi sucesso enorme, like, centenas de histórias sobre isto. Portanto, desperteza dela ou boa capacidade jornalística, digamos assim. Mas porquê que isto aconteceu? Porque esse engenheiro da Google não foi dos engenheiros da Google que são especialistas em aprendizagem automática. Ah, ok. Porque os que são especialistas em indecencia automática, aliás, essas pessoas riram-se, como eu me rio com todos nos rimos. Quando eu vi essa história, caí da cadeira a rir. Esse foi engenheiro da Google, do grupo precisamente da Ethical AI, ela queria entrevistar uma pessoa sobre isto, foi ao grupo da ética de indecencia social, que é precisamente o pessoal que data destas coisas dos enviesamentos e não sei quantos, que são pessoas que em geral não são especialistas em indecenciedade social, pelo menos a este nível, e essas pessoas não quiseram, portanto encaminharam a jornalista para este engenheiro, que é apenas engenheiro de baixo nível e francamente imbecil que estava ali a fazer umas coisas, aliás penso que nem sequer era empregado permanente ou não sei muito bem qual era a posição dele, mas portanto é tipo muito mais ignorante sob a indecensidade social do que as pessoas pensam que ele era, portanto, as pessoas deram à história dele uma credibilidade que ela desvaga e depois obviamente perdeu o emprego, mas enfim, devia ter tido mais cuidado.
José Maria Pimentel
Isto é o que sempre acontece nestas coisas, não é? Pois. E lá está, ou seja, descrevendo apenas como engenheiro, não é? A pessoa depois preenche o resto, não é?
Pedro Domingos
Precisamente, as pessoas preencheram o resto, irrevelamente. É o
José Maria Pimentel
que não se sempre faz, não é?
Pedro Domingos
E O que é muito importante, porque sem isso não funcionava.
José Maria Pimentel
Sim, sem isso não vivíamos. Pedro, obrigado, ótima conversa e desafio. Obrigado.
Pedro Domingos
Obrigado, Will.
José Maria Pimentel
Como os benefícios associados a cada modalidade.