Contrastive Language–Image Pre-training

De Wikinet
Ir para navegação Ir para pesquisar

CLIP, acrônimo para Contrastive Language–Image Pre-training, é um modelo pré-treinado que contrasta linguagem e imagem,[1] desenvolvido e disponibilizado pela OpenAI, o mesmo grupo que desenvolveu o ChatGPT, e é o resultado de rodar uma rede neural, usando o método de Deep Learning, em mais de 8000[2] pares de texto e imagem, para fazer aquilo que qualquer idiota consegue fazer em menos de um segundo, tipo olhar a foto de um cachorro e dizer foto de um cachorro.[3]

O objetivo do CLIP é pegar esta foto e retornar photo of a dog.

CLIP é uma merda, e não sou eu que estou dizendo isto, são os próprios desenvolvedores que dizem isto.[3] CLIP é uma merda para contar os objetos que tem em uma imagem,[4] além de não conseguir fazer OCR nas imagens, pelo simples fato que as bases de dados não informam quando tem texto para ser OCRizado.

Construção do modelo[editar]

CLIP é uma versão simplificada de uma porra chamada de ConVIRT, e como a fonte consultada não diz nada sobre o ConVIRT, não dá para saber porque o ConVIRT é uma merda.[5]

O treinamento do CLIP é feito, simultaneamente, em interpretar texto e interpretar imagem, e tentar criar um modelo para que, dos N pares texto-imagem usados, ele consiga excluir as N2 - N combinações erradas, e ficar com apenas as N combinações certas.[6][5] Como quase todas porras de inteligência artificial feitas a partir de meados da década de 2010, o código fonte do CLIP foi escrito em Python, e está disponível como software livre.[7]

Ver também[editar]

  • Reconhecimento de imagem - o principal objetivo do CLIP: dada uma imagem, dizer o que tem nela;
  • Text to image - o processo inverso: dado um texto, gerar uma imagem. Obviamente só funciona se o software que cria a imagem puder ver que fez merda e refazer o trabalho.
Ambox plus.png Este artigo precisa de mais pr0n
Você pode ajudar a Wikinet adicionando mais pr0n.

Salsa

  1. Que tradução mais porca, hem?
  2. 400 milhões é mais de 8000, né?
  3. 3,0 3,1 OpenAI, CLIP: Connecting text and images https://openai.com/research/clip
  4. E isto acaba influenciando os softwares que usam o CLIP, por exemplo, o Stable Diffusion tem o péssimo hábito de desenhar pessoas com sete dedos na mão ou três pernas.
  5. 5,0 5,1 Paperswithcode, Raford et al, Contrastive Language-Image Pre-training https://paperswithcode.com/method/clip
  6. Não entendeu a conta? Vai estudar análise combinatória, porra.
  7. Paperswithcode, Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever Learning Transferable Visual Models From Natural Language Supervision https://paperswithcode.com/paper/learning-transferable-visual-models-from#code