De acordo com o TechCrunch, o novo modelo de gerador de texto funciona de forma análoga ao ChatGPT, mas, por ser uma ferramenta estatística que prevê palavras, precisa ser alimentada por um grande número de exemplos, como postagens das redes sociais, textos noticiosos e ebooks variados.
Para aprender a probabilidade de ocorrência de palavras, o RLHF treina um modelo de linguagem produzindo uma enorme gama de respostas a um determinado prompt humano. Essas respostas têm então que ser classificadas por voluntários humanos para criar uma espécie de "sistema de recompensa" que criará um ranking de preferências.
Naturalmente, não se trata de um processo acessível para a maioria dos usuários. O modelo de linguagem natural PaLM do Google, por exemplo, demandou 540 bilhões de parâmetros de linguagem. Um estudo de 2020 do AI21 Labs calculou as despesas para treinar um modelo com apenas 1,5 bilhão de parâmetros em até US$ 1,6 milhão (R$ 8,8 milhões).