O Google Bard, uma nova tecnologia de linguagem natural da Google, está enfrentando críticas após a descoberta de que seu conjunto de dados de treinamento contém conteúdo pirata.
O conjunto de dados Colossal Clean Crawled Corpus (C4) é usado para treinar o LaMDA LLM da Google, uma versão na qual o Bard é baseado.
De acordo com a revisão do C4 pelo The Washington Post, o conjunto de dados contém vários sites identificados pelo governo dos EUA como mercados de pirataria e falsificação.
Embora não esteja claro se a versão específica do C4 usada para treinar o Bard contém esse conteúdo, a descoberta levanta preocupações sobre a ética do uso de conteúdo pirata em treinamento de IA.
Além disso, a descoberta de conteúdo pirata no conjunto de dados de treinamento do Bard destaca a importância de abordar questões de viés nos conjuntos de dados usados para treinar modelos de IA.
A falta de transparência em torno da origem e do conteúdo de conjuntos de dados de treinamento pode resultar em modelos de IA que perpetuam o preconceito e a exclusão.
Embora a Google não tenha comentado especificamente sobre as descobertas da revisão do C4, a empresa tem enfatizado a importância da ética em IA e comprometido-se a abordar questões de viés e justiça em seus produtos.
É fundamental que empresas de tecnologia como o Google sejam transparentes sobre a origem e o conteúdo de seus conjuntos de dados de treinamento para garantir que seus modelos de IA sejam justos e representativos.
E o ChatGPT?
A OpenAI é conhecida por ser altamente sigilosa sobre o uso de conjuntos de dados em seus modelos de linguagem natural, incluindo o GPT-4.
Embora a empresa não tenha comentado publicamente sobre o uso de conteúdo pirata em seu conjunto de dados de treinamento, uma revisão publicada em 2021 levantou preocupações sobre o uso de livros protegidos por direitos autorais no conjunto de dados BookCorpus.
Essas preocupações destacam a importância da transparência em torno do uso de conjuntos de dados de treinamento e da necessidade de garantir que os modelos de IA sejam justos e éticos.