Recomendação para um BD que armazena dados de pesquisas científicas sem redundância de informação

Nolrarz · 25/11/2020

Eu estou planejando meu TCC, estou pensando em fazer uma plataforma open-source onde o usuário poderá encontrar informações do que ele quiser sobre qualquer assunto que já tenha sido estudado. Estava vendo lá quando começou a pandemia, nos primeiros meses já tinha umas 40.000 pesquisas em cima do COVID, e eu fiquei pensando, se eu fosse um cientista, como eu conseguiria gerenciar todos esses dados? São 40k só de arquivos, e se eu quisesse saber da exata reação química que o COVID teve com determinada célula sanguínea? E se eu quisesse saber sobre o gene "XYZ8940" que deve ter um nome que eu nem conheço ainda porque acabou de ser descoberto?

Um exemplo de aonde quero chegar com meu projeto é o mesmo desse vídeo: Discovery Brasil | Inteligência Artificial - IBM (É só 7 minutos do instante 1:13:00 até o 1:19:47) com a única diferença que eu quero que a maioria dos processos sejam abertos e feitos por pessoas, só deixaria na mão de uma IA aquilo que fosse óbvio e não tivesse erro da máquina fazer.

Então eu pensei que talvez seja possível criar um Banco de Dados onde TUDO que se conhece sobre um assunto, como no exemplo que dei, tudo sobre o COVID-19 estivesse ligado ao dado COVID, assim num único lugar saberia que ele tem tal e tal moléculas, tal estrutura e tamanho, tal resistência à determinados compostos químicos X e Y e tudo o mais, eu não precisaria ler CADA um dos 40k de artigos científicos sobre, lá mesmo estaria condensado as informações sobre cada assunto. E isso se aplicar às outras áreas como física, química, biologia etc.

Agora estou na fase de planejar como vou executar isso na prática. A maneira mais simples que consigo pensar agora é de só ligar no assunto A com B, A com C e quando for fazer o "Select" no MySQL ao puxar A vai vir B e C e tudo que A for ligado, se for A for COVID então vai vir mais de 1 milhão de informações, isso não é prático. Então ainda é simples, acrescentar um filtro assim o pesquisador pode escolher sob quais parâmetros ele quer dados. Por enquanto isso não passa de um sistema de "Tags" com ligações entre si, o Google já faz isso, é muito fluído, não faz distinção entre uma coisa e outra, todas as ligações têm o mesmo peso, então eu posso ligar o vírus covid à gravidade só por ter matéria física, assim, pela lógica, o covid cai no chão, mas o que daria a distinção de que ele tem tão pouca matéria e por isso pode ser levado até pelo ar ou espirro? Ele sofre gravidade? Sim, Mas não o suficiente para seu tamanho relativo às outras forças de seu exterior.

Problemas que ainda tenho que solucionar:

- Como passar texto para INFORMAÇÃO? (esse é o tópico principal desse projeto e estou pensando em ser feito por processos simples manualmente por pessoas e por enquanto estou evitando o uso de IA como GPT-3)
- Qual estrutura poderia comportar informações de todas as áreas que conhecemos? (pensei também em fazer uma espécie "Simulador" com os dados colocados, seria como uma engine de jogos comum só que com os dados das pesquisas dizendo como funciona o mundo, como não daria pra programar cada átomo de um corpo precisaria de um processo lógico de simplificação, por exemplo quando eu movimento um copo de vidro de um ponto à outro não preciso pensar em cada átomo que estou movendo, só no formato, aderência e peso geral)
- TALVEZ o uso de imagens para consolidar a realidade dos dados (pensando na dificuldade em descrever um simples jogo da velha só com palavras, imagino que imagens vão facilitar ao descrever as coisas como quatro risquinhos com 9 casas formando entre os espaços desses risquinhos)
- O que torna uma informação mais verídica que outra? (sobre a qualidade das informações postadas na plataforma pelas pesquisas científicas)
- E quando há duas evidências contrárias, como decidir entre elas a verdadeira?
- Como colocar um problema e como a própria plataforma poderia encontrar uma a solução já existente ou encontrada? (Por exemplo no caso do documentário, o homem tinha alzheimer, e o Watson encontrou uma lista de remédios para Alzheimer. Isso seria um bônus se for possível de automatizar, mas se só tiver os dados para serem encontrados manualmente já ajuda)

Se alguém tiver alguma ideia de como transformar TEXTO e IMAGEM em INFORMAÇÃO para encontrar as soluções dos problemas, sinta-se à vontade para discutir sobre isso, não conheço outro lugar além do fórum para trocar essas ideias. Obrigado

JEDI · 25/11/2020

Cara a grande maioria dos teus questionamentos poderiam ser resolvidos com um analista. Pra se desenvolver um sistema desses, tu vai precisar de conhecimento de analise e modelagem de dados.

Se tua ideia é apenas criar um projeto, então não se preocupa com isso pois não adianta querer modelar um sistema sem o conhecimento necessário. Então se foca em colocar as ideias no papel de uma forma que fique clara, quando for partir pro desenvolvimento, dai sim tu vai precisar de uma pessoa pra modelar e desenvolver tudo.

Não se preocupe com a parte tecnica, pois alguem da area consegue analisar e te apresentar as melhores opções. Alem disso mysql, IA são questões que não precisam ser analisadas agora, pois tu nem sabe se vai ser preciso usar.

JEDI · 25/11/2020

Mais algumas considerações.

- Como passar texto para INFORMAÇÃO? (esse é o tópico principal desse projeto e estou pensando em ser feito por processos simples manualmente por pessoas e por enquanto estou evitando o uso de IA como GPT-3)

A questão é que tens dados (texto), e precisas extrair informações desse texto, e isso é algo complexo, alguém com conhecimento precisa validar e extrair o que é relevante, não tem como automatizar isso, a IA não sabe se o texto é relevante ou correto.

- Qual estrutura poderia comportar informações de todas as áreas que conhecemos? (pensei também em fazer uma espécie "Simulador" com os dados colocados, seria como uma engine de jogos comum só que com os dados das pesquisas dizendo como funciona o mundo, como não daria pra programar cada átomo de um corpo precisaria de um processo lógico de simplificação, por exemplo quando eu movimento um copo de vidro de um ponto à outro não preciso pensar em cada átomo que estou movendo, só no formato, aderência e peso geral)

Qualquer banco de dados pode fazer isso, o que tas querendo é catalogar informações, é algo simples pra maioria dos BD, basta saber modelar ele corretamente.

- TALVEZ o uso de imagens para consolidar a realidade dos dados (pensando na dificuldade em descrever um simples jogo da velha só com palavras, imagino que imagens vão facilitar ao descrever as coisas como quatro risquinhos com 9 casas formando entre os espaços desses risquinhos)

Não entendi o que tas querendo dizer, mas tens que pensar que informação pode vir de diversas fontes de dados, inclusive imagem, e na hora de apresentar ela basta escolher o que vai ser mostrado.

- O que torna uma informação mais verídica que outra? (sobre a qualidade das informações postadas na plataforma pelas pesquisas científicas)

Isso somente alguém da area pode dizer, pois numa pesquisa existe muita informação e conhecimento do autor, o que pode tornar muito dificil a analise.

- E quando há duas evidências contrárias, como decidir entre elas a verdadeira?

O mesmo que o anterior, quem teria capacidade de decidir se algo é certo ou errado? Somente pessoas da area e com muito conhecimento tem capacidade de contestar algo.

- Como colocar um problema e como a própria plataforma poderia encontrar uma a solução já existente ou encontrada? (Por exemplo no caso do documentário, o homem tinha alzheimer, e o Watson encontrou uma lista de remédios para Alzheimer. Isso seria um bônus se for possível de automatizar, mas se só tiver os dados para serem encontrados manualmente já ajuda)

Isso é algo simples, se tu for no google e fizer uma pesquisa ele te mostra a resposta. A partir do momento que tua base é mais especifica, ele vai trazer uma quantidade menor de respostar só que com uma maior qualidade.

A solução dos teus problema passam pela modelagem de dados.

Nolrarz · 25/11/2020

JEDI disse:
analise e modelagem de dados.

Obrigado pela dica! Já vou começando à estudar isso.

JEDI disse:
A questão é que tens dados (texto), e precisas extrair informações desse texto, e isso é algo complexo, alguém com conhecimento precisa validar e extrair o que é relevante, não tem como automatizar isso, a IA não sabe se o texto é relevante ou correto.

Uma das ideias que discuti com alguns amigos foi de fazer um Ranking para as pessoas que adicionam na plataforma corretamente sobre determinado assunto, sobem no ranking e assim se demosntram mais confiáveis as suas informações. Espero que quem domine algum assunto, se prontifique à defendê-lo, quem não sabe dificilmente vai se atrever à mexer no que não sabe. Mesmo que alguém coloque algo que não sabe, dando um falso positivo, se alguém ver algo errado ou mal interpretado, cedo ou tarde outropoderá ir lá corrigir apresentando as provas que contrariam o falso positivo.

JEDI disse:
Qualquer banco de dados pode fazer isso, o que tas querendo é catalogar informações, é algo simples pra maioria dos BD, basta saber modelar ele corretamente.

Agora estou exatamente nessa fase, como catalogar. Vai passar da pesquisa(texto) => pessoa => plataforma visual => banco de dados. O texto pode estar sujeito à erros de interpretação, que critérios usar para fazer uma boa interpretação?

Enquanto à parte do banco de dados vou começar à estudar o que me indicou: Modelagem de Dados. Obrigado pelo seu tempo e ajuda.

JEDI · 25/11/2020

Nolrarz disse:
Obrigado pela dica! Já vou começando à estudar isso.

Uma das ideias que discuti com alguns amigos foi de fazer um Ranking para as pessoas que adicionam na plataforma corretamente sobre determinado assunto, sobem no ranking e assim se demosntram mais confiáveis as suas informações. Espero que quem domine algum assunto, se prontifique à defendê-lo, quem não sabe dificilmente vai se atrever à mexer no que não sabe. Mesmo que alguém coloque algo que não sabe, dando um falso positivo, se alguém ver algo errado ou mal interpretado, cedo ou tarde outropoderá ir lá corrigir apresentando as provas que contrariam o falso positivo.

Agora estou exatamente nessa fase, como catalogar. Vai passar da pesquisa(texto) => pessoa => plataforma visual => banco de dados. O texto pode estar sujeito à erros de interpretação, que critérios usar para fazer uma boa interpretação?

Enquanto à parte do banco de dados vou começar à estudar o que me indicou: Modelagem de Dados. Obrigado pelo seu tempo e ajuda.

Da uma olhada na wikipedia, eles fazem algo parecido com o que tu quer, eles precisam da ajuda de colaboradores pra poder manter todo o conteúdo. E existe regras pra poder colaborar.

reisw78 · 04/05/2021

mysql ou firebird

Recomendação para um BD que armazena dados de pesquisas científicas sem redundância de informação

Nolrarz

Member

JEDI

know-it-all Member

JEDI

know-it-all Member

Nolrarz

Member

JEDI

know-it-all Member

reisw78

Banido

Users who are viewing this thread