best free website templates

Conceitos Data Science


Ciência de Dados (Data Science)
Data Science é um campo científico amplo - cruzando matemática, estatística e disciplinas de ciências computacionais - que se refere a processos coletivos, teorias, conceitos, ferramentas e tecnologias que permitem a análise e extração de conhecimento a partir de dados. Data Science permite o uso de métodos teóricos, matemáticos para o estudo e avaliação de dados. Data Science é um campo que já existe há mais de 50 anos, porém ganhou mais destaque nos últimos anos devido a alguns fatores como o surgimento e popularização de Big Data e o desenvolvimento de áreas como o Machine Learning.

Cientista de Dados (Data Scientist)
Um Data Scientist é um profissional especializado em analisar, interpretar e desenvolver projetos de dados complexos idealizados para responder a necessidades de negócio especificas. Um Data Scientist deverá possuir competências multidisciplinares desde conhecimentos matemáticos e computacionais até à compreensão do problema de negócio em análise, de forma a extrair insights a partir dessa informação.

Algoritmo (Algorithm)
Um algoritmo é uma fórmula matemática ou estatística executada por um software para realizar análises de dados. É uma sequência lógica, finita e definida de instruções que devem ser seguidas para resolver um problema ou executar uma tarefa.

Análise Preditiva (Predictive Analytics)
Análise preditiva consiste na utilização dos dados históricos para prever tendências ou eventos futuros. Ao recolher, organizar e analisar esses dados, torna-se possível antecipar comportamentos do futuro, adequando e otimizando assim as estratégias de negócio.

Mineração de Dados (Data Mining)  
Data Mining ou mineração de dados é o processo de descobrir padrões relevantes consistentes, como regras de associação ou sequências temporais, de forma a identificar relacionamentos sistemáticos entre variáveis. Recorre a técnicas de Estatística ou Inteligência Artificial para encontrar informações que podem não estar imediatamente visíveis, ou seja, contra-intuitivas.


Inteligência Artificial (Artificial Intelligence)
Inteligência Artificial é um subcampo da Ciência da Computação que estuda o desenvolvimento de computadores e sistemas que consigam comportar-se como seres humanos e possuam a capacidade racional do ser humano de resolver problemas, pensar ou, de forma ampla, ser inteligente. Podemos pensar em algumas características básicas desses sistemas, como a capacidade de raciocínio (aplicar regras lógicas a um conjunto de dados disponíveis para chegar a uma conclusão), aprendizagem (aprender com os erros e acertos de forma a no futuro agir de maneira mais eficaz), reconhecer padrões (tanto padrões visuais e sensoriais, como também padrões de comportamento) e inferência (capacidade de conseguir aplicar o raciocínio nas situações do nosso cotidiano).

O desenvolvimento da Inteligência Artificial começou logo após a Segunda Guerra Mundial, com o artigo "Computing Machinery and Intelligence" do matemático inglês Alan Turing, e em 1956 o termo passou a ser usado. No entanto apenas recentemente, com o surgimento da capacidade de computação exponencial e Big Data, é que a inteligência artificial ganhou meios e massa crítica para se estabelecer como ciência integral, com problemáticas e metodologias próprias. Desde então, o seu desenvolvimento tem extrapolado os clássicos programas de xadrez ou de conversação e envolvido áreas como visão computacional, análise e síntese da voz, lógica difusa, redes neuronais artificiais e muitas outras. Inicialmente a IA visava reproduzir o pensamento humano. 

Inteligência Artificial Forte ou Geral (Strong or General Artificial Intelligence)
A investigação em Inteligência Artificial Forte aborda a criação da forma de inteligência baseada em computador que consiga raciocinar e resolver problemas tal como um ser humano; uma forma de IA forte é classificada como auto-consciente.

Inteligência Artificial Fraca (Weak or Narrow Artificial Intelligence)
A Inteligência Artificial Fraca centra a sua investigação na criação de inteligência artificial que não é capaz de verdadeiramente raciocinar e resolver problemas. Uma tal máquina com esta característica de inteligência agiria como se fosse inteligente, mas não tem autoconsciência ou noção de si. O teste clássico para aferição da inteligência em máquinas é o Teste de Turing.

Níveis de Inteligência Artificial
Entre os teóricos que estudam o que é possível fazer com a IA existe uma discussão onde se consideram duas propostas básicas: uma conhecida como "forte" e outra conhecida como "fraca". Basicamente, a hipótese da IA forte considera ser possível criar uma máquina consciente, ou seja, afirma que os sistemas artificiais devem replicar a mentalidade humana.

Teste de Turing (Turing Test)
Uma contribuição prática de Alan Turing foi o que se chamou depois de Teste de Turing de 1950. O Teste de Turing testa a capacidade de uma máquina exibir comportamento inteligente equivalente a um ser humano, ou indistinguível deste. O teste consiste em se fazer perguntas a uma pessoa e um computador escondidos. Um computador passa no teste se, pelas respostas, for impossível a alguém distinguir se interlocutor é a máquina ou a pessoa. A conversa é restrita a um canal de texto, como um teclado e uma tela para que o resultado não dependa da capacidade da máquina de processar palavras como áudio de fala.

Alan Turing
Alan Turing abordou a noção de inteligência de máquinas desde, pelo menos, 1941 e uma das mais antigas menções de "inteligência computacional" foi feita por ele, em 1947. No relatório de Turing, "Intelligent Machinery", ele investigou "a questão se é possível ou não as máquinas apresentarem comportamento inteligente e, como parte da investigação, propor o que pode ser considerado o precursor do que seria o Teste de Turing.

Computação Cognitiva (Cognitive Computing)
Computação Cognitiva é a junção de diversos métodos da Inteligência Artificial e de Processamento de Sinais para simular processos do pensamento humano, podendo incluir hardware (ex: sensores, IoT, robôs, processadores) e software (algoritmos de I.A.). Entre as técnicas utilizadas para emular o funcionamento do cérebro humano, estão: machine learning, processamento de linguagem natural, visão computacional, reconhecimento de fala, filtro de ruídos, reconhecimento de padrões, etc.

Inferência Bayesiana (Baysean Inference)
A Inferência Bayesiana consiste na avaliação de hipóteses pela máxima verossimilhança, sendo uma extensão da estatística bayesiana e da inferência estatística para a inteligência computacional, onde é sinônimo de apendizagem e encontra aplicações em domínios igualmente genéricos, e.g. na biomedicina, pesquisa de algoritmos, criatividade computacional, entre outros.


Aprendizagem de Máquina (Machine Learning)
Machine Learning é um subcampo da Ciência da Computação e refere-se a algoritmos e técnicas por meio dos quais os sistemas “aprendem”, de maneira autônoma, com cada uma das tarefas que realizam. Dessa forma, podemos dizer que o computador aperfeiçoa seu desempenho em determinada tarefa a cada vez que ela é realizada. Estes algoritmos consistem no treino de um modelo a partir de inputs amostrais a fim de fazer previsões ou decisões guiadas pelos dados ao invés de simplesmente seguindo instruções programadas explicitas. Enquanto que na Inteligência Artificial existem dois tipos de raciocínio (o indutivo, que extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), Machine Learning só se preocupa com o indutivo.

Aprendizagem Supervisionada (Supervised Learning)
Aprendizagem Supervisionada é o termo usado sempre que o programa é “treinado” sobre um conjunto de dados pré-definido. Baseado no treino com os dados pré-definidos, o programa pode tomar decisões precisas quando recebe novos dados. Exemplo: pode usar-se um conjunto de dados de recursos humanos para treino do algoritmo de Machine Learning, que tenha tweets marcados como positivos, negativos e neutros e assim treinar um classificador de análise de sentimento.

Aprendizagem Não Supervisionada (Unsupervised Learning)
Aprendizagem Não Supervisionada é o termo usado quando um programa pode automaticamente encontrar padrões e relações em um conjunto de dados. Exemplo: análise de um conjunto de dados de e-mails e agrupamento automático de e-mails relacionados ao tema, sem que o programa possua qualquer conhecimento prévio sobre os dados.

Aprendizagem por Reforço (Reinforcement Learning)
A Aprendizagem por Reforço preocupa-se com o como um agente deve agir num ambiente de forma que maximize alguma noção de recompensa a longo tempo. Os algoritmos de Aprendizagem por Reforço tentam encontrar a política que mapeia os estados do mundo às ações que o agente deve ter nesses estados. Aprendizagem por Reforço distingue-se do problema de Aprendizagem Supervisionada no sentido em que pares de input/output corretos nunca são apresentados, nem as ações sub-ótimas são explicitamente corrigidas.

Algoritmos de Classificação (Classification)
Algoritmos de classificação são uma subcategoria de Aprendizagem Supervisionada. Classificação é o processo de tomar algum tipo de entrada e atribuir-lhe um rótulo. Sistemas de classificação são usados geralmente quando as previsões são de natureza distinta, ou seja, um simples “sim ou não”. Exemplo: mapeamento de uma imagem de uma pessoa e classificação como masculino ou feminino.

Algoritmos de Regressão (Regression)
Outra subcategoria de Aprendizagem Supervisionada usada quando o valor que está sendo previsto difere de um “sim ou não” e que siga um espectro contínuo. Sistemas de regressão poderiam ser usados, por exemplo, para responder às perguntas: “Quanto custa?” ou “Quantos existem?”.

Algoritmos de Clustering
Clustering é um método de aprendizagem não supervisionado e consiste na atribuição de um conjunto de observações a subconjuntos (chamados clusters) de forma que as observações dentro de um mesmo cluster sejam similares de acordo com um critério ou critérios pré-designados, enquanto que observações feitas em clusters diferentes não são similares. Diferentes técnicas de Clustering fazem diferentes suposições sobre a estrutura dos dados, frequentemente definida por métricas de similaridade e avaliados, por exemplo, por similaridade entre membros de um mesmo cluster e separação entre clusters diferentes. Outros métodos são baseados em estimativas de densidade e gráficos de conectividade.

Algoritmos de Recomendação (Recommendation Algorithms)
Sistemas de recomendação são métodos baseados em Machine Learning para previsão da classificação que os utilizadores dariam a cada item e exibindo para eles aqueles itens que (provavelmente) classificariam bem. Empresas como Amazon, Netflix e Google são reconhecidas pelo uso intensivo de sistemas de recomendação com os quais obtêm grande vantagem competitiva.

Árvores de Decisão (Decision Trees)
Uma Árvore de Decisão é uma ferramenta de apoio à decisão que usa um gráfico de árvore ou modelo de decisões e suas possíveis consequências. Uma árvore de decisão é também uma maneira de representar visualmente um algoritmo.

Support Vector Machines
Máquinas de vetores de suporte são um conjunto de algoritmos de Machine Learning do tipo supervisionado, usados para classificação e regressão. Dado um conjunto de exemplos de treino, cada um marcado como pertencente de uma ou duas categorias, um algoritmo de treino SVM constrói um modelo que prediz se um novo exemplo cai dentro de uma categoria ou outra.

Modelos Generativos (Generative Models)
Em probabilidade e estatística, um Modelo Generativo é um modelo usado para gerar valores de dados quando alguns parâmetros são desconhecidos. Modelos geradores são usados em Machine Learning para qualquer modelação de dados diretamente ou como um passo intermédio para a formação de uma função de densidade de probabilidade condicional. Em outras palavras, podemos modelar P (x, y), a fim de fazer previsões (que podem ser convertidos para P (x | y) aplicando a regra de Bayes), bem como para ser capaz de gerar prováveis pares (x, y), o que é amplamente utilizado na Aprendizagem não Supervisionada. Exemplos de Modelos Geradores incluem Naive Bayes, Latent Dirichlet Allocation e Gaussian Mixture Model.

Modelos Discriminativos (Discriminative Models)
Modelos Discriminativos ou modelos condicionais são uma classe de modelos usados em Machine Learning para modelar a dependência de uma variável y de uma variável x. Como esses modelos tentam calcular probabilidades condicionais, isto é, P (y | x) são frequentemente utilizados em aprendizagem supervisionada. Exemplos incluem regressão logística, SVMs e Redes Neuronais.

Algoritmos Genéticos (Genetic Algorithms)
Um Algoritmo Genético é uma busca heurística que imita o processo de seleção natural e usa métodos com mutação e recombinação para gerar novos genótipos na esperança de encontrar boas soluções para um dado problema. Em aprendizagem de máquinas, algoritmos genéticos encontraram alguma utilidade me 1980 e 1990. De forma inversa, o Machine Learning tem sido usado para melhorar a performance de algoritmos genéticos e evolutivos.



Aprendizagem Profunda (Deep Learning)
Deep learning é uma subárea de Machine Learning que trata de modelos inspirados no cérebro humano, baseados em redes neuronais artificiais com várias camadas, para gerar modelos complexos e muito exigentes em termos de computação. Técnicas de Deep Learning, por exemplo, foram muito bem sucedidas na resolução de problemas de reconhecimento de imagem devido à sua capacidade de escolher as melhores características, bem como para expressar camadas de representação. Essa classe de modelos recentemente tem-se mostrado extremamente eficaz para diversos problemas de Machine Learning, chegando muitas vezes a alcançar performance próxima ou superior à humana.

Processamento de Linguagem Natural (Natural Language Processing NLP)
O Processamento de Linguagem Natural é uma subárea da Inteligência Artificial focada na capacidade dos computadores processarem e entenderem a linguagem humana. Através desse entendimento — que não é nada fácil — os sistemas podem gerar uma série de dados que são usados para criar desde atendimentos por robôs e assistentes digitais até a oferta de produtos e serviços personalizados para determinados grupos de pessoas.

Reconhecimento de Voz (Voice Recognition)
É o processo de converter voz (fala em linguagem natural) em texto, de forma automática. Também conhecido como TTS (Text to Speech) ou ASR (Automated Speech Recognition).

Análise de Sentimento (Sentimental Analysis)
Análise de Sentimento recorre a técnicas e tecnologias utilizadas para identificar e extrair informações sobre o sentimento (positivo, negativo ou neutro) de um indivíduo ou grupo de indivíduos sobre determinado tema.

Assistente Virtual (Virtual Assistant)
Assistentes Virtuais são programas de computador que simulam um assistente humano fornecendo algum serviço ao utilizador. Podem ou não ter capacidade de conversar (como os chatbots. Podem servir para atender clientes, orientar em tarefas, lembrar compromissos (ex: integração com calendário) e funcionar como interface para outras aplicações. Exemplos: a Siri da Apple, Google Assistant, Cortana da Microsoft, Alexa da Amazon, M Assistant do Messenger do Facebook.

Chatbot
Chatbots são programas que utilizam recursos de linguagem natural para interagir com os utilizadores via mensagens (Interface Conversacional). Alguns chatbots utilizam inteligência artificial para descobrir a intenção na frase do utilizador, lidar com ambiguidades, encontrar a melhor resposta e aprender com as interações. Já são uma opção para o atendimento ao cliente em várias empresas. São utilizados em sites, aplicativos e em redes sociais para falar com os clientes.


Big Data
O Big Data está normalmente associado a base de dados gigantes que exigem estratégias econômicas e inovadoras de processamento de dados para melhorar a qualidade dos insights sobre tendências e comportamentos, tomadas de decisão e automação de processos.

Hadoop
O Hadoop é um projeto open source com licenciamento da Apache Software Foundation e tem como objetivo disponibilizar uma plataforma distribuída para processamento e exploração de Big Data recorrendo a diversos computadores interligados em clusters. Estes clusters podem conter até milhares de máquinas, cada uma delas disponibilizando capacidade de processamento e armazenamento locais. Dessa forma, em vez de depender de um único hardware, a biblioteca fornece serviços de alta disponibilidade baseados em grids de computadores.

Data Lake
Um Data Lake consistem num sistema que armazena os dados em grandes volumes e no seu estado natural, vindos de todos os tipos de fontes onde os utilizadores poderiam “mergulhar” e tirar amostras. Ou seja, um “lago” cheio de dados. O armazenamento deste tipo de dado é mais difícil, já que geralmente eles possuem formatos e origens diversas. Essa diversidade toda, no entanto, pode ser bastante positiva, já que ela amplia as possibilidades de exploração.

Analytics
É o processo que envolve a recolha de dados, o seu processamento e a análise para gerar insights, para ajuda ao processo de tomada de decisão, baseadas em informações. No geral, é uma forma de possuir e analisar dados.

Inteligência de Negócio (Business Inteligence)
Business Intelligence consiste na recolha, organização e análise de informações com o objetivo de fornecer insights para suporte à tomada de decisão ou apoio à tomada de decisão.

Data Preparation
Data Preparation é o processo de recolher, limpar, normalizar, combinar, estruturar e organizar dados para análise. Este é o passo inicial (e fundamental) para que o trabalho de Data Science posso ser feito de forma efectiva.

Data Warehouse
É um repositório de informações (dados) relacionadas por assunto, integradas e permanentes de modo a ajudar na tomada de decisões da empresa. Este repositório é isolado dos sistemas operacionais e é usado como uma base de dados centralizada para todas as áreas de negócio e ajuda no processo de tomada de decisão da empresa.

Data Mart
É um subconjunto de dados de um Data Warehouse projetado para responder a necessidades de uma comunidade de utilizadores. Podem ser construídos para diversas áreas da empresa, como Finanças, Vendas, Recursos Humanos etc. de maneira que os utilizadores em cada área de negócio vejam apenas os dados que são relevantes para eles.

Visualização de dados (Data Visualization)
Visualização de dados é a apresentação de dados em um contexto visual/gráfico. Padrões, tendências e correlações de dados que poderiam passar despercebidos em texto podem ser expostos e reconhecidos mais facilmente por meio de softwares de visualização. Esta técnica facilita o entendimento do trabalho com dados, inclusive por parte de tomadores de decisão, que conseguem extrair mais e melhores insights dos resultados apresentados visualmente.


CONTACTOS

Av. Eng. Duarte Pacheco
Torre 1 15º piso, 1070-101 Lisboa
Email: geral@dspa.pt
Phone: (+351) 919 557 786 

SUBSCREVA A NOSSA NEWSLETTER