Dados: O novo Petróleo! Como extrair valor?

Qualquer atividade que fazemos em computadores ou celulares hoje estão relacionados a dados. Essa cultura de coleta e armazenamento de dados influenciou a forma de processar e consumir um grande volume de dados gerados por apps e sistemas dando origem ao Big Data e à novas profissões na área de dados como a de cientista de dados e de engenheiro de dados.

A Área de Dados da Lambda3 planejou para esse ano, uma série de podcasts e artigos da área de Dados, trazendo cases de mercado. Começaremos lançando hoje, o primeiro tema que é “Dados: o novo petróleo! Como extrair valor?” para falar de uma forma geral sobre as atividades que os profissionais de dados realizam para extrair informações de valor e otimizar os negócios nas empresas.

Vamos comentar desde o primeiro ciclo que é origem dos dados nos sistemas transacionais, passaremos pelo processo de BI, falaremos dos algoritmos de aprendizagem de máquina e sobre as possibilidades da Inteligência Artificial.

Ouça agora o podcast sobre “Dados: o novo petróleo! Como extrair valor?”

Dados Estruturados

Ao citar Dados Estruturados, falamos em tabelas que possuem propriedades como atomicidade, consistência, isolamento e durabilidade. Essas propriedades garantem que os dados não serão duplicados e estarão sempre disponíveis de forma atualizada. É preciso ter a preocupação com algumas atividades para que as informações não sejam perdidas e o banco tenha a melhor performance, como tunning, alta disponibilidade, recuperação de desastres etc. Esse tipo de banco de dados suporta os modelos OLTPs (Online Transaction Processing, ou Processamento de Transações em Tempo Real) onde os dados transacionais dos sistemas estão sendo trafegados em tempo real.

BI (Business Intelligence, ou Inteligência de Negócios)

O ETL (Extract Transform Load, ou Extração, Transformação e Carregamento) é o processo de extração dos dados de um ou mais sistemas utilizados pelas empresas, que são disponibilizados em um ambiente conhecido como Staging Area para que a partir dessa camada seja aplicada a transformação, tratamento, padronização, remoção de inconsistências, e por fim o carregamento em um ambiente chamado Data Warehouse (Armazém de Dados).

A extração dos dados de BI deve estar alinhada com a área de Negócios das empresas, pois de acordo com o objetivo são definidos os KPIs (Key Performance Indicators, ou Indicadores Chaves de Desempenho e Medidas) a base das métricas ou o que deve ser medido para que a empresa verifique sua performance.

Os dados de BI são conhecidos como Cubo e utiliza Modelagem Multidimensional ou OLAP(Online Analytical Processing ou Processamento Analítico Online), essa modelagem possibilita sintetização, agregação e granularidade em múltiplas dimensões com visão desejada dos elementos sob várias perspectivas. Os modelos mais conhecidos são o Star Schema (Estrela) e SnowFlake Schema (Floco de Neve) sendo a solução ideal para analisar grandes bases de dados sob várias perspectivas levando em conta a complexidade de negócio.

O Dashboard ou relatório gráfico é o “front-end” desenvolvido em ferramentas de suporte à tomada de decisão com as informações analíticas das métricas. A arte de apresentar os dados graficamente é conhecida como Storytelling, o dashboard serve de apoio aos tomadores de decisão.

Análise Exploratória

Na Análise Exploratória, aplicamos estatística para entender o comportamento dos dados. Com ela é possível fazer algumas verificações como dispersão, distribuição, variância, desvio padrão, relação entre os dados e tendência dos dados para extrair insights e conhecimento. A análise exploratória é a base para o Machine Learning pois conhecendo os dados, torna-se mais fácil definir o melhor modelo a ser utilizado na extração de valor.

Machine Learning (Aprendizado de Máquina)

Aprendizagem de Máquina Supervisionado

Nos Algoritmos Supervisionados, conhecemos as entradas e as saídas dos dados e realizamos treinamento da máquina para que ela seja capaz de predizer a saída de acordo com as características dos dados existentes. Os mais conhecidos são: Regressão Linear, Regressão Logística, Classificação, Árvore de Decisão e K-NN.

A Regressão Linear é baseada em equações matemáticas, onde temos uma carga histórica de dados numéricos e queremos prever valores futuros. Podemos fazer previsão de vendas para os próximos meses, quantidade de leads de um determinado anúncio, duração de estoque de produtos etc. A regressão linear resolve muitos problemas financeiros e de varejo.

A Regressão Logística é baseada em cálculo de probabilidade estatística por máxima verossimilhança. Dado um conjunto de dados categóricos (strings/textos), calcula-se a probabilidade de ocorrer ou não alguma condição, ou seja, a resposta é binária. Algumas aplicações são: prever fraudes, anomalias em exames, aprovação perfis de crédito etc.

A Classificação ou Naive Bayes é utilizada para prever classes ou categorias baseada em probabilidade estatística observando a combinação de um conjunto de informações. Nesse modelo já sabemos quais são as classes, então treinamos a máquina com o conjunto de dados para que ela conheça as combinações existentes e, conforme são acrescentados novos dados, é feita a classificação. Com esse modelo podemos resolver os problemas de classificação de objetos, tipos de plantas, tipos de produtos, espécies de animais etc.

Árvore de Decisão é um algoritmo que utiliza cálculo matemático de entropia para apoiar a tomada de decisão. São aplicadas várias condições para criar um fluxo com níveis entre as informações. Nesse algoritmo você conhece a melhor decisão e desenha o fluxo de acordo com as características do conjunto de dados. É um algoritmo muito utilizado para decisão de fornecimento de crédito ou seguros por ter um resultado fácil de ser demonstrado como justificativa dos cálculos e da decisão.

O K-NN (Nearest Neighbors, ou Vizinhos Mais Próximos) é um algoritmo de classificação onde é feita uma matriz de similaridade e um cálculo da distância entre os elementos. Ao inserir um novo elemento em um conjunto de dados, é feito o cálculo mediante um parâmetro de distância informado pelo cientista de dados (Ex.: K= 5, raio de 5 cm) para prever ao novo elemento a qual conjunto ele pertence. Esse modelo é útil para agrupar novos elementos, pessoas, ou produtos em classes assim como no algoritmo de classificação, porém com técnica diferente.

Aprendizagem de Máquina Não Supervisionado

Nos Algoritmos Não Supervisionados não conhecemos o resultado ou classes desejadas. A máquina criará os conjuntos de dados para diferentes grupos observando suas características.

A Clusterização é utilizada para agrupar dados baseando-se em cálculo matemático da distância dos elementos. Nesse modelo não conhecemos as classes e o algoritmo através de suas características. Pode ser aplicada em segmentação de mercado e recomendação de produtos e serviços.

Aprendizagem de Máquina Por Reforço

Algoritmos de Aprendizado Por Reforço são algoritmos treinados para que a máquina tome sozinha as decisões e, dependendo da decisão, o algoritmo sofre uma pontuação negativa ou positiva com base nos erros e acertos fazendo com que ele aperfeiçoe as respostas a cada execução. Os carros autônomos e os robôs que interagem com humanos (como jogar xadrex, por exemplo) utilizam aprendizado por reforço. O vídeo do link abaixo demonstra robôs que procuram resolver desafios através de aprendizado por reforço.

Inteligência Artificial

Inteligência Artificial tem como base buscar mecanismos para simular o raciocínio humano. Há várias técnicas e algoritmos contendo várias camadas de processamento, como por exemplo, a maioria dos citados acima.

Dados Não Estruturados

NLP

NLP (Natural Language Processing, ou Processamento de Linguagem Natural) é aplicado para entender a escrita. Utiliza aprendizado profundo (Redes Neurais), são feitas várias camadas de processamento para se chegar a um resultado. Com o NLP é possível classificar assuntos de textos, interpretar o contexto de frases, criar fluxos de conversação com assistentes pessoais e analisar sentimento em textos. O NLP está aproximando a máquina e o humano nas interações.

Visão Computacional

A Visão Computacional é parte das tecnologias de Inteligência Artificial para fazer leitura ou entendimento de imagens. De forma bem resumida, cada imagem é entendida pela máquina como uma ou mais matrizes, onde cada matriz representa um canal de cor cuja junção das camadas dão origem aos pixels. A técnica exige a aplicação de alguns filtros que serão aplicados a depender do objetivo a ser alcançado, são eles: escala de cinza para ignorar as cores, detecção de bordas, binarização para identificar a imagem de forma mais clara, equalização para padronizar os tons, suavização para remover ruídos (sujeira de impressão, etc.). Com a evolução do conjunto dessas técnicas e o avanço da Inteligência Artificial, é possível hoje identificar tumores em exames com alta precisão, desbloquear celulares através da face do usuário, detectar emoções, etc.

Serviços Cognitivos

Hoje as empresas fornecedoras de serviços em nuvem, oferecem algumas soluções conhecidas como Serviços Cognitivos baseadas em Inteligência Artificial. É possível utilizá-las, criando os serviços em apenas alguns cliques. Esses serviços disponibilizam APIs (Application Program Interface ou Interface de programas de aplicações) para tradução de textos, transformação de voz em texto, construção de chatbots, transformação de imagem em texto, detecção de imagens, etc. Com essas possibilidades o custo com desenvolvimento é reduzido e os serviços podem ser utilizados integrando soluções aos sistemas das empresas.

As empresas que aderiram à cultura de extração de valor dos dados, estão ampliando cada vez mais o seu faturamento. Nosso objetivo com a utilização dessas técnicas é extrair dos dados todas as informações úteis que possamos alavancar os negócios nas empresas.

Esse artigo traz uma visão geral de como podemos trabalhar com os dados e futuramente publicaremos cada atividade de forma detalhada.

Autores

Andréa Longarini

Anderson Vasconcelos

Diego Nogare

Guilherme Costi

Links

https://www.impacta.com.br/blog/2017/01/30/entenda-a-importancia-de-um-banco-de-dados-em-uma-organizacao/

https://mercadoemfoco.unisul.br/banco-de-dados-relacional-e-nao-relacional-quando-utilizar/

https://pt.wikipedia.org/wiki/Inteligência_empresarial

https://pt.wikipedia.org/wiki/OLAP

https://pt.wikipedia.org/wiki/Armazém_de_dados

https://pt.wikipedia.org/wiki/Método_dos_mínimos_quadrados

https://edisciplinas.usp.br/pluginfile.php/3769787/mod_resource/content/1/09_RegressaoLogistica.pdf

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

https://pt.wikipedia.org/wiki/Processamento_de_linguagem_natural

https://en.wikipedia.org/wiki/Computer_vision https://machinelearningmastery.com/what-is-computer-vision/

https://azure.microsoft.com/pt-br/services/cognitive-services/

https://stock.adobe.com/br/

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	Este cookie é definido pelo consentimento do cookie LGPD para registrar o consentimento do usuário para os cookies na categoria "Funcional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duração	Descrição
_ga	3 horas	Este é um cookie do Google Analytics.
_ga_Z8V3TYDNCJ	2 anos	Este é um cookie do Google Analytics.