Machine Learning as a Service, por Manuel Dias

Big Data, Internet of Things e Machine Learning tornaram-se palavras de ordem desta década na indústria de tecnologia. Sem nos darmos conta, as várias aplicações de Machine Learning influenciam cada vez mais a nossa vida diária, na forma e na rapidez como tomamos decisões. Desde a seleção de um filme, à interação com assistentes pessoais num telemóvel através do reconhecimento de voz, até sistemas sofisticados de prevenção de fraude, são inúmeras as aplicações onde Machine Learning está a revolucionar o modo como vivemos.

Até há muito pouco tempo, Machine Learning estava apenas ao alcance de algumas empresas, munidas de Data Scientists com forte background estatístico e com ferramentas muito dispendiosas mas essenciais para este tipo de análise. A evolução alucinante da tecnologia nesta área, aliada à economia de escala da Cloud, abriu uma nova era no acesso pela maioria das empresas, nos mais diversos domínios de atuação. A Internet of Thingscomo dimensão paralela, com biliões de dispositivos comunicantes capazes de produzir volumes massivos de informação, juntamente com as redes sociais e os novos tipos de dados não estruturados, acentuam a necessidade de uma nova abordagem de análise e extração de conhecimento.

Por todos estes motivos, Machine Learning representa hoje uma oportunidade tremenda e fascinante para uma nova geração de empreendedores e de empresas de informação, que são o embrião de novos Data Scientists, preparados para explorar novos modelos e novas aplicações, em vários espectros da atividade humana.

O que é Machine Learning?

Historicamente, Machine Learning existe desde o séc. XIX e um dos exemplos mais conhecido é o feito alcançado em 1997 quando o DeepBlue, computador criado pela IBM recorrendo a Machine Learning e Inteligência Artificial, venceu um jogo de xadrez contra o campeão mundial Gary Kasparov. Mais recentemente, o filme ‘Minority Report’ conta uma história onde uma força policial de elite identifica e prende criminosos com base em previsões sobre os crimes que irão cometer. Perante a onda de ficção à volta desta área, interessa compreender a base teórica associada a esta tecnologia em expansão e como a aplicar.

De forma sumária, Machine Learning pode ser descrito como sistemas computacionais que aprendem com a experiência, isto é, sistemas que usam o passado para prever o futuro e ajudar a obter o melhor resultado possível. Cientificamente, os algoritmos de Machine Learning têm como objetivo encontrar uma função, denominada modelo, a partir de dados de treino caracterizados por um conjunto de atributos, que posteriormente é usado para prever um novo exemplo futuro. Uma das enormes vantagens de Machine Learning é a sua capacidade única para lidar com centenas ou milhares de variáveis de análise, algo que qualquer humano é incapaz de fazer.

Tipos de Algoritmos

Os algoritmos de Machine Learning podem agrupar-se em três categorias principais:

Algoritmos de Classificação – usados para prever variáveis que podem ter apenas alguns valores conhecidos (variáveis discretas), como o reconhecimento de caracteres ou o sexo;
Algoritmos de Regressão – usados para prever variáveis contínuas, como o lucro ou o rendimento anual;
Algoritmos de Clustering – usados na deteção de padrões ou estruturas através do agrupamento dos dados usando as suas similaridades.

Tipos de Aprendizagem

Outro dos conceitos fundamentais importantes em Machine Learning é o tipo de aprendizagem utilizada para treinar modelos preditivos. Destacam-se dois tipos distintos:

Na aprendizagem supervisionada o modelo de previsão é treinado usando um conjunto de dados em que são conhecidos os atributos e o resultado associado a cada um (por exemplo, as características de um cliente e se ele efetuou fraude). Em função da variável a prever, poderá recorrer a algoritmos de classificação ou de regressão;

Na aprendizagem não supervisionada apenas se conhecem os atributos do modelo, sendo o objetivo a procura de padrões ou semelhanças nos de dados. Existem duas abordagens: a primeira e mais comum baseia-se na análise de clustering dos dados, e a segunda usa a aprendizagem por reforço, onde o objetivo é premiar ou recompensar uma ação considerada positiva e punir uma ação considerada negativa.

Definidos estes conceitos base e a título de exemplo, alguns dos algoritmos mais usados na indústria centram-se em Árvores de Decisão nas suas diversas variações, Redes Neuronais, Support Vector Machines, Regressões Lineares, Regressões Logísticas, K-Means Clustering, Bayes Point Machines, entre muitos outros, cada vez mais sofisticados. A escolha do algoritmo mais adequado para cada situação carece de um entendimento mais profundo do comportamento de cada um, bem como o conhecimento do que se pretende prever.

O Processo de Machine Learning

A implementação de uma solução de análise preditiva segue um processo bem definido, com um conjunto de atividades que vão desde a criação e preparação dos dados, até ao deployment do modelo para previsão de resultados futuros. Este processo deve ser contínuo, de forma a assegurar a precisão ao longo do tempo, especialmente quando alguns dos padrões e variáveis a prever estão sujeitos a alterações.

O primeiro passo consiste na extração e agregação dos dados, seguindo-se o tratamento de valores em falta, a normalização dos atributos, a redução da dimensionalidade e a seleção dos atributos mais relevantes para a análise. A próxima fase consiste no treino do modelo com base nos dados já preparados, e o teste para aferir a sua precisão, com base em várias métricas típicas (precisão, acerto, recall, ROC, etc.). O último passo consiste no deployment do modelo para ser utlizado, periodicamente ou em tempo real, por outras aplicações.

À medida que o modelo for utilizado deve monitorizar-se a sua performance, de forma a garantir que a precisão está dentro do intervalo esperado. Sempre que necessário e de forma controlada, poderá voltar a retreinar-se o modelo, com novos dados ou novos atributos que façam sentido passar a considerar.

Azure Machine Learning

Para endereçar estes desafios com agilidade, quer em termos técnicos quer económicos, a Microsoft lançou recentemente uma plataforma inovadora de Machine Learning – Azure Machine Learning – para suporte transversal de soluções de análise preditiva, aplicável a múltiplos domínios empresariais. O Azure Machine Learning é um serviço Cloud que qualquer analista sem conhecimentos estatísticos profundos pode utilizar para construir modelos preditivos e publicá-los para consumo por qualquer aplicação através de um Web Service na Cloud.

O Azure Machine Learning Studio é a ferramenta onde são desenvolvidos os modelos, disponibilizando todas as funcionalidades para modelação, transformação, treino, análise e deployment do modelo como um serviço, tudo através de uma interface integrada, colaborativa, totalmente web based.

Uma vez treinado o modelo, este é disponibilizado no Azure através de um web service REST ou como um endpoint OData, pronto a ser acedido por uma aplicação de negócio, de forma atómica ou em batch (para processamento de grandes volumes de dados). Opcionalmente, este serviço este pode ser publicado no Azure Marketplace, para consumo por qualquer empresa ou utilizador.

Por último e para facilitar a aprendizagem, a Microsoft disponibiliza uma galeria pública de algoritmos, com modelos reais e tutoriais para toda a comunidade interessada em Machine Learning.

Looking Foward – O que Nos Espera

Vivemos num ponto fascinante do tempo, em que o outrora inimaginável se está agora a tornar possível, sempre guiado pela necessidade de análises avançadas e modelos mais sofisticados, cujo potencial em muito extravasa as soluções tradicionais de Business Analytics.

A extrema facilidade de modelação, o elevado poder de cálculo e o modelo económico do Azure Machine Learning representam um passo crítico na democratização de Data Science. A disponibilização de uma plataforma end-to-end, totalmente desenhada e suportada na Cloud e com um TCO disruptivo face a soluções tradicionais on-premise, permitirá a muitas empresas que até hoje não tinham acesso a esta tecnologia, um novo driver de diferenciação.

Tal como há 10 anos atrás, a Pivot Table no Excel, com agregações automáticas, revolucionou a análise de informação e foi o embrião para o Self-Service BI que todas as empresas procuram, também os serviços de Machine Learning irão revolucionar áreas e processos de negócio com novas abordagens, mais inteligentes, mais poderosas e mais acessíveis. Esta área será sem dúvida onde vamos assistir a uma inovação contínua e exponencial, que já se iniciou.

Category/Type	Description
a) Strictly Necessary Cookies/Essential cookies	These cookies are essential to provide you with services available through our Website and to enable you to use its features. Without these cookies the site will not perform, thus we may not be able to provide Website’s services or features. These cookies do not depend on your consent, thus will be turned on by default. However, we will notify you that we are using them immediately as you enter the Website.
b)
c) Analytics and Performance Cookies	These cookies collect information about the use of the Website to improve the services provided and to evaluate its performance and are also used to collect information about traffic to the Website. These cookies can be placed by us or by a third-party. When needed, the placement of these cookies will require your consent.
d) Marketing, Advertising and Social Media Cookies	Marketing, Advertising and Social Media cookies are third-party cookies that allow connection to social networks and share multimedia content from our Website on those networks. Some of these cookies help us adjust advertising outside our website to the interests of users. By disabling these cookies our content will no longer be directly shared in any social network. These cookies require your consent.

Analytics Cookies
Name	Supplier	Propósito/Purpose (EN)	Propósito/Purpose /PT)	Validade/Expiration
_ga	Google	Registers a unique ID that is used to generate statistical data on how the visitor uses the website.	Usado para distinguir usuários. São utilizados de forma anónima para efeitos de criação e análise de estatísticas relacionadas com a utilização dos websites ou aplicações, no sentido de melhorar o funcionamento dos mesmos	2 anos
_ga_#	Google	Used by Google Analytics to collect data on the number of timesa user has visited the website as well as dates for the first and most recent visit.	Usado pelo Google Analytics para lembrar o número de vezes que um utilizador visitou o website bem como as datas da primeira visita e da visita mais recente	2 anos
_gat	Google	Used by Google Analytics to throttle request rate	Usado pelo Google Analytics para limitar a taxa de solicitações.	1 dia
_gid	Google	Registers a unique ID that is used to generate statistical data on how the visitor uses the website.	Usado para distinguir usuários. São utilizados de forma anónima para efeitos de criação e análise de estatísticas relacionadas com a utilização dos websites ou aplicações, no sentido de melhorar o funcionamento dos mesmos	1 dia
Targeting Cookies
Name	Supplier	Propósito/Purpose (EN)	Propósito/Purpose /PT)	Validade
fr	Facebook	The cookie is set by Facebook to show relevant advertisments to the users and measure and improve the advertisements. The cookie also tracks the behavior of the user across the web on sites that have Facebook pixel or Facebook social plugin.	Usado pelo Facebook para fornecer uma série de produtos de publicidade, como lances em tempo real. o cookie "fr" é utilizado para mostrar, medir e melhorar a relevância dos anúncios.	3 meses
_fbp	Facebook	This cookie is set by Facebook to deliver advertisement when they are on Facebook or a digital platform powered by Facebook advertising after visiting this website.	O cookie "_fbp" identifica os browsers com a finalidade de fornecer serviços de análise de sites e anúncios	3 meses
tr	Facebook	U sed by Facebook to deliver a series of advertisement products such as real time bidd ing from third party advertisers.	Utilizada para ver quantas pessoas realizam ações nos seus anúncios e quais os anúncios do Facebook que levaram a uma conversão.	Sessão
UserMatchHistory	Linkedin	LinkedIn Ads ID syncing . Used to track visitors on multiple web sites, in o rder to present relevant advertisement based on the visitor's preferences.	Usado para rastrear visitantes em múltiplos websites de forma a apresentar publicidade relevante baseada nas preferências dos visitantes ao site. Análises do LinkedIn Ads, LinkedIn Insights e Ads Tags	29 dias
IDE	Google doubleclick.net	Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.	Usado pelo Google DoubleClick para registrar as ações do utilizador no site depois de exibir ou clicar em uma publicidade, com o objetivo de medir a eficácia de um anúncio e apresentar anúncios direcionados ao utilizador.	1 ano
NID	Google	Registers a unique ID that identifies a returning user's device. The ID is used for targeted ads.	Registers a unique ID th at identifies a returning user's d evice. The ID is used for targeted ads. A maioria dos utilizadores Google terá um cookie de preferências chamado "NID" em seus navegadores. Um navegador envia este cookie com solicitações para os sites Google. O cookie NID contém um ID exclusivo que o Google utiliza para guardar as suas preferências e outras informações, como idioma preferido (por exemplo, inglês), quantos resultados de pesquisa deseja exibir por página (por exemplo, 10 ou 20) e se deseja ativar o filtro SafeSearch do Google.	6 meses
test_cookie	Google doubleclick.net	Used to check if the browser supports cookies	Usado para testar se o browser do utilizador suporta cookies	1 dia

Leave a Reply