sábado, 24 de outubro de 2015

BIG DATA - ANALYTICS



Acima, um desenho exemplo de layout do projeto de uma rede de computadores do  tipo BIG DATA.  Esse desenho foi feito utilizando o software Trace-Route utilizado pela Cisco Networking Academy da Cisco Systems.   Esse desenho de layout foi feito por Bunyamin Önel shared this Cisco Packet Tracer scenario...   (If you have ‪#‎PacketTracer‬ scenarios to share, send them over to netacadfb@gmail.com   with some info and we will share them on this page) - Anastasia at ‪#‎Cisco‬ https://lnkd.in/dMJu7Yd


Abaixo, meu resumo do estudo de BIG DATA - ANALYTICS, retirando um grau de complicação técnica, para simplificar o meu entendimento desse assunto.
ANÁLISE DE DADOS (ESTATÍSTICA)
Os estudos estatísticos estão relacionados às situações que envolvem planejamentos, coleta de dados, organização de informações, análise das informações coletadas, interpretação e divulgação de forma clara e objetiva. Os métodos de pesquisa podem ser classificados de duas formas: pesquisas de opinião ou pesquisas de mercado. Nas pesquisas de opinião, o objetivo principal é colher informações sobre determinando assunto com base em entrevistas pessoais. As pesquisas de mercado são realizadas através da análise de mercado sobre determinado produto.
A coleta, a organização, a descrição dos dados, o cálculo e a interpretação de coeficientes pertencem à Estatística Descritiva, enquanto a análise e a interpretação dos dados, associados a uma margem de incerteza, ficam a cargo da Estatística Indutiva ou Inferencial, também chamada como a medida da incerteza ou métodos que se fundamentam na teoria da probabilidade.
A utilização de tabelas e gráficos são frequentes na Estatística. As tabelas servem para organizar e tabular os dados, já os gráficos transmitem as informações com clareza e transparência, contribuindo para uma leitura objetiva.
=============================================== 
ANÁLISE DE DADOS  (SISTEMA DE INFORMAÇÕES)
 ANÁLISE DE DADOS - O que é?
  • É o processo pelo qual se dá ordem, estrutura e significado aos dados (informações).
  • Consiste na transformação dos dados colectados em conclusões e/ou lições, úteis e verdadeiras.
  • A partir dos tópicos pré-estabelecidos processam-se os dados, procurando tendências, diferenças e variações nas informações obtidas.
  • Os processos, técnicas e ferramentas usadas são baseadas em certos pressupostos e como tal tem limitações.
  • O processo é utilizado para descrever e resumir os dados, identificar as relações e as diferenças existentes entre variáveis, comparar variáveis e fazer previsões.

ANÁLISE DE DADOS QUALITATIVO
  • Indaga o porque de determinado fato ou problema estar ocorrendo;
  • Estuda as motivações;
  • É indutivo;
  • Ajuda a definir hipóteses;
  • É exploratório;
  • Permite conhecer tendências, comportamentos, atitudes, etc;
  • Fornece informações detalhadas a tendências, atividades, etc;
  • Fornece informações detalhadas a perguntas ou problemas sobre um projeto ou atividade do mesmo;
  • Não permite inferir os resultados a toda uma população.
  • Descreve uma amostra populacional utilizando Tabelas de Frequências com sexo grupo etário e ocupação.
  • Organiza os comentários e as respostas em categorias similares (exemplo: preocupações, sugestões, pontos fortes, pontos fracos, etc)
  • Identificar os padrões, as tendências, as relações, bem como associações de causa-efeito.

FORMAS DE APRESENTAÇÃO DE DADOS QUALITATIVO:
  • Narrativas das respostas dos participantes
  • Diagramas de Causa-Efeito
  • Matrizes
  • Taxinomia
  • Diagrama de relações das várias categorias e o respectivo significado dado pelos participantes

TÓPICOS DO ROTEIRO E SEUS PRINCIPAIS OBJETIVOS QUALITATIVOS:
  • Identificar as características comuns ao grupo de trabalho, e as diferenças em relação aos outros grupos.
  • Inferir sobre os processos de socialização para o trabalho das cooperadas e se tais processos estariam associados, de algum modo, às formas como elas se percebem atualmente no trabalho.
  • Identificar as experiências comuns, a partir de sua inserção cooperativa, e seu impacto na vida pessoal, familiar e social

ANÁLISE DE DADOS QUANTITATIVO
  • Estuda as ações ou intervenções;
  • É dedutivo;
  • Fornece dados para provar hipóteses;
  • É conclusivo;
  • Mede o nível das intervenções, tendências, atividades, etc;
  • Produz informações quantificáveis sobre a magnitude de um problema, mas não fornece informações sobre o motivo do fato estar ocorrendo;
  • É possível inferir os resultados a toda uma população.
  • Utiliza-se os métodos estatísticos para representar os dados (informações)
  • Estatística descritiva envolve: coletar dados, apresentar dados e caracterizar dados, com a finalidade de descrever os dados.
  • Estatística inferencial envolve: estimativas e testes de hipóteses, com a finalidade de tomar decisões sobre as características de uma população a partir da amostra.

ETAPAS DA ANÁLISE DE DADOS QUANTITATIVOS
  • Organizar os dados, preocupando-se em dar uma ordem lógica aos dados, colocando todos os elementos da amostra e as variáveis em  estudo em uma tabela.
  • Agrupamento e resumo dos dados através de tabelas de frequências, exemplo: idade = (fi = ni / n)
  • Resumo das principais estatísticas (variável, média, mediana, moda, desvio padrão e variância)
  • Medidas de tendência central
  • Medidas de dispersão
  • Analisar e Interpretar os dados
  • Fazer o cruzamento de Tabelas (cross-tables)
  • Fazer uma análise de correlação

ANÁLISE E INTERPRETAÇÃO DOS DADOS QUANTITATIVOS
  • Geralmente, a análise e interpretação de dados envolve fazer comparações de grandezas estatísticas das varáveis de interesse.
  • As conclusões destas comparações baseiam-se na rejeição ou aceitação de hipóteses formuladas durante as questões avaliativas.
  • A aceitação ou rejeição de hipóteses baseia-se nos resultados obtidos nos chamados testes estatísticos.
  • Os testes mais usados são:  T-student , Chi-Quadrado e Anova
  • Baseline versus Resultados Alcançados: faz a  comparação da situação antes e após a implementação do programa.
  • Grupo Alvo versus Grupo de Controle: faz a comparação de atitudes ou práticas entre participantes e não participantes de um programa.
  • O grupo de tratamento – é um grupo de participantes de intervenção, cujas medidas de outcomes (resultado de equação lógica) são comparadas com às de um grupo de controle.
  • Controle grupo – é um grupo de "untreated" (não-tratados), cujos alvos são comparados com grupos experimentais nos outcomes.

FERRAMENTAS PARA ANÁLISE DE DADOS (sistema de informações)
  • Atualmente existe diversas empresas de tecnologia que fornecem softwares para tratamento e análise de dados.

==================================================== 
ANÁLISE DE DADOS = DATA SCIENCE
Exemplo de  Fórmula de Cálculo = Gregory Piatetsky-Shapiro (Analytics, Data Mining, Data Science Expert, KDnuggets President) em  Which Big Data, Data Mining, and Data Science Tools go together?  e o artigo de  Kirk Borne (Principal Data Scientist at Booz Allen Hamilton) em With Prescriptive Analytics, the future ain't what it used to be 
Recomendação de Bibliografia Data Science = Gregory Piatetsky-Shapiro (Analytics, Data Mining, Data Science Expert, KDnuggets President) em More Free Data Mining, Data Science Books and Resources
 The list below based on the list compiled by Pedro Martins, but we added the book authors and year, sorted alphabetically by title, fixed spelling, and removed the links that did not work.
  1. An Introduction to Data Science by Jeffrey Stanton, Robert De Graaf, 2013.
    An introductory level resource developed by Syracuse University
  2. An Introduction to Statistical Learning: with Applications in R by G. Casella, S, Fienberg, I Olkin, 2013.
    Overview of statistical learning based on large datasets of information. The exploratory techniques of the data are discussed using the R programming language.
  3. A Programmer’s Guide to Data Mining by Ron Zacharski, 2012.
    A guide through data mining concepts in a programming point of view. It provides several hands-on problems to practice and test the subjects taught on this online book.
  4. Bayesian Reasoning and Machine Learning by David Barber, 2012.
    focusing on applying it to machine learning algorithms and processes. It is a hands-on resource, great to absorb all the knowledge in the book.
  5. Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners by Jared Dean, 2014.
    On this resource the reality of big data is explored, and its benefits, from the marketing point of view. It also explains how to storage these kind of data and algorithms to process it, based on data mining and machine learning.
  6. Data Mining and Analysis: Fundamental Concepts and Algorithms by Mohammed J. Zaki, Wagner Meira, Jr., Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, May 2014.
    A great cover of the data mining exploratory algorithms and machine learning processes. These explanations are complemented by some statistical analysis.
  7. Data Mining and Business Analytics with R by Johannes Ledolter, 2013.
    Another R based book describing all processes and implementations to explore, transform and store information. It also focus on the concept of Business Analytics.
  8. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management by Michael J.A. Berry, Gordon S. Linoff, 2004.
    A data mining book oriented specifically to marketing and business management. With great case studies in order to understand how to apply these techniques on the real world.
  9. Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery by Graham Williams, 2011.
    The objective of this book is to provide you lots of information on data manipulation. It focus on the Rattle toolkit and the R language to demonstrate the implementation of these techniques.
  10. Gaussian Processes for Machine Learning by Carl Edward Rasmussen and Christopher K. I. Williams, 2006.
    This is a theoretical book approaching learning algorithms based on probabilistic Gaussian processes. It’s about supervised learning problems, describing models and solutions related to machine learning.
 Gregory Piatetsky-Shapiro (Analytics, Data Mining, Data Science Expert, KDnuggets President)
=======================================================
Very interesting compilation published here, with a strong machine learning flavor (maybe machine learning book authors - usually academics - are more prone to making their books available for free). Many are O'Reilly books freely available. Here we display those most relevant to data science. I haven't checked all the sources, but they seem legit. If you find some issue, let us know in the comment section below. Note that at DSC, we also have our free books:
 There are several sections in the listing in question:
  1. Data Science Overviews (4 books)
  2. Data Scientists Interviews (2 books)
  3. How To Build Data Science Teams (3 books)
  4. Data Analysis (1 book)
  5. Distributed Computing Tools (2 books)
  6. Data Mining and Machine Learning (29 books)
  7. Statistics and Statistical Learning (5 books)
  8. Data Visualization (2 books)
  9. Big Data (3 books)
Here we mention #1, #5 and #6:

Data Science Overviews

Distributed Computing Tools

Data Mining and Machine Learning

====================================================

The information management big data and analytics capabilities include :

  • Data Management & Warehouse: Gain industry-leading database performance across multiple workloads while lowering administration, storage, development and server costs; Realize extreme speed with capabilities optimized for analytics workloads such as deep analytics, and benefit from workload-optimized systems that can be up and running in hours.
  • Hadoop System: Bring the power of Apache Hadoop to the enterprise with application accelerators, analytics, visualization, development tools, performance and security features.
  • Stream Computing: Efficiently deliver real-time analytic processing on constantly changing data in motion and enable descriptive and predictive analytics to support real-time decisions. Capture and analyze all data, all the time, just in time. With stream computing, store less, analyze more and make better decisions faster.
  • Content Management: Enable comprehensive content lifecycle and document management with cost-effective control of existing and new types of content with scale, security and stability.
  • Information Integration & Governance: Build confidence in big data with the ability to integrate, understand, manage and govern data appropriately across its lifecycle.
====================================================

BIG DATA - DataBase Definição

BIG DATA - SQL (manutenção anual)

BIG DATA – Data Science


Por:  ANA MERCEDES GAUNA  (13/10/2015)

https://anagauna.wordpress.com  |   https://about.me/anagauna

Senior System Analist | Webmaster | DBA | CCNA2 | ERP | Management

Rio de Janeiro/RJ - Brazil - 27 anos de experiência profissional (CLT)

BIG DATA - SQL (manutenção anual)

sql manutenção


Em 2000, eu era DBA (administradora de banco de dados), usei um sistema ERP junto com Microsoft Windows NT4 Server + Microsoft  SQL 6.5 Server, e alguns anos depois passei a usar o Microsoft Windows 2000 Server + Microsoft SQL 2000 Server.  Nessa época,  meu  trabalho  semanal  era  fazer o  backup em fitas  DAT (HP), quando  era necessário, para reparar algum problema que tenha acontecido com dados, eu fazia o restauro dos dados.    ERP = Software de Departamento Pessoal (Recursos Humanos = Lei CLT) + Software de Contabilidade (Financeiro) + Software Imobiliário (Condomínio)

Lembrete:  Depois alguns anos usando um sistema ERP com banco de dados SQL, eu notei a que a execução dos dados dentro do sistema que utiliza o SQL,  ficou com a execução muito lenta, apresentando alguns erros de memória ou funcionando com muita inconsistência.  Se quando comprar a placa de memória nova, e isso não resolver, o problema é outro:  isso pode ser causado quando o índice (chave) do banco de dados SQL apresenta defeito.

Exemplos de Servidores de Banco de Dados: Microsoft SQL Server 2008 + Microsoft SQL Server 2012 + Microsoft SQL Server 2014 + Microsoft Azure SQL Database + Oracle SQL Server + Oracle MySQL Server + Oracle PL/SQL + Oracle NoSQL Database + PostgreeSQL, etc.

Recomendação a fazer anualmente:

Primeiro passo: para consertar os índices (chave) que provavelmente estão defeituosos, é preciso recriar e re-organizar a tabela SQL (Structured Query Language).  Deve-se fazer um REINDEX (recriar os índices).   (Fiz isso anos atras no Microsoft SQL 2000 Server e funcionou muito bem).  
Manual Online - Exemplos  de sintaxe:  http://www.postgresql.org/docs/8.1/static/sql-reindex.html , no Microsoft Developer Network em DBCC DBREINDEX (Transact-SQL), ou no Oracle em:  http://docs.oracle.com/cd/E22583_01/UI/help/Utils/RSTU/REINDEX.html.

Segundo passo:  deve-se olhar o  SQL Memory Size  = Maximum server memory (MB) |  Mem Usage (MB)  | Virtual Size (MB) para  reconfigurar o valor default relativo a quantidade de memória mínima e memória máxima, que o SQL irá lêr dentro da execução do sistema (software).  
Manual Online:  No Microsoft  Developer  Network em  Opções Server Memory de configuração do servidor , no Microsoft TechNet em  Enabling Memory Support for Over 4 GB of Physical Memory (fazer login com conta Hotmail ou Outlook), ou fazendo o login em Oracle Help Center (Database Administrator's Guide) em Using Automatic Memory Management (page 45 of 299).
======================================================

* 4 gigabyte =4294967296 bytes
* bit es la unidad menor de medida de la informacion, entonces
* 8 bit = 1 bytes

* 1 byte (b)= unidad minima funcional (1 Byte = una letra)

* 1 Kilobyte (Kb)= 1 024 bytes (1 kB)

* 1 Megabyte (Mb)= 1 024 Kilobytes= 1 048 576 bytes (1 MB)

* 1 Gigabyte (Gb)= 1 024 Megabytes= 1 048 576 Kilobytes= 1 073 741 824 bytes (1Gb)

* 1 Terabyte (Tb)= 1 024 Gigabytes= 1 048 576 Megabytes= 1 073 741 824 Kilobytes= 1 099 511 627 776 bytes (1Tb = 50.000 árboles de papel)

* 1 Petabyte (Pb)= 1 024 Terabytes= 1 048 576 Gigabytes= 1 073 741 824 Megabytes= 1 099 511 627 776 Kilobytes= 1 125 899 906 842 624 bytes

* 1 Exabyte (Eb)= 1 024 Petabytes= 1 048 576 Terabytes= 1 073 741 824 Gigabyte= 1 099 511 627 776 Megabyte= 1 125 899 906 842 624 Kilobytes= 1 152 921 504 606 846 976 bytes

* 1 Zettabyte (Zb)= 1 024 Exabytes= 1 048 576 Petabytes= 1 073 741 824 Terabytes= 1 099 511 627 776 Gigabytes= 1 125 899 906 842 624 Megabytes= 1 152 921 504 606 846 976 Kilobytes= 1 180 591 620 717 411 303 424 bytes

* 1 Yottabyte (Yb)= 1 024 Zettabytes= 1 048 576 Exabytes= 1 073 741 824 Petabytes= 1 099 511 627 776 Terabytes= 1 125 899 906 842 624 Gigabytes= 1 152 921 504 606 846 976 Megabytes= 1 180 591 620 717 411 303 424 kilobytes= 1 208 925 819 614 629 174 706 176 bytes

* 1 Brontobyte(Bb)= 1 024 Yottabytes= 1 048 576 Zettabytes= 1 073 741 824 Exabytes= 1 099 511 627 776 Petabytes= 1 125 899 906 842 624 Terabytes= 1 152 921 504 606 846 976 Gigabytes= 1 180 591 620 717 411 303 424 Megabytes= 1 208 925 819 614 629 174 706 176 Kilobytes= 1 237 940 039 285 380 274 899 124 224 bytes

* 1 Geopbyte (Geb)= 1 024 Brontobytes= 1 048 576 Yottabytes= 1 073 741 824 Zettabytes= 1 099 511 627 776 Exabytes= 1 125 899 906 842 624 Petabytes= 1 152 921 504 606 846 976 Terabytes= 1 180 591 620 717 411 303 424 Gigabytes= 1 208 925 819 614 629 174 706 176 Megabytes= 1 237 940 039 285 380 274 899 124 224 Kilobytes= 1 267 650 600 228 229 401 496 703 205 376 bytes
======================================================

Usar o REINDEX + revisar o SQL Memory Size, anos atrás, isso feito, resolveu os problemas que existiam no sistema (software).
Eu estou estudando atualmente o Microsoft Windows Server 2012 + Microsoft Windows SQL Server 2012 (comprei os livros).  Algumas vezes eu faço login e estudo o manual do SQL, dentro do site Microsoft Technet em SQL Server Language Reference   .  (fazer login com conta Hotmail ou Outlook)

Observações (HTML5):
Meses atrás, estudando programação web responsiva em Bootstrap, eu testei online dentro do meu site amgauna.eti.br  (atualmente ele está guardado dentro do Registro.BR),  e notei naquela época que o código utf-8, ele não reconhecia todos os acentos, e nem reconhecia o cedilha, utilizados no idioma português-brasileiro.  Como no Brasil utilizamos 0 BR no domínio, eu testei, e a acentuação brasileira funcionou.   http://www.w3schools.com/charsets/ref_html_utf8.asp

No Brasil, no HTML5, deve-se utilizar utf-8-br (português-brasileiro), minha opinião, testei, experimentando Bootstrap, e funcionou a acentuação. 

BIG DATA - DataBase Definição

BIG DATA - ANALITYCS

BIG DATA – Data Science


Por:  Ana Mercedes Gauna (09/10/2015)

https://anagauna.wordpress.com  |   https://about.me/anagauna

Senior System Analist | Webmaster | DBA | CCNA2 | ERP | Management

Rio de Janeiro/RJ - Brazil - 27 anos de experiência profissional (CLT)