SQL Server
Blog. (Apuntes y Recopilaciones) por Norman M. Pardell

« Blog

« Distintas herramientas BI. Business Inte...

12 de Enero, 2013 · Big-Data-Hadoop-Apache-Microsoft

Big Data. Hadoop, Apache. SQL Server 2012. BI…

Big Data, no significa tener una base de datos enorme, tampoco tiene por que ser un Datawarehost enorme,… Independientemente de cuantos datos se tenga, Big Data es una solución para almacenar y procesar datos no estructurados con datos si estructuraos, independientemente que hablemos de escenarios transaccionales, tabulares, multidimensionales… y es independiente de que los datos no estructurados vengan de una red social, de un sensor, de un medidor, ficheros de log, lo que fuere…

Microsoft afronta este tipo de proyectos, dándonos la capacidad de hacer proyectos que mezclen ambos tipos de datos, evidentemente solo podría hablaros de datos no estructurados, pero, dado que aquí ninguno vamos a crear ninguna empresa o aplicación especifica solo para datos no estructurados, partiré de que nuestras aplicaciones a día de hoy ya existen y manejan datos estructurados y/o multidimensionales, y se les ha aparecido una nueva fuente que son los no estructurados. Microsoft utiliza Hadoop, de Apache Fundation, como pieza tecnológica para dar soporte a estos ámbitos. Pero Hadoop, no es Big Data, y como tal: Hadoop, nos va a dar almacenamiento y el framework de procesamiento paralelo y distribuido para afrontarlos como tal.

Dando una visión sobre los productos que tiene Microsoft, para dar soporte a un proyecto de Big Data, destacar la compilación “HD Inside” que se llama a lo que es Hadoop, tanto para el entorno Azure como para un entornos sobre Windows Server 2008 de toda la vida, donde se puede arrancar un entorno de Hadoop.

Es de las pocas veces que se ve, que se coge software del Apache Fundation, se compila para Windows (por parte de Microsoft), y se le da un soporte empresarial, como producto de Microsoft, (y de hecho se contribuye al proyecto, con contribuciones de Apache)… “prácticamente se ha decidido que será Hadoop lo que se va a usar… y será lo que terminará implantándose… ya ahora habrá que ver, si se usará la distribución para Microsoft sobre entorno Windows, o la de NO Microsoft para un entorno NO Windows”

Para la distribución de Microsoft sobre entorno Windows, se ha añadido soporte a Directorio Activo como parte de seguridad para un entorno empresarial, donde se desplegará la aplicación, y esta aplicación tendrá su ciclo de vida segurizándola como cualquier otra, para que no viva en un entorno separado, (El soporte lo dará el Directorio Activo). Permite programar no solamente desde Java, sino también desde .Net para lo que se ha dado soporte para C#. Y dado que se entienden los entornos de Big Data como una mezcla de datos estructurados y datos no estructurados, se han añadido los conectores directos y bidireccionales desde SQL Server 2012 (todas sus versiones) hacia lo que es el entorno de HD Inside (Hadoop), para que ambos entorno se comuniquen de forma transparente. Y de nombrar es también, que la distribución de Hadoop, se integra en Office y en Excel en particular, para que se pueda atacar a esta nueva fuente de datos desde nuestro Office, sin tener que desarrollar todo a medida.

Resumiendo lo que tenemos dentro de un entorno de Hadoop (Big Data).

“Hive” es el entorno SQL, es el Framework para atacar a un entorno multidimensional, que se apoye sobre un entorno no relacional, es decir, que desde nuestras herramientas tradicionales de BI, Excel… podamos atacar a los datos que tenemos almacenados en Hadoop, en nuestro HDFS como hacíamos anteriormente. Tenemos Sqoop para lo que es el acceso hacia los entornos transaccionales, lo que seria nuestro SQL Server. Y para los ámbitos que estemos accediendo o creando un proyecto que tenga que ver con una ETL tenemos Pig (Data Flow) que es el Framework especifico para este flujo de datos.

En la Arquitectura de Hadoop:

Tenemos HDFS para almacenar.

Map Reduce para programar los procesos, tareas y procesos Reduce.

Pig para la parte de Scripting, flujos ETLs.

Hive para hacer las Querys.

Metadata con la parte de HCatalog.

NoSQL con la parte de HBase.

Pegasus como entorno grafico, o Mahout para las maquinas de aprendizaje.

Como definición de los flujos de trabajos, y procesos Map Reduce, tenemos: Oozie.

Flume para el envío y optimizado, de lo que serian ficheros Log

Microsoft ha añadido: Active Directory, System Center, acceso vía SQOOP, y las herramientas de Business Intelligence.

Fuentes:

Microsoft, msdn, TechNet blog...

Apunte y recopilación por Norman M. Pardell

big-data-hadoop-apache-microsoft-sql

publicado por normanmpardell a las 21:50 · Sin comentarios · Recomendar

Comentarios (0) · Enviar comentario

Esta entrada no admite comentarios.

.Sobre mí

Norman M. Pardell

MCITP: Database Administrator & Database Developer, SQL Server 2008. MCC Award Certificate. Consultor Senior de bases de datos en Capgemini España, S.L. Asesoramiento en implementación, desarrollo y gestión de bases de datos en grandes compañías. Actualmente, asignado a proyecto en compañía líder en el sector energético global. Más de 10 años trabajando con SQL Server (y otros gestores de BBDD)

» Ver perfil

.Secciones

» Inicio

» Archivo histórico

» Contacto

.Enlaces

» Microsoft MSDN Foros

» Windows Server 2012

.Más leídos

» Asignar la cantidad correcta de Memoria para SQL Server

» Base de Datos Sospechosa (Suspect)

» Como modificar la Intercalación (Collation) en SQL Server

» Como renombrar una instancia de SQL Server. sp_dropserver. sp_addserver

» Detectar bloqueos. SQL Server V.2005 y superiores

» Funciones SQL Server. Funciones escalares y funciones con valores de tabla.

» Integridad y corrupción en las bases de datos: DBCC CHECKDB

» Log de transacciones ( .ldf ). SQL Server.

» Migrando SQL Server 2005, 2008, 2008 R2 a SQL Server 2012

» Transacciones activas. SQL server 2008

.Nube de tags [?]

claves-primaria-externas-indices-t-sql-server consejos-administrar-cientos-instancias-sql consulta cubos-olap-tempdb-planes-guiados detectar-bloqueos-sql-server discos-raid-sql indices-cláusulas-filtro-t-sql-server indices-columnas-t-sql-server indices-t-sql-server linq-sql-connection-pooling membership-login-asp-net miraciones-sql-server-migrar-actualizar-actualiza optimize order-by-distinct-indices-t-sql-server parametrizar-bbdd-sharepoint-sql permisos-icluster-sql-server-2008-so-ad query remote-server-linked-server-sql server sql sql-server-vmwaren-esxi-vcpus-hyperthreading subconsulta subquery tablas-pequeñas-indices-t-sql-server tde-cifrado-transparent-data-encryption transacciones-activas-opentran-sql transacciones-explícitas-implícitas-sql tunning unique-index-constraint-unique índices-selectivos-indices-t-sql-server

FULLServices Network | Crear blog | Privacidad