7 factores a considerar al elegir un almacén de datos en la nube – Negocios & Política
 

7 factores a considerar al elegir un almacén de datos en la nube

Negocios
Negocios

Por Shengyuan

Cloud Data Warehouse es una solución de almacenamiento de datos de nueva generación construida en la nube. La elección de un almacén de datos en la nube que satisfaga las necesidades de las empresas no es sencilla. Los problemas que se deben tener en cuenta son preocupaciones de muchos gerentes empresariales.

Este artículo presenta las bases para la selección del almacén de datos en la nube al consultar los informes de investigación de TDWI y Forrester, para ayudarlo a seleccionar el almacén de datos en la nube.

¿Qué es Cloud Data Warehouse?

La solución de almacenamiento de datos en la nube ha cambiado los métodos tradicionales de construcción de la plataforma de datos. Puede crear y comenzar a usar un servicio de almacenamiento de datos en unos pocos minutos sin la guía de los expertos técnicos de la plataforma.

Los analistas de datos empresariales y otro personal no técnico pueden acceder y procesar datos a gran escala para obtener rápidamente una visión empresarial. Las empresas pueden centrarse en los problemas comerciales a un costo menor sin preocuparse demasiado por las tecnologías de plataforma complicadas.

Además, los servicios modernos de almacenamiento de datos en la nube pueden cumplir con más requisitos de análisis. Es el caso de ETL para datos masivos, consultas interactivas, aprendizaje automático y procesamiento de datos no estructurados. Cada vez más empresas están considerando usar el almacén de datos en la nube para construir sus propias plataformas de análisis de datos.

Definición

Forrester, una institución autorizada de investigación de mercado, define un almacén de datos en la nube como un almacén de datos de autoservicio seguro y escalable que está disponible a pedido. La solución acelera el proceso de análisis de datos a través de la implementación, administración, optimización, respaldo y recuperación automatizados, y minimiza los requisitos de soporte técnico.

Por lo tanto, la forma de elegir un almacén adecuado y los factores clave que deben considerarse son preocupaciones de muchos tomadores de decisiones.

Le compartimos algunas de las mejores prácticas de uso del almacén de datos en la nube en combinación con el informe de investigación de TDWI.

1. Seleccione una plataforma de almacenamiento de datos adecuada para sus propósitos de análisis

En la práctica, los almacenes de datos tienen cada vez más funciones. Estas funciones incluyen informes fijos para gerentes, exploración interactiva y análisis para analistas y análisis predictivo para científicos de datos. Las diferentes aplicaciones tienen diferentes requisitos para el sistema en términos de métodos de acceso a datos, procesamiento de modelos informáticos y soporte de algoritmos.

Una estrategia efectiva es hacer que el almacén de datos sea un sistema completo y soportar continuamente cargas de trabajo mixtas, en lugar de satisfacer necesidades de servicio específicas.

Por ejemplo, para informes periódicos, los datos deben limpiarse y convertirse, los modelos de estrella / copo de nieve se utilizan para crear un conjunto de datos para las herramientas de informe. La consulta interactiva debe admitir el procesamiento paralelo de datos masivos para permitir la exploración de datos de baja latencia.

Análisis y resultados

El análisis predictivo debe admitir diferentes lenguajes de desarrollo y modelos de algoritmos; y ser capaz de hacer frente a la computación iterativa de datos masivos. Los almacenes de datos basados ??en la nube cumplen con estos requisitos.

Con la flexibilidad de los servicios proporcionados por la computación en la nube, los usuarios pueden enfocarse más en el análisis y los resultados, en lugar de construir sistemas. Además, los proyectos desplegados en la nube por lo general requieren flexibilidad y agilidad. Por ejemplo, el análisis de autoayuda en un corto período de tiempo; o incluso la creación de un sistema de análisis de prototipo para verificar rápidamente el concepto de servicio.

Para tales proyectos, implementar un almacén de datos basado en la nube puede proporcionar beneficios especiales, ya que no tiene que diseñar, desarrollar e implementar plataformas y marcos de administración de datos. Además, la solución puede reducir los costos de inicio, acelerar el análisis y reducir o incluso eliminar los costos de mantenimiento.

2. Use un modelo de costos para estimar los costos con precisión

Antes de que la inversión en el almacén de datos obtenga beneficios, debemos considerar los costos. Sin embargo, durante el ciclo de vida del sistema de almacenamiento de datos, la mayoría de los profesionales de la industria de los datos no conocen los componentes de sus costos totales, que pueden incluir:

Costos de adquisición: para la evaluación y compra de hardware, almacenamiento, software y dispositivos de comunicación de red;

Costo de implementación: para planificación de proyectos, administración de proyectos, diseño de sistemas, desarrollo, configuración, pruebas e implementación;

Desarrollo de datos y costos de administración: para el diseño y desarrollo de aplicaciones de integración y extracción de datos, y modelos de almacenamiento de datos;

Los costos de oportunidad comercial: para reducir el impacto de la demora en la liberación del sistema en los servicios

Costos de operación y mantenimiento: para el suministro de energía del centro de datos, la refrigeración, el espacio del centro de datos y el mantenimiento de la red del operador;

Y los costos regulares: para el mantenimiento de licencias de software, actualizaciones del sistema, archivo de datos, respaldo / recuperación de datos y planificación de desastres;

Diferentes organizaciones tienen diferentes tolerancias para diferentes tipos de costos. Para servicios maduros, las organizaciones pueden estar dispuestas a invertir en infraestructura y predecir que los beneficios son mayores que los costos de inicio.

Es posible que las empresas pequeñas o nuevas no tengan un presupuesto suficiente para los costos regulares y quieran obtener ganancias en un corto período de tiempo. En este caso, se necesita un modelo de costos para determinar cuándo es necesario y valioso utilizar el almacén de datos en la nube.

En algunos casos, una solución de almacenamiento de datos en la nube ágil puede acortar el tiempo de comercialización de sus servicios y generar ingresos de negocios antes. El aumento de los ingresos puede superar o compensar la inversión del sistema.

3. Simplifique el proceso de implementación de aplicaciones para acelerar la realización de valor

Los almacenes de datos basados ??en la nube simplifican enormemente la implementación. Primero, los proveedores de servicios han preparado la infraestructura y el software por adelantado. Así los usuarios no tengan que preocuparse por el complejo trabajo técnico subyacente.

En segundo lugar, los usuarios se beneficiarán de las herramientas de soporte proporcionadas por el proveedor de servicios para respaldar todo el proceso de procesamiento de datos, incluido el acceso a los datos, el análisis, la conversión, la carga, la generación de informes y la consulta. Estas herramientas y demostraciones pueden simplificar el desarrollo de datos.

En tercer lugar, los proveedores de almacenamiento de datos en la nube brindan servicios de valor agregado al integrar funciones avanzadas. Un ejemplo sería la administración de datos, herramientas de visualización y análisis predictivo.

Después de eliminar las tareas en el nivel de infraestructura subyacente, los usuarios pueden centrarse en el análisis de datos. Los procesos estándar de desarrollo e implementación de datos incluyen al menos las siguientes tareas:

Objetivos del servicio: aclarar los objetivos de análisis de datos de las empresas y proporcionar los conjuntos de datos a usuarios específicos;

Evaluación de requisitos de datos: determine los conjuntos de datos necesarios para acceder al almacén de datos;

Modelado de información: considere cómo organizar y expresar datos en el almacén de datos;

Integración de datos: los desarrolladores e implementadores integran los datos requeridos al almacén de datos;

Conversión de datos: use herramientas de preparación de datos (en la fase ETL) para procesar y convertir datos;

Análisis orientado al servicio: determine las tareas que se analizarán y entregue los resultados esperados según los requisitos del servicio;

Afortunadamente, los proveedores de servicios de almacenamiento de datos en la nube son compatibles con estos requisitos. Por ejemplo, proporcionan herramientas de integración de datos para el acceso a datos, usan herramientas ETL o el procesamiento y conversión de datos ETL en el almacén de datos; y usan herramientas de administración de planificación de trabajos para organizar y programar periódicamente la lógica de procesamiento de datos.

Por lo tanto, la implementación de proyectos de BI / Analytics basados ??en la nube utilizando procesos estándar mejora en gran medida la flexibilidad del procesamiento y la accesibilidad de los resultados del análisis.

4. Encuentre un sistema basado en la nube que integre funciones avanzadas de análisis

El análisis tradicional de inteligencia empresarial está maduro. Pero algunos proveedores de almacenamiento de datos en la nube están integrando rápidamente funciones de análisis avanzadas, que incluyen, entre otras:

Clustering, un método de agrupación (por ejemplo, agrupación de clientes) basado en características y comportamientos;

Subdivisión, un método para distinguir entidades (como proveedores) en función de los modelos de agrupación en cluster creados anteriormente;

Clasificación, que usa algoritmos iterativos para clasificar a un individuo en una categoría predefinida, como "Mejores clientes", "Buenos clientes", "Clientes medios" y "Clientes no deseados";

Árbol de decisión, un método para obtener la solución óptima mediante la comparación de diferentes soluciones en la decisión;

Análisis de asociación, que verifica de forma iterativa la relación entre eventos en un conjunto de datos para explorar posibles asociaciones;

En el pasado, era común necesitar una plataforma de análisis y computación avanzada separada para estas funciones. Sin embargo, ahora estas funciones son compatibles con el nuevo almacén de datos. Por ejemplo:

La nueva arquitectura admite la carga híbrida, admite tanto el análisis tradicional de informes y consultas, como el análisis avanzado;

La computación en memoria puede acelerar significativamente la computación iterativa tanto en el análisis tradicional de consultas como en el análisis avanzado;

Por lo tanto, debe encontrar un servicio de almacenamiento de datos en la nube que admita funciones de cómputo más ricas para satisfacer las necesidades actuales de análisis de datos. Además, los proveedores de servicios pueden innovar constantemente los diseños para satisfacer las necesidades de los diferentes usuarios.

5. Asegúrese de que la plataforma de nube cumpla con los requisitos de rendimiento de estabilidad y consistencia

Uno de los riesgos de alojar una aplicación es que el proveedor confía en implementar la aplicación en un entorno virtualizado. Esto puede reducir los costos operativos generales de los clientes. Sin embargo, las aplicaciones se pueden volver a implementar en diferentes infraestructuras en cualquier momento y pueden coexistir con otras aplicaciones. La ejecución de estas aplicaciones puede afectar el rendimiento.

Para la mayoría de las organizaciones, los usuarios de datos no pueden lograr un análisis y resultados rápidos, lo que afectará la amplia adopción de los servicios de datos y el éxito del proyecto.

Si su organización requiere un rendimiento predecible, especifique los requisitos de rendimiento y los niveles aceptables y evalúe los métodos del proveedor para garantizar o mejorar el rendimiento. Debes venir con las siguientes preguntas:

¿El proveedor del almacén de datos en la nube proporciona un índice de rendimiento que refleje con precisión cómo se ejecutan las aplicaciones?

¿Ofrece el proveedor opciones para implementar proyectos en la plataforma en la nube "básica" en lugar de la plataforma "virtualizada"?

¿La plataforma utiliza almacenamiento en columnas, compresión de datos y cómputo de memoria para acelerar la ejecución de consultas?

Confirme con el proveedor del servicio si se pueden cumplir sus requisitos de rendimiento.

6. Gestionar activamente el acceso e integración de dato

Si está considerando BI y análisis basados ??en la nube, asegúrese de poder mover fácilmente los datos para su análisis en el entorno de la nube. Tenga en cuenta la complejidad de la integración de varios tipos de fuentes de datos. Estos tipos incluyen datos de archivos planos, datos en bases de datos relacionales a las que se accede a través de SQL, datos administrados en el nuevo entorno NoSQL, datos geoespaciales y datos heterogéneos de múltiples fuentes, como archivos HDFS en Hadoo.

Para administrar activamente el acceso al origen de datos y la integración de datos, tenga en cuenta los siguientes factores:

Conectividad de red: considere la accesibilidad de la conexión de red entre cada fuente de datos que necesita y el almacén de datos en la nube.

Movimiento de datos: es un método alternativo cuando la capacidad del almacén de datos excede la capacidad de conexión de red estándar, lo que puede requerir conexiones más rápidas y un mayor ancho de banda.

Perfilado y análisis de datos: evalúe las posibles excepciones de las fuentes de datos, encuentre los metadatos y verifique la disponibilidad e integridad de los datos.

Estandarizar y convertir datos basados ??en reglas de servicio para la preparación de datos.

Los datos se recopilan a través de la replicación y la captura de datos de cambios en tiempo real (CDC) para reducir la sobrecarga en el almacén de datos.

El tiempo requerido para mover los datos desde el origen de datos al almacén de datos en la nube se reduce a través de la compresión de datos.

Ante el aumento de datos de diferentes fuentes, los usuarios necesitan soluciones de integración de datos más complejas y eficientes. Al seleccionar un almacén de datos en la nube, debe encontrar un servicio de integración de datos con verificación y descubrimiento de datos, compresión, transmisión, preparación de datos y carga de datos eficiente.

7. Cumplir con los requisitos de seguridad y protección de datos

Otro riesgo de utilizar almacenes de datos alojados o basados ??en la nube es la seguridad de los datos. Existen riesgos al garantizar la seguridad de acceso y la protección de datos por dos razones.

Primero, en algunos casos, la arquitectura de múltiples inquilinos permite que múltiples aplicaciones de clientes se ejecuten en el mismo entorno, lo que conlleva el riesgo de fuga de datos a través de los límites de las aplicaciones.

En segundo lugar, el almacenamiento en la plataforma virtual se puede distribuir entre varias máquinas físicas, lo que puede hacer que los usuarios se preocupen por si la aplicación puede capturar los datos restantes durante la migración.

Obviamente, su empresa debe evaluar las necesidades de seguridad y protección de privacidad de datos, y asegurarse de que los proveedores puedan satisfacer estas necesidades. Los proveedores de almacenamiento de datos basados ??en la nube pueden proporcionar los siguientes métodos:

Autentificación y autorización del usuario para evitar el acceso no autorizado a los datos.

Control de acceso de datos de grano fino para evitar la exposición de atributos de datos protegidos

Blindaje de datos para evitar la divulgación de atributos de datos protegidos

El cifrado de datos, que se puede aplicar a datos estáticos o almacenados, así como a datos dinámicos al acceder y transmitir datos a un portal de usuarios.

Borrado de datos, que sobrescribe completamente el disco duro para evitar la recuperación maliciosa

Las sugerencias enumeradas anteriormente lo ayudan a determinar si el almacén de datos en la nube es adecuado para su organización. Una vez que decida aplicar la nube para el almacén de datos y las aplicaciones de BI, asegúrese de seleccionar un proveedor de servicios adecuado.

En resumen

Algunos de los estándares descritos aquí para evaluar los servicios de almacenamiento de datos en la nube se centran principalmente en cómo los productos y servicios de almacenamiento de datos en la nube pueden ayudar a mejorar sus proyectos de BI y análisis, que incluyen:

Reducir el costo total de desarrollo y operación

Acelerar la realización de valor

Reducir la dependencia de los recursos internos de TI

Simplifique la recepción, integración y carga de datos.

Amplíe los grupos de usuarios de datos al mejorar la facilidad de uso.

Apoya tus necesidades elásticas y escalables

Habilitar la continuidad del servicio a través de la tolerancia a fallos y la conmutación por error alojada

Establecer confianza en la seguridad del sistema y la protección de la información privada.

Una vez que haya determinado el proveedor, le recomendamos que establezca una buena cooperación con el proveedor confiable de almacenamiento de datos en la nube. Esto es muy importante por tres razones:

Sostenibilidad ambiental: los socios de confianza garantizarán que el entorno cumpla con todos sus requisitos de análisis de servicio en todas las fases del ciclo de vida del almacén de datos y otros requisitos de elasticidad, escalabilidad, seguridad y rendimiento general en el ciclo de vida del proyecto.

Capacidad de respuesta: un proveedor de servicios valioso puede hacer que usted pueda confiar en ellos para resolver cualquier problema de manera oportuna y confiable.

Cooperación: encuentre un proveedor que pueda ayudarlo a construir rápidamente una plataforma de datos y cooperar con usted y sus consumidores de datos para mejorar aún más sus aplicaciones de BI / análisis.

Los proveedores de almacenes de datos en la nube pueden organizar su experiencia de implementación para alinearse con las estrategias a corto, mediano y largo plazo de los clientes.

Fuente: Alibaba

    Vínculo copiado al portapapeles.

    3/9

    Lorem ipsum dolor sit amet, consectetur adipisicing elit.

    Ant Sig