Portada de EDB PostgreSQL AI Analytics Accelerator
Portada de EDB PostgreSQL AI Analytics Accelerator

EDB Postgres Analytics Accelerator: análisis avanzado en PostgreSQL sin mover los datos

EDB Postgres Analytics Accelerator (PGAA) es un componente clave dentro de la plataforma EDB Postgres AI, ya que permite convertir PostgreSQL en un motor capaz de manejar cargas analíticas modernas sin necesidad de mover los datos a un data warehouse externo. De este modo, PostgreSQL puede combinar el mundo operacional y el analítico dentro de un mismo ecosistema, con un enfoque más eficiente, escalable y alineado con las arquitecturas de datos actuales.

Qué es Analytics Accelerator (PGAA)

Para potenciar las capacidades de PostgreSQL y utilizarlas para mejorar nuestros sistemas con la IA, EDB ha implementado lo que denomina Postgres Analytics Accelerator (PGAA). Básicamente, PGAA permite realizar análisis a gran escala con rendimiento de motor columnar, manteniendo los datos operacionales y analíticos en un mismo ecosistema.

Los puntos clave sobre los que se apoya para conseguirlo son los siguientes:

  • Realiza el análisis cerca de los datos operativos, reduciendo el movimiento y la latencia de los datos.
  • Utiliza formatos abiertos y motores de consulta vectorizados para realizar análisis rápidos sobre los object store.
  • Soporta clasificación de datos (data tiering) para equilibrar el coste y el rendimiento.
  • Separa la computación del almacenamiento para permitir un escalado independiente.
  • Gestiona toda la pila de base de datos a través de Hybrid Manager.

Cómo integramos nuestros datos con la IA

Desde el punto de vista de EDB, para integrar toda la información y poder gestionar la IA, se apoya en varias tecnologías y soluciones principales. Una de las más relevantes es EDB Postgres Lakehouse.

EDB Postgres Lakehouse

Para almacenar la información, podemos apoyarnos en plataformas ya conocidas, como nuestras propias bases de datos PostgreSQL u otros sistemas como los data warehouse, que permiten acceder a datos de forma estructurada. Sin embargo, en las arquitecturas modernas estas plataformas se quedan cortas y aparece el enfoque lakehouse, que combina la flexibilidad de los data lakes con el rendimiento y la fiabilidad de los data warehouse.

Básicamente, el lakehouse brinda estas capacidades porque los datos, en cualquier formato, se almacenan en un almacenamiento externo (object store), pero utilizando formatos de tabla abiertos (open table) como Apache Iceberg, que agregan estructura, transacciones y metadatos.

Por tanto, esta arquitectura permite ejecutar análisis SQL complejos sobre grandes conjuntos de datos, incluso del orden de terabytes, almacenados en Amazon S3, Azure Blob Storage o Google Cloud Storage, sin tener que migrar los datos a costosas bases de datos analíticas. Esto resulta especialmente útil si pensamos en documentos PDF, imágenes y otros formatos.

Así, el nuevo enfoque de almacenamiento del lakehouse elimina la separación tradicional entre los data warehouse y los data lakes. En lugar de mantener datos duplicados en distintos sistemas, Analytics Accelerator (PGAA) consulta los datos directamente donde residen, utilizando formatos de tablas abiertos como Apache Iceberg y Delta Lake para ofrecer transacciones ACID, control de esquemas y capacidades de time travel sobre almacenamiento de objetos.

Ejemplo de uso sobre lakehouse

Un ejemplo típico sería el siguiente:

  • Configurar la ubicación de almacenamiento para los datos utilizando el lakehouse.
  • Crear una tabla externa sobre los datos, por ejemplo sobre Iceberg.
  • Consultar la información de forma transparente a través de distintos niveles de almacenamiento.
Arquitectura de lakehouse con PostgreSQL y almacenamiento de objetos

Unificación del entorno operacional y analítico

Si además queremos combinar de forma unificada nuestro entorno operacional con el analítico, un ejemplo sería el siguiente:

  • Crear una tabla activa en nuestra base de datos OLTP.
  • Crear una tabla externa con nuestros datos en el lakehouse.
  • Unificar los datos a través de una vista.

Como podemos comprobar, esta funcionalidad abre un sinfín de posibilidades analíticas sobre nuestros datos.

Integración entre base de datos OLTP y lakehouse analítico

Vectorized query optimization

Uno de los puntos principales en la mejora de estos sistemas es que se separa la computación del almacenamiento y se optimiza el acceso a la información. Para ello, Analytics Accelerator (PGAA) integra Apache DataFusion® en los nodos de lakehouse.

Esto permite:

  • Procesar datos como lotes en columnas.
  • Utilizar instrucciones SIMD (Single Instruction, Multiple Data) para acelerar el rendimiento, es decir, aprovechar la CPU para procesar muchos valores en paralelo con una sola instrucción.
  • Optimizar el análisis para datos en formato Parquet, característicos de las bases de datos columnares.

El papel de Hybrid Manager

Una vez se tiene la infraestructura montada, la integración de estos componentes puede realizarse de una manera sencilla a través de Hybrid Manager, que actúa como plano de control.

Desde Hybrid Manager es posible:

  • Aprovisionar y administrar clústeres de lakehouse.
  • Configurar y supervisar tablas escalonadas.
  • Administrar ubicaciones de almacenamiento, conexiones de catálogo y nodos de cómputo.

EDB Postgres Analytics Accelerator: preguntas frecuentes

¿Qué es EDB Postgres Analytics Accelerator?

Es un componente de EDB Postgres AI que permite ampliar PostgreSQL para trabajar con cargas analíticas modernas sin mover los datos a un data warehouse externo.

¿Qué aporta un enfoque lakehouse en PostgreSQL?

Permite consultar datos donde residen, combinando la flexibilidad de los data lakes con la fiabilidad y el rendimiento de los data warehouse mediante formatos de tabla abiertos como Apache Iceberg o Delta Lake.

¿Por qué es importante la optimización vectorizada de consultas?

Porque mejora el rendimiento analítico al procesar los datos por lotes y en columnas, aprovechando instrucciones SIMD y formatos como Parquet.

¿Se puede unificar el entorno OLTP con el entorno analítico?

Sí. PGAA permite combinar tablas activas en la base de datos operacional con tablas externas en el lakehouse y unificarlas a través de vistas.

¿Qué función cumple Hybrid Manager?

Actúa como plano de control para aprovisionar clústeres, supervisar tablas escalonadas y gestionar almacenamiento, catálogos y nodos de cómputo.

Optimice la estructura de su empresa con Hopla!

En Hopla ayudamos a organizaciones que trabajan con PostgreSQL a diseñar, desplegar y optimizar entornos de datos modernos, seguros y escalables. Para evaluar cómo integrar EDB Postgres AI y Postgres Analytics Accelerator en su arquitectura, contacte con nuestro equipo y le ayudaremos a identificar el mejor enfoque para su caso de uso.

Referencias

Share on:

Categories

Latest posts

Ilustración de cerebro digital para artículo sobre inteligencia artificial

La inteligencia artificial es una herramienta eficaz para convertir datos en decisiones y decisiones en resultados de negocio. En una [...]

ilustración de MongoDB replica set con TLS/SSL

La seguridad en MongoDB ha evolucionado de forma notable en los últimos años. Hoy en día, cualquier despliegue profesional —especialmente [...]

Actualización EDB Postgres AI con mano robótica y cubo

Introducción EnterpriseDB (EDB) ha actualizado recientemente su plataforma y ecosistema de productos que operan en torno a PostgreSql , para [...]

Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.