Rendimiento

Nov

2024

Impacto en el rendimiento de Query Store

Cuando hablamos de Query Store en SQL Server, lo hacemos refiriéndonos a una de las herramientas más útiles para controlar y mejorar el rendimiento de nuestras consultas. No es ningún secreto que es una herramienta que personalmente me encanta y, no es para menos, nos permite capturar el historial de ejecución, los planes utilizados y, lo más importante, las métricas asociadas. Sin embargo, el otro día, un seguidor me trasladó una inquietud en un comentario de YouTube y no es otra que si la activación de Query Store puede tener un impacto negativo en el rendimiento. Ciertamente, Query Store conlleva una carga adicional que, en ciertos entornos, debemos saber gestionar con cuidado.

En este artículo, vamos a profundizar en el impacto real que tiene el Query Store en términos de CPU, memoria y disco, y cómo podemos configurarlo para obtener el máximo beneficio sin comprometer el rendimiento de nuestros sistemas.

¿Qué hace Query Store y por qué es tan útil?

En resumidas cuentas, Query Store se encarga de registrar el historial de todas las consultas que se ejecutan en nuestra base de datos, junto con los planes de ejecución y sus métricas de rendimiento. Es como tener un «registro médico» de nuestras consultas, donde podemos ver qué ha ido mal (o bien) y cuándo. Esto nos permite identificar rápidamente problemas de rendimiento y aplicar soluciones, como forzar el uso de un plan de ejecución específico. Es decir, cuando una consulta empieza a tardar más de lo habitual, Query Store nos permite ver qué ha cambiado, ya sea el plan de ejecución o las estadísticas.

Antes de seguir, si quieres saber más sobre el funcionamiento de Query Store, te recomiendo leer el artículo que le dedicamos.

¿Cuánto impacto tiene realmente Query Store en el rendimiento?

Aunque tener todo ese control suena genial, también hay que ser conscientes de que capturar tanta información tiene un coste. Y eso es justo lo que venimos a analizar hoy. Veamos cómo afecta a los distintos recursos del sistema.

Consumo de CPU y memoria

Lo primero que debemos tener claro es que Query Store no afecta a la ejecución directa de las consultas, ya que guarda la información de manera asíncrona. Pero eso no significa que no utilice recursos. El impacto más notable en CPU y memoria ocurre cuando se agregan los datos de las consultas para almacenarlos. Dependiendo de la cantidad de consultas y el tipo de carga (ad-hoc o batch, por ejemplo), este proceso puede requerir más recursos.

Por lo general, el impacto en CPU suele ser pequeño, pero no inexistente. El procesamiento de los datos para agregarlos y almacenarlos puede generar una pequeña sobrecarga, especialmente si el servidor ya está bajo presión por una alta carga de trabajo.

Hablando sobre la memoria RAM, Query Store usa su propia caché en memoria para almacenar temporalmente los datos antes de volcar (flush) al disco. En entornos con mucha actividad, puede necesitar más memoria de lo esperado si los intervalos de flush son largos o si el servidor está cerca de su límite de uso de memoria.

Espacio en disco

Aquí es donde más suele preocuparnos el impacto de Query Store. Todos los datos capturados tienen que almacenarse en disco, y si no tenemos cuidado, la cantidad de espacio utilizado puede crecer rápidamente. En Azure SQL Database, por ejemplo, el tamaño máximo que podemos asignar a Query Store es de 10 GB. En SQL Server on-premise, no hay un límite y, aunque el espacio propuesto por defecto es de 1 Gb podemos configurar manualmente el espacio que necesitemos y podamos asumir.

Si trabajamos en un entorno de producción con una base de datos que recibe muchas consultas por segundo, podríamos empezar a ver cómo el espacio en disco se reduce rápidamente si no gestionamos bien la configuración. En muchos casos, el crecimiento de los datos es gradual, pero en sistemas con grandes volúmenes de consultas, los datos pueden acumularse más rápido de lo esperado.

¿Cómo minimizar el impacto de Query Store?

Como hemos visto, es cierto que Query Store añade cierta carga al sistema, sin embargo, hay varias formas de mitigar su impacto y asegurarnos de que siga siendo beneficioso sin comprometer el rendimiento. Aquí os dejo algunas estrategias prácticas.

Ajustar el intervalo de flush

El flush es el proceso por el cual los datos que Query Store guarda en memoria en un primer momento se escriben en disco para persistirse. De manera predeterminada, este proceso ocurre cada 15 minutos, pero puedes ajustar este intervalo para reducir la carga en momentos críticos. Si trabajas con una base de datos muy activa, podrías reducir el intervalo para evitar que se acumule demasiada información en memoria y así dispersar la carga de escritura.

Una buena práctica es empezar con el valor por defecto y observar el comportamiento del servidor. Si notas que el servidor tiene picos de uso de disco en momentos específicos, reducir el intervalo de flush puede ayudar a que la escritura de datos sea más constante y menos impactante. Como ves, esta configuración afecta tanto a la cantidad de RAM que demanda Query Store como al consumo de CPU necesario para mover los datos de la memoria al disco.

Limitar el uso de espacio en disco

No todas las consultas tienen que ser almacenadas indefinidamente. SQL Server te permite configurar límites de espacio para Query Store y también establecer políticas de retención que eliminen los datos antiguos. Esto es especialmente útil para evitar que la información histórica crezca sin control.

Recomendación: Establece un límite de espacio en disco que sea acorde al tamaño y volumen de consultas de tu base de datos. Por ejemplo, para bases de datos medianas, un límite de 500 MB podría ser suficiente. En bases de datos más grandes, este valor puede aumentar, pero es esencial realizar una monitorización constante.

Configurar la retención de datos

Muy ligado al punto anterior. No tiene sentido almacenar datos de consultas por años si solo los vamos a analizar durante las últimas semanas. Configura un período de retención que se ajuste a tus necesidades de análisis. En la mayoría de los casos, mantener entre 30 y 60 días de historial es suficiente para identificar patrones y resolver problemas de rendimiento.

Usar el modo CUSTOM de captura

De forma predeterminada Query Store está configurado con un modo de captura automático que no captura todas las consultas sino solo aquellas que el motor de base de datos considera relevantes para el rendimiento. Esto, se puede cambiar para capturar todas las consultas lo que claramente incrementará el consumo de recursos.

Sin embargo, con SQL Server 2019, se introdujo un modo CUSTOM que nos permite capturar solo aquellas consultas que nos interesan, según criterios específicos que podemos definir. Esto es extremadamente útil en entornos donde se ejecutan miles de consultas ad-hoc o de bajo valor, que realmente no necesitamos monitorizar en detalle. Al usar este modo, reducimos el volumen de datos capturados, lo que disminuye la carga en disco y memoria.

Monitorizar el impacto de Query Store

Como siempre, es clave monitorizar cualquier herramienta que utilicemos en nuestros servidores. SQL Server Management Studio (SSMS) nos ofrece varias vistas que nos permiten ver el impacto que Query Store tiene en términos de uso de CPU, memoria y disco. Estas vistas nos ayudarán a realizar ajustes si detectamos que la carga es mayor de lo esperado. Otra opción sería usar el monitor de recursos de windows y comparar el consumo con la herramienta activada y sin ella

Conclusión

Habilitar Query Store puede ser un gran aliado para mejorar el rendimiento de nuestras bases de datos, pero requiere un enfoque cuidadoso para no generar sobrecarga en el servidor. Al ajustar el intervalo de flush, limitar el uso de espacio en disco, y capturar solo los datos necesarios, podemos beneficiarnos de su potencial sin afectar negativamente el rendimiento general.

La clave está en configurar y ajustar Query Store según las necesidades específicas de nuestro entorno. En la mayoría de los casos, unos pequeños ajustes pueden marcar una gran diferencia en términos de rendimiento y eficiencia. Como siempre, no olvides monitorizar y realizar pruebas periódicas para asegurarte de que todo funcione de manera óptima.

Nov

2024

Gestión de tablas temporales en SQL Server

El uso de tablas temporales en SQL Server es común para el almacenamiento de datos temporales durante el procesamiento de consultas. Aunque su uso es sencillo, la eliminación de estas tablas debe gestionarse adecuadamente. Seguro que estás acostumbrado a ver algo parecido a esto “DROP TABLE #TEMPTABLE;” al final de las consultas que usan tablas temporales. Yo también, sin embargo, el otro día encontré un artículo que lo desaconsejaba.
El resumen es simple, con decenas de sesiones creando y eliminando tablas temporales en bucle, al final nos encontramos con tiempos de espera de PAGELATHes pero si no borramos las tablas y cerramos la sesión esto no pasa. El artículo en cuestión no solo captó mi curiosidad, David, un seguidor del blog, también lo vio y me lo mandó para que opinase al respecto. Yo me debo a vosotros así que aquí van mis pruebas. En este artículo, veremos como no siempre es la mejor idea y cómo puede llegar a generar problemas de contención en tempdb.

Introducción a las tablas temporales

Las tablas temporales, identificadas con el prefijo # (locales) o ## (globales), son útiles para almacenar datos que solo necesitamos de manera transitoria. Son empleadas comúnmente en escenarios como el almacenamiento de resultados intermedios, la manipulación de datos en procesos ETL, o la mejora del rendimiento de consultas mediante la reducción del número de accesos a disco.

Estas tablas residen en la base de datos tempdb, lo que las convierte en una solución conveniente para manipular grandes volúmenes de datos sin afectar el esquema de las tablas principales. Sin embargo, tempdb es un recurso compartido, lo que significa que un uso incorrecto de las tablas temporales puede afectar el rendimiento global del servidor SQL.

Impacto de la eliminación de tablas temporales en tempdb

Eliminar tablas temporales manualmente usando DROP TABLE puede parecer una buena práctica para liberar recursos, pero en ciertos contextos, como sistemas de alta concurrencia, esto puede exacerbar los problemas de contención en tempdb. Cada vez que una tabla temporal se crea o elimina, tempdb necesita actualizar sus páginas de asignación, lo que incrementa la posibilidad de bloqueos de tipo PAGELATCH.

El uso del DROP TABLE, por tanto, desencadena este problema y si abusamos de ello, podemos llegar a notarlo.Por el contrario si dejamos que las tablas temporales se eliminen solas al cerrar la sesión esto no pasa. La clave está en cómo se elimina la tabla mediante DROP TABLE y en alguna optimización (no documentada, por supuesto) que tiene SQL Server para liberar las tablas temporales al cerrar la sesión. En teoría, cada operación que implique la creación, modificación o eliminación de tablas temporales añade carga a las páginas de asignación, lo que puede desencadenar los problemas de contención pero, lo cierto es que esto no pasa si cerramos la sesión y dejamos que las tablas temporales se eliminen solas.

Probando el problema de las tablas temporales

Como sé que es lo que la mayoría estáis esperando, no me voy a enrollar más, aquí va mi prueba. Lo primero que debéis saber es que estas pruebas las he realizado en mi máquina de pruebas más potente (16 procesadores lógicos a 3,8GHz y 32Gb de RAM), con un SQL Server 2022 completamente actualizado y la tempDB en un disco SSD.

Para la prueba he usado la herramienta Ostress de la suite RML Utilities de Microsoft. Esta herramienta está desarrollada para hacer pruebas de estrés contra servidores SQL y, si os parece, otro día hablaremos de ella.

Primera prueba: Borrar las tablas temporales

Para esta primera prueba he creado este procedimiento almacenado que veis a continuación. Simplemente crea una tabla temporal, inserta un valor y borra la tabla temporal.

CREATE PROC [dbo].[DropTempTable]
AS
BEGIN
CREATE TABLE #TempTable (ID INT null)
INSERT INTO #TempTable values(1)
DROP TABLE #TempTable 
END

A continuación, haciendo uso de Ostress he ejecutado el procedimiento 1000 veces en 50 sesiones paralelas. Es decir, he abierto 50 conexiones a la vez a la base de datos y en cada una de ellas he ejecutado 20 veces el procedimiento.

El resultado, como podéis ver a continuación han sido los comentados tiempos de espera de PAGELATACH

Siguientes pruebas

Bien, lo comentado por Haripriya Naidu en su artículo parece que es cierto pero, ¿será cierto que si no borramos la tabla temporal los problemas desaparecen?

Para esta segunda prueba simplemente he creado un procedimiento almacenado como el anterior pero sin la parte del borrado de la tabla temporal. Lo he llamado NoDropTempTable y de la misma manera que antes lo he ejecutado con Ostress y, ¿sabéis qué? No ha ocurrido nada. Cero contención. Ni un solo problema. He repetido la prueba con 1000 ejecuciones pero esta vez en 100 sesiones simultáneas y nada, mismo resultado, todo bien. Va a resultar que es cierto, alguna optimización tiene el motor de base de datos que no genera estos tiempos de espera.

En este punto, tenía que probar otra cosa, pero para ello, antes tenemos que comprender por qué nos hemos encontrado con este problema. Vamos a ello y luego os sigo contando.

¿Qué es PAGELATCH y cómo afecta a tempdb?

Un PAGELATCH es una forma de sincronización de acceso en memoria que SQL utiliza para garantizar la coherencia cuando múltiples procesos intentan acceder a las mismas páginas de datos. En el contexto de tempdb, estos bloqueos ocurren cuando múltiples sesiones intentan crear, modificar o eliminar tablas temporales simultáneamente, ya que todas residen en tempdb, un recurso compartido entre todas las sesiones.

En concreto, el problema que acabamos de ver surge porque muchas sesiones intentan acceder a las mismas páginas de administración en tempdb, en particular las páginas PFS (Page Free Space), GAM (Global Allocation Map) y SGAM (Shared Global Allocation Map), que gestionan la asignación de espacio en disco. Esto provoca contención de recursos y puede causar que las operaciones que dependen de estas páginas se ralenticen significativamente.

La última prueba, borrar temporales pero en memoria

Ahora que ya sabemos que los PAGELATCH que estabamos viendo son causados por el acceso a las páginas donde se almacenan los metadatos de las tablas, ¿que pasará si habilitamos la opción de Memory-Optimized TempDB Metadata que vimos en el pasado artículo? Pues bien, según mis pruebas con esta característica que se lleva a memoria las páginas de metadatos de TempDB el problema desaparece. La velocidad de la memoria es capaz de asumir las operaciones de lectura y escritura sin generar contención.

Estrategias para mitigar los problemas de contención en tempdb

Para reducir el riesgo de bloqueos PAGELATCH en tempdb, especialmente cuando trabajamos con tablas temporales en entornos altamente concurrentes, podemos implementar las siguientes estrategias:

Habilitar Memory-Optimized TempDB Metadata como acabamos de ver. El problema es que esto, en entornos cloud de Azure no es compatible, como vimos ayer.
Aumentar el número de archivos de tempdb: Una de las estrategias más efectivas es aumentar el número de archivos de datos de tempdb para distribuir la carga entre varias páginas de asignación. Se recomienda tener al menos un archivo de datos por cada núcleo lógico, hasta un máximo de ocho archivos, para aliviar la contención en las páginas PFS. Aunque en mi caso con esos 8 archivos no ha sido suficiente, lo cierto es que la prueba con 50 sesiones simultaneas sobre TempDB es un poco exagerada.
Optimizar el uso de tablas temporales: Limitar el uso de tablas temporales a los casos en los que sean estrictamente necesarias. Cuando sea posible, se deben utilizar alternativas como variables de tabla, que no generan la misma carga sobre tempdb.
Reutilización de tablas temporales: En lugar de crear y eliminar tablas temporales repetidamente en la misma sesión, es recomendable reutilizarlas dentro de la misma transacción o procedimiento almacenado, reduciendo así el número de operaciones de creación y eliminación en tempdb.

Otras ventajas de no borrar las tablas temporales

Además de todo lo que hemos visto hasta ahora, existe otra ventaja de la que no hemos hablado para no borrar las tablas temporales antes de tiempo. Cuando creamos y utilizamos tablas temporales en SQL Server, el optimizador de consultas puede reutilizarlas para generar y mantener planes de ejecución eficientes. Estos planes son cruciales, ya que permiten al servidor recordar la mejor manera de ejecutar consultas similares en el futuro, reduciendo la sobrecarga computacional.

Si eliminamos manualmente las tablas temporales mediante DROP TABLE y luego las recreamos, el optimizador pierde la capacidad de aprovechar estos planes previamente generados. Esto significa que, en consultas repetitivas, SQL Server tendría que volver a calcular el plan de ejecución desde cero, lo que incrementa el tiempo de procesamiento y reduce el rendimiento global. En casos donde las mismas tablas temporales son necesarias en múltiples ocasiones dentro de la transacción, dejar que SQL Server gestione automáticamente su ciclo de vida puede mejorar significativamente la eficiencia, ya que el sistema tiene más oportunidades de reutilizar los planes de ejecución optimizados y reducir la carga sobre tempdb.

Conclusión

El uso de tablas temporales en SQL Server puede ser una herramienta extremadamente útil, pero en entornos de alta concurrencia puede generar problemas de rendimiento si no se gestiona adecuadamente. El riesgo principal no reside en el DROP TABLE manual en sí, sino en la concurrencia y la carga sobre tempdb, pero evitando el borrado evitaremos el problema. Otras estrategias para mitigar los bloqueos PAGELATCH incluyen aumentar el número de archivos de tempdb, limitar el uso excesivo de tablas temporales y aprovechar las mejoras de las versiones más recientes de SQL Server. Con estas precauciones, podemos garantizar un uso más eficiente de las tablas temporales, evitando bloqueos y manteniendo un rendimiento óptimo del sistema.

Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

Nov

2024

Optimizando TempDB: Metadata Optimizada en Memoria

Desde SQL Server 2019, Microsoft ha introducido varias mejoras en el manejo de la base de datos TempDB, una de las más destacadas es la funcionalidad Memory-Optimized TempDB Metadata. Esta característica está diseñada para reducir significativamente los cuellos de botella causados por la contención (bloqueos) en tablas internas de metadatos en entornos de alta concurrencia. En este artículo, quiero detallaros cómo funciona esta funcionalidad, sus beneficios, limitaciones y cómo implementarla en un entorno de producción.

Introducción a Memory-Optimized TempDB Metadata

TempDB es una base de datos que juega un papel crucial en el manejo de objetos temporales y tablas intermedias en SQL Server. Cuando trabajamos en entornos con múltiples usuarios concurrentes, la gestión de los metadatos de TempDB (estructuras como tablas temporales, índices y otros objetos transitorios) puede generar una gran contención y afectar negativamente el rendimiento.

Con la funcionalidad de Memory-Optimized TempDB Metadata, introducida en SQL Server 2019, las tablas del sistema que almacenan esta metadata se transforman en tablas en memoria no durables. Esto reduce significativamente la latencia, ya que elimina la necesidad de acceder a disco para gestionar estos objetos, un proceso que antes provocaba bloqueos en entornos altamente concurridos.

Ventajas de Memory-Optimized TempDB Metadata

Como acabamos de ver, uno de los principales problemas con TempDB en entornos de alta concurrencia es la contención en las estructuras de metadatos. Al mover estos datos a tablas en memoria, SQL Server minimiza los tiempos de espera provocados por bloqueos y esperas de recursos (latches), lo que permite a más transacciones concurrentes acceder y modificar objetos temporales de manera más eficiente

Además, al eliminar las operaciones de E/S de disco en los metadatos de TempDB, se mejora el rendimiento en las consultas que dependen de tablas temporales, como las utilizadas en procesos ETL, análisis de datos y operaciones transaccionales intensivas. Las tablas en memoria, al ser no durables, proporcionan tiempos de respuesta más rápidos y un mayor rendimiento en general.

Gracias a estas mejoras, SQL Server 2019 y versiones posteriores pueden escalar mucho mejor en términos de transacciones concurrentes. Básicamente, la reducción en la contención permite que el sistema gestione un mayor volumen de transacciones sin experimentar una degradación del rendimiento.

Disponibilidad y Soporte en Plataformas

La funcionalidad de Memory-Optimized TempDB Metadata está disponible desde SQL Server 2019. Sin embargo, algo incomprensible, no está implementada en entornos como Azure SQL Database o Azure SQL Managed Instance, lo que podría ser un inconveniente para aquellos que utilizan estas plataformas. Sin embargo, para aumentar aún más mi incomprensión, las instancias SQL Server RDS de AWS (Amazon) sí soportan esta funcionalidad, lo que supone una ventaja para los usuarios de AWS sobre los de Azure al poder implementar esta mejora en sus entornos administrados.

Limitaciones de Memory-Optimized TempDB Metadata

A pesar de las claras ventajas, es importante tener en cuenta algunas limitaciones al considerar habilitar esta funcionalidad. Si bien las tablas en memoria optimizadas para metadatos son una excelente mejora, cuando está habilitada esta funcionalidad no es posible crear índices columnstore en tablas temporales, lo que puede afectar a algunos escenarios de análisis de datos.

Siguiendo con los índices columnares, esto no es solo un problema a la hora de crear tablas temporales. El procedimiento sp_estimate_data_compression_savings no se va a poder ejecutar en tablas que utilicen índices columnstore cuando la metadata optimizada está habilitada. Esto puede limitar aún más el uso de esta funcionalidad en procesos que requieren estimar ganancias de compresión.

Otro de sus problemas y uno de los principales es que cuando se utilizan tablas en memoria optimizadas en una transacción, esas transacciones que acceden a estas tablas temporales no pueden acceder simultáneamente a otras bases de datos. Esto puede complicar ciertos patrones de uso donde se necesite trabajar con múltiples bases de datos en una sola transacción.

Para finalizar este apartado, un último problema (aunque para mi menor) es que para habilitar esta funcionalidad, es necesario reiniciar el servicio de SQL Server. Esto implica que su implementación debe planificarse durante una ventana de mantenimiento para evitar interrupciones en el servicio pero es una actuación que haremos una vez solamente.

Cómo Habilitar Memory-Optimized TempDB Metadata

Para habilitar esta funcionalidad vamos a seguir un proceso relativamente sencillo. Existen dos formas principales de habilitarla, mediante T-SQL o mediante sp_configure.

Mediante T-SQL:

ALTER SERVER CONFIGURATION SET MEMORY_OPTIMIZED TEMPDB_METADATA = ON;

Mediante sp_configure:

EXEC sys.sp_configure N'show advanced options', 1;
RECONFIGURE WITH OVERRIDE;
EXEC sys.sp_configure N'tempdb metadata memory-optimized', 1;
RECONFIGURE WITH OVERRIDE;

Después de ejecutar estos comandos, es necesario reiniciar el servicio de SQL Server para que los cambios surtan efecto

Casos de Uso Comunes

Una vez que hemos visto que sus limitaciones no nos afectan (o que podemos salvar esas limitaciones) y habiendo habilitado la característica, Memory-Optimized TempDB Metadata es particularmente beneficiosa en los siguientes escenarios:

Sistemas OLTP (transaccionales) de Alta Concurrencia: En estos entornos, la contención en TempDB puede ser un cuello de botella significativo. Al habilitar esta funcionalidad, se mejora la capacidad del sistema para manejar miles de transacciones concurrentes que dependen de tablas temporales.
Procesos ETL y Consultas Analíticas: Las consultas que dependen de grandes conjuntos de datos temporales pueden beneficiarse enormemente al eliminar la latencia asociada con la gestión de objetos temporales en disco.
Cargas de Trabajo Intensivas en TempDB: En sistemas donde TempDB juega un papel crucial para la creación de objetos temporales o transacciones de corta duración, esta funcionalidad puede marcar una diferencia significativa en el rendimiento.

Conclusión

La funcionalidad Memory-Optimized TempDB Metadata es una mejora poderosa para SQL Server 2019, diseñada para solucionar problemas de contención y mejorar el rendimiento en entornos con alta concurrencia. Si bien no está libre de limitaciones, su capacidad para reducir la contención y mejorar el rendimiento la convierte en una opción atractiva para entornos que dependen intensamente de TempDB. Con el tiempo, es probable que Microsoft siga refinando esta característica, ampliando su soporte y optimización para más escenarios.

Oct

2024

¿Es la nube una solución competitiva?

Para hacer una solución SaaS (Software as a Service) e IaaS (Infrastructure as a Service) basada en Azure SQL y SQL Server realmente competitiva a nivel empresarial, debemos ser críticos y realistas. Aunque la nube ha sido abrazada por la mayoría de las empresas, siguen existiendo debates sobre los costes, el rendimiento y si realmente es la mejor opción en todos los casos. La cuestión de si las soluciones en la nube son superiores a las on-premise sigue siendo un tema caliente, y en este artículo vamos a tratar de abordar esta comparativa con argumentos sólidos, analizando tanto las ventajas como las desventajas de cada enfoque.

¿Es la nube realmente más barata que on-premise?

Uno de los argumentos más comunes a favor de las soluciones en la nube, como Azure SQL Database y SQL Server en IaaS (Azure VM), es que son más baratas que las soluciones on-premise. Pero, ¿es esto siempre cierto? La respuesta corta es: depende. La realidad es que en muchos casos, las empresas descubren que los costes a largo plazo de la nube pueden exceder a los de las soluciones tradicionales on-premise, especialmente si no se gestionan adecuadamente. De hecho, he visto cómo algunas empresas han comenzado a reconsiderar su migración a la nube debido a las crecientes facturas de servicios como Azure.

Comparativa de costes: Nube vs. On-Premise

Azure ofrece una estructura de precios que parece atractiva a primera vista, con pagos por uso (pay-as-you-go) que prometen flexibilidad y ahorro. Sin embargo, en la práctica, la realidad de los costes en la nube es muy diferente. Cuando migras a la nube, hay varios factores que rápidamente pueden inflar la factura:

Costes ocultos

Aunque Azure permite escalar hacia arriba y hacia abajo según la demanda, las empresas a menudo subestiman las horas que sus máquinas virtuales (VMs) y bases de datos están en funcionamiento. Servicios como Azure SQL Database, Managed Instance y SQL Server en máquinas virtuales (IaaS) pueden escalar en función de la demanda, pero esto puede resultar en facturas inesperadas si no se implementan estrategias adecuadas de monitoreo y escalado automático. Además, para aprovechar estas ventajas, normalmente no basta con subir el código ya desarrollado (lift and shift) sino que hay que hacer adaptaciones para sacar partido a las ventajas de este nuevo paradigma.

Licenciamiento

Mientras que SQL Server on-premise requiere un pago inicial considerable por licencias, las soluciones en la nube suelen requerir un pago constante y por suscripción. Azure Hybrid Benefit promete ayudar a reducir estos costes reutilizando licencias de SQL Server existentes, pero la realidad es que muchas empresas no pueden aprovechar este beneficio de manera efectiva, o descubren que las economías de escala no son tan favorables como se prometía. Por otro lado, estamos asistiendo lentamente a la adopción del modelo de suscripción en SQL Server on-premise como el modelo de facturación Software Assurance que, a costa de un pago anual, nos proporciona características extra a nuestra licencia.

Costes de salida de datos

Un aspecto frecuentemente pasado por alto es el coste de descarga de datos desde la nube. En algunas plataformas en la nube, los costes de mover datos fuera de la nube, ya sea para hacer backups, migraciones o simplemente para integraciones con sistemas locales, pueden ser significativos. Este es un coste que las soluciones on-premise no tienen.

Rendimiento La batalla entre la nube y on-premise

Ahora bien, el tema del rendimiento es otro punto de fricción importante entre las soluciones en la nube y las soluciones tradicionales. Aquí, la historia no siempre favorece a la nube. Aunque Azure SQL Database y las soluciones SQL Server en IaaS prometen escalabilidad casi infinita, la realidad es que on-premise sigue ofreciendo mejor rendimiento en ciertas cargas de trabajo intensivas.

Escalabilidad y latencia

La capacidad de escalar automáticamente en Azure es una ventaja indiscutible cuando hablamos de escenarios variables, como el comercio electrónico o los servicios de streaming, donde las cargas fluctúan enormemente. Sin embargo, este beneficio tiene un precio en términos de latencia y rendimiento constante. En entornos on-premise, con infraestructura dedicada, la latencia y el rendimiento son más predecibles. Las aplicaciones que requieren baja latencia y un rendimiento constante, como las transacciones financieras o sistemas de bases de datos de alta concurrencia, pueden seguir funcionando mejor en infraestructura on-premise.

Por ejemplo, en una base de datos SQL Server alojada en Azure Virtual Machines, aunque puedas optar por discos premium y múltiples núcleos de CPU, la realidad es que la latencia de red entre las capas de aplicación y base de datos sigue siendo un factor limitante. Incluso con las opciones de red más optimizadas en Azure, una base de datos en un entorno on-premise configurada correctamente sigue siendo significativamente más rápida.

La trampa de la escalabilidad «ilimitada»

Uno de los mayores argumentos de venta de Azure es la escalabilidad ilimitada. Pero aquí es donde surge un gran problema: la escalabilidad tiene límites prácticos en cuanto a la optimización de la infraestructura y el coste que estás dispuesto a asumir. A medida que tu base de datos crece y requieres más recursos, los costes también se disparan, y en algunos casos, escalar en on-premise puede ser una mejor solución a largo plazo. Si tu carga de trabajo es predecible y estable, invertir en un sistema robusto on-premise puede ser significativamente más rentable que pagar por la escalabilidad en la nube de manera indefinida.

Además, muchos desconocen que algunas de las estrategias de escalado más avanzadas, como el uso de Elastic Pools en Azure SQL o la implementación de sharded databases, requieren una cantidad considerable de desarrollo adicional para optimizar. Esto significa que la promesa de una escalabilidad sencilla y sin fricciones en Azure no siempre se cumple sin costes adicionales de desarrollo y mantenimiento. Volvemos a lo que comentábamos antes, subir a la nube implica adaptaciones en el código y, muchas veces, solo nos será rentable para nuevos desarrollos.

Seguridad: ¿Es la nube realmente más segura?

Otro mito popular es que la nube es intrínsecamente más segura que las soluciones on-premise. Si bien Azure ofrece una gama de herramientas de seguridad impresionantes como Azure Security Center, en muchos casos, la seguridad en la nube depende de cómo la configures. Por ejemplo, la gestión de claves de cifrado, la configuración de firewalls y la implementación de políticas de acceso son tareas que, si no se configuran correctamente, pueden dejar a una empresa vulnerable a ataques o fugas de datos. Es tan compleja esta gestión que, en los últimos años, estamos viendo como crece la demanda de arquitectos cloud en las empresas.

Además, las empresas con grandes cantidades de datos sensibles o que operan en sectores altamente regulados, como el financiero o sanitario, a menudo prefieren seguir manteniendo sus datos on-premise por un mejor control sobre el acceso físico y la localización de los datos. De hecho, muchas empresas todavía desconfían de la nube para manejar datos confidenciales, y optan por mantener una infraestructura híbrida u on-premise para cumplir con las normativas locales de protección de datos.

Por último, a esto habría que añadir las limitaciones en cuanto a cumplimiento normativo. En determinados sectores regulados alojar datos fuera de la infraestructura de la empresa o no está permitido o requiere de una carga burocrática elevada. Y aún siendo posible, hay que extremar las precauciones y elegir bien las zonas geográficas donde se van a alojar los datos para no incurrir en problemas legales.

¿Hacia dónde vamos?

Para mi está claro, el futuro es híbrido. A pesar de las ventajas que ofrece la nube, está claro que no es la panacea para todas las situaciones. Es aquí donde el modelo híbrido se convierte en una solución inteligente para muchas empresas. El uso de bases de datos SQL Server en Azure, combinado con una infraestructura on-premise bien gestionada, permite aprovechar lo mejor de ambos mundos. Puedes tener la flexibilidad de la nube para cargas de trabajo variables, al mismo tiempo que mantienes un rendimiento consistente y control total sobre los datos más sensibles en entornos locales.

El debate no se trata de «nube vs. on-premise», sino de cuándo y cómo aprovechar cada tecnología de manera efectiva. Por ejemplo, Azure Arc permite extender las capacidades de administración de Azure a entornos on-premise y otros entornos en la nube, facilitando una verdadera experiencia híbrida. Esto permite a las empresas beneficiarse de las herramientas de administración avanzada de Azure, mientras siguen utilizando su infraestructura local para cargas críticas.

Conclusión

La nube tiene ventajas indiscutibles en términos de flexibilidad, facilidad de escalado y disponibilidad global, pero eso no significa que sea la mejor opción para todas las empresas o todas las cargas de trabajo. Los costes y el rendimiento de las soluciones en la nube no siempre superan a las soluciones on-premise, especialmente cuando hablamos de cargas de trabajo predecibles o sensibles a la latencia. Como profesionales de bases de datos, debemos ser críticos y cuidadosos al considerar qué opción es la mejor para nuestros clientes o nuestras empresas.

La clave está en evaluar las necesidades específicas y no dejarse llevar por el bombo publicitario de la nube ni por la comodidad que nos dan años de experiencia on-premise. La mejor solución sigue siendo aquella que esté alineada con los objetivos de negocio, y esto podría implicar el uso de la nube, de soluciones on-premise, o de un enfoque híbrido.

Oct

2024

Tablas Expandidas en Power BI

Como muchos de los que me leéis ya sabéis, dentro de una semana arrancan los Power BI Days de Santiago de Compostela. Un evento espectacular que lleva el conocimiento en Power BI y Fabric de manera altruista por toda la geografía española. Y, ya con la vista puesta en el evento que, por supuesto, no me voy a perder, estaba pensando en la anterior edición. En ella, pude asistir, entre otras, a una magistral charla de Ricardo Rincón y Miguel Egea sobre las tablas expandidas en Power BI. Y, pensando en esto, me he acordado de que yo no os he hablado a vosotros de este concepto.

El concepto de tablas expandidas en Power BI es fundamental para entender cómo funcionan cosas tan básicas como las relaciones entre tablas y la propagación de filtros. Las tablas expandidas permiten que Power BI maneje automáticamente la interacción entre múltiples tablas relacionadas, facilitando la creación de informes y cálculos avanzados sin necesidad de escribir complejas consultas. En este artículo, vamos a intentar ver en detalle qué son las tablas expandidas, cómo funcionan y cómo pueden aprovecharse para optimizar modelos de datos en Power BI.

¿Qué son las tablas expandidas?

Las tablas expandidas en Power BI son una representación lógica que se crea a partir de las relaciones establecidas entre las tablas de un modelo de datos. Cuando las tablas están relacionadas a través de relaciones de muchos a uno o uno a uno, Power BI trata esas tablas como si fueran una sola entidad expandida. Esto permite que los filtros y los cálculos se propaguen automáticamente a través de esas tablas relacionadas, sin necesidad de que el usuario intervenga directamente en la relación, es decir, sin tener que hacer un join como hacemos en SQL.

Imaginad un modelo de datos simple donde tenemos una tabla de Ventas, una tabla de Productos y una tabla de Categorías. La relación entre estas tablas nos permite que, al aplicar un filtro a la tabla de Categorías, los datos correspondientes en las tablas de Productos y Ventas se actualicen automáticamente, gracias al uso de las tablas expandidas.

Este comportamiento es clave para simplificar el análisis de datos en Power BI, ya que elimina la necesidad de realizar operaciones manuales para combinar datos de diferentes tablas. Las tablas expandidas también permiten que los cálculos en DAX (Data Analysis Expressions) se apliquen de manera automática a través de múltiples tablas relacionadas.

¿Cómo funcionan las tablas expandidas?

El funcionamiento de las tablas expandidas depende de las relaciones que existen en el modelo de datos. En Power BI, las relaciones de uno a muchos y uno a uno son las que permiten la propagación de filtros. Esto es importante pues como ves no estoy incluyendo aquí las relaciones muchos a muchos. Cuando se crea una relación de muchos a uno entre dos tablas, Power BI automáticamente añade (de manera lógica) todos los campos de la tabla del lado del 1 en la del lado del mucho de manera que internamente trabaja como una sola tabla expandida. Sin embargo, cuando las relaciones son 1:1 todos los campos de las tablas se propaga a la otra, y viceversa.

Por ejemplo, si tenemos una tabla de Productos y una tabla de Ventas, con una relación entre ambas basada en el ID del Producto, cualquier filtro que apliquemos en la tabla de Productos se reflejará automáticamente en los datos de la tabla de Ventas. Esto es posible gracias a las tablas expandidas, que permiten que Power BI combine virtualmente las dos tablas en una sola.

Este comportamiento no solo se aplica a la visualización de datos, sino también a los cálculos realizados con DAX. Al usar medidas que involucran tablas relacionadas, Power BI toma en cuenta automáticamente las tablas expandidas, lo que facilita la creación de cálculos complejos sin necesidad de realizar combinaciones manuales de datos.

Propagación de filtros y relaciones

Una de las principales ventajas de las tablas expandidas es su capacidad para manejar automáticamente la propagación de filtros entre tablas. Cuando aplicamos un filtro en una tabla que está relacionada con otras, Power BI propaga el filtro a través de las relaciones, afectando las tablas relacionadas sin que sea necesario especificarlo explícitamente en el código.

Por ejemplo, en un modelo de datos con las tablas Ventas, Productos y Categorías, si aplicamos un filtro en la tabla Categorías (como seleccionar solo productos de la categoría «Electrónica»), Power BI propagará automáticamente ese filtro a las tablas Productos y Ventas. Esto significa que cualquier visualización o cálculo basado en las tablas Productos o Ventas reflejará solo los datos relacionados con la categoría «Electrónica», sin necesidad de que el usuario especifique esa relación en cada consulta.

Como ves, esto simplifica enormemente la creación de informes y análisis, ya que los usuarios no necesitan preocuparse por cómo se combinan los datos de diferentes tablas, Power BI lo maneja automáticamente a través de las tablas expandidas.

Uso de DAX y las tablas expandidas

El lenguaje DAX en Power BI aprovecha al máximo el concepto de tablas expandidas para realizar cálculos avanzados. Al crear medidas en DAX, Power BI utiliza automáticamente las tablas expandidas para propagar los cálculos a través de las tablas relacionadas. Esto permite simplificar los cálculos, ya que no es necesario especificar las combinaciones manuales entre tablas.

Veamos un ejemplo práctico utilizando DAX. Imaginemos que queremos calcular el total de ventas por categoría de producto, usando las tablas Ventas, Productos y Categorías mencionadas anteriormente. Gracias a las tablas expandidas, podemos escribir una medida que se aplique automáticamente a todas las tablas relacionadas.

Ejemplos prácticos de tablas expandidas en Power BI

Para comprender mejor cómo las tablas expandidas simplifican el análisis en Power BI, os he preparado varios ejemplos prácticos.

Estructura de las tablas

Tabla Ventas:

ID Venta	ID Producto	Cantidad	Precio Total
1	P001	10	100
2	P002	5	50
3	P003	8	80

Tabla Productos:

ID Producto	Nombre Producto	ID Categoría
P001	Televisor	C001
P002	Lavadora	C002
P003	Microondas	C001

Tabla Categorías:

ID Categoría	Nombre Categoría
C001	Electrónica
C002	Electrodomésticos

Ejemplo 1: Total de ventas por categoría

En este ejemplo, queremos calcular el total de ventas por categoría. Gracias a las tablas expandidas, podemos hacerlo sin tener que realizar combinaciones explícitas entre las tablas Ventas y Categorías.

Medida DAX:

Total Ventas por Categoría =

SUMX(
    Productos, 
    CALCULATE(
        SUM(Ventas[Precio Total])
    )
)

Explicación:

La medida recorre la tabla de Productos y, para cada producto, calcula la suma del Precio Total de las ventas asociadas. Power BI expande automáticamente la tabla de Productos para incluir los datos de Ventas y Categorías, aplicando los filtros correspondientes.

Resultado esperado:

Nombre Categoría	Total Ventas
Electrónica	180
Electrodomésticos	50

Ejemplo 2: Filtrar por categoría

Queremos calcular las ventas totales solo para productos de la categoría «Electrónica». Nuevamente, Power BI manejará automáticamente la propagación del filtro a través de las tablas expandidas.

Medida DAX:

Total Ventas Electrónica =

CALCULATE(
    SUM(Ventas[Precio Total]),
    Categorías[Nombre Categoría] = "Electrónica"
)

Resultado esperado:

Total Ventas Electrónica
180

Ejemplo 3: Visualización con tablas expandidas

Podemos crear una visualización que muestre las ventas por producto y categoría. Gracias a las tablas expandidas, no necesitamos incluir manualmente todas las tablas en la visualización.

Visualización:

Utilizamos las columnas Nombre Categoría de Categorías, Nombre Producto de Productos y el Precio Total de Ventas.

Resultado esperado:

Nombre Categoría	Nombre Producto	Precio Total
Electrónica	Televisor	100
Electrónica	Microondas	80
Electrodomésticos	Lavadora	50

Implicaciones de rendimiento

Aunque las tablas expandidas simplifican el modelado de datos, es importante ser conscientes de su impacto en el rendimiento. A medida que creamos más relaciones y tablas expandidas, el modelo de datos puede volverse más complejo, lo que puede afectar al tiempo de respuesta en las consultas y visualizaciones.

Para mitigar este impacto, es recomendable optimizar las relaciones y el tamaño de las tablas. Evitar tablas innecesariamente grandes o relaciones que no sean estrictamente necesarias puede ayudar a mantener el rendimiento del modelo bajo control.

Conclusión

Las tablas expandidas son una herramienta poderosa en Power BI que permite simplificar el análisis de datos a través de la propagación automática de filtros y la integración de datos entre múltiples tablas relacionadas. Al utilizar tablas expandidas, los usuarios pueden crear modelos de datos más eficientes y realizar cálculos complejos con menor esfuerzo.

Sin embargo, si queremos ir más allá, es crucial que seamos conscientes de las implicaciones de rendimiento y que diseñemos modelos optimizados que aprovechen al máximo las capacidades de Power BI sin comprometer la eficiencia. Con el uso adecuado de las tablas expandidas, podemos crear modelos de datos robustos que permitan un análisis rápido y preciso.

Oct

2024

UPDATE STATISTICS vs sp_updatestats en SQL Server

Como vimos en el pasado artículo, cuando gestionamos bases de datos en SQL Server, uno de los aspectos más importantes es asegurarnos de que las estadísticas están actualizadas. Las estadísticas son fundamentales para que el optimizador de consultas del motor de SQL Server pueda tomar decisiones eficientes sobre cómo ejecutar las consultas. SQL Server nos proporciona varias formas de actualizar estas estadísticas, y dos de las más comunes son el comando UPDATE STATISTICS y el procedimiento almacenado sp_updatestats. En este artículo, vamos a analizar a fondo las diferencias entre ambos, cómo y cuándo utilizarlos, y qué impacto tienen en el rendimiento general de nuestras bases de datos.

Importancia de las estadísticas en SQL Server

Las estadísticas en SQL Server son colecciones de datos que describen la distribución de valores en una o más columnas de una tabla o índice. Estas estadísticas ayudan al optimizador de consultas a estimar la cantidad de filas que devolverá una consulta, lo que a su vez le permite seleccionar los planes de ejecución más eficientes.

Cuando las estadísticas están desactualizadas, el optimizador puede tomar decisiones incorrectas sobre los planes de ejecución, lo que provoca un rendimiento deficiente en las consultas. De ahí la importancia de mantenerlas actualizadas, especialmente en bases de datos con un alto volumen de inserciones, actualizaciones o eliminaciones de datos.

¿Qué es UPDATE STATISTICS?

El comando UPDATE STATISTICS es una instrucción explícita que actualiza las estadísticas para una tabla o índice en particular. Nos ofrece un control muy granular sobre qué estadísticas actualizar y cómo hacerlo. Podemos especificar un conjunto de opciones que nos permiten, por ejemplo, actualizar las estadísticas basadas en un muestreo de datos o una recolección completa de todos los datos.

Sintaxis básica de UPDATE STATISTICS

Para actualizar una estadística en concreto podemos usar el comando UPDATE STATISTICS con la siguiente sintaxis:

UPDATE STATISTICS [NombreTabla] [NombreEstadística]

Sin embargo, podemos necesitar actualizar todas las estadísticas de una tabla llamada en concreto, en ese caso escribiremos:

UPDATE STATISTICS [NombreTabla] ;

Y si queremos actualizar una estadística específica de un índice, podríamos usar el nombre del indice en vez de el nombre de la estadística:

UPDATE STATISTICS [NombreTabla]  [NombreIndice] ;

El comando UPDATE STATISTICS también nos permite utilizar varias opciones avanzadas como FULLSCAN, SAMPLE, y RESAMPLE, que determinan el método que SQL Server utiliza para actualizar las estadísticas.

FULLSCAN fuerza a SQL Server a leer todas las filas de la tabla para actualizar las estadísticas.
SAMPLE nos permite definir un porcentaje o número de filas de la tabla que se usarán para actualizar las estadísticas.
RESAMPLE reutiliza las configuraciones de muestreo anteriores para actualizar las estadísticas.

Casos de uso de UPDATE STATISTICS

El uso de UPDATE STATISTICS es apropiado cuando necesitamos un control fino sobre el proceso de actualización de estadísticas. Por ejemplo en bases de datos críticas. En entornos de producción donde el rendimiento es crucial, y necesitamos asegurarnos de que las estadísticas de ciertas tablas grandes o muy consultadas se actualizan con precisión. Otro caso de uso es con tablas con datos muy volátiles. Si tenemos tablas que cambian frecuentemente, como las que contienen datos transaccionales, las estadísticas pueden quedar obsoletas rápidamente. En estos casos, podemos forzar la actualización periódica de las estadísticas con UPDATE STATISTICS.

Limitaciones de UPDATE STATISTICS

La principal desventaja de UPDATE STATISTICS es que requiere que seleccionemos manualmente las tablas o índices que deben ser actualizados. Esto puede ser laborioso en bases de datos con muchas tablas y estadísticas. Además, si no seleccionamos las estadísticas adecuadas, podríamos pasar por alto aquellas que se han desactualizado, lo que afectaría el rendimiento.

¿Qué es sp_updatestats?

sp_updatestats es un procedimiento almacenado proporcionado por SQL Server que actualiza todas las estadísticas en la base de datos actual que hayan sido marcadas como obsoletas. Este procedimiento es mucho más conveniente cuando queremos actualizar las estadísticas de toda la base de datos de forma masiva y automática, sin tener que preocuparnos por cada tabla o índice en particular.

Cómo funciona sp_updatestats

Cuando ejecutamos sp_updatestats, SQL Server examina todas las tablas y determina qué estadísticas deben actualizarse en función de la propiedad modification_counter (contador de modificaciones). Solo las estadísticas que hayan sufrido cambios significativos (según los algoritmos internos de SQL Server) serán actualizadas, lo que optimiza el uso de los recursos del servidor. Para ejecutarlo simplemente usamos:

EXEC sp_updatestats;

Al hacerlo, SQL Server actualiza automáticamente las estadísticas necesarias sin necesidad de especificar tablas, índices o configuraciones adicionales.

Casos de uso de sp_updatestats

El uso de sp_updatestats es más apropiado cuando necesitamos realizar una actualización general de las estadísticas en toda la base de datos. Algunos ejemplos de uso incluyen el mantenimiento periódico o las bases de datos con poca actividad.

En bases de datos grandes, donde no queremos revisar manualmente todas las tablas o índices, podemos usar sp_updatestats como parte de nuestras tareas programadas de mantenimiento para asegurarnos de que las estadísticas estén razonablemente actualizadas. Por el contrario, si nuestras bases de datos no experimentan muchos cambios de datos, sp_updatestats puede sernos suficiente para mantener las estadísticas actualizadas sin un impacto significativo en el rendimiento.

Limitaciones de sp_updatestats

Aunque sp_updatestats es conveniente, no nos ofrece el mismo nivel de control que UPDATE STATISTICS. Al ser un procedimiento almacenado, SQL Server decide qué estadísticas actualizar basándose en su propio criterio, lo que puede no ser siempre ideal en situaciones donde necesitamos precisión y control. Además, puede no actualizar todas las estadísticas que en realidad lo necesitan si los cambios en los datos no alcanzan los umbrales establecidos por SQL Server.

Diferencias clave entre UPDATE STATISTICS y sp_updatestats

Como acabamos de ver, los métodos de actualización manual de estadísticas tienen sus diferencias, lo que hace que cada uno sea indicado para un caso concreto.

Mientras que UPDATE STATISTICS nos permite un control muy específico sobre qué estadísticas actualizar, sp_updatestats es una solución más generalizada.

Por otro lado, sp_updatestats es menos intensivo en términos de recursos, ya que solo actualiza las estadísticas que SQL Server considera desactualizadas, mientras que UPDATE STATISTICS puede ser más intensivo, especialmente si usamos opciones como FULLSCAN.

En cuanto a la sencillez, sp_updatestats es mucho más sencillo de utilizar en escenarios donde no necesitamos un control tan granular sobre las estadísticas. Sin embargo, si necesitamos actualizar solo ciertas tablas o índices críticos, UPDATE STATISTICS es la mejor opción.

Por último, sp_updatestats, gracias a sus características, es más adecuado para procesos automáticos de mantenimiento, mientras que UPDATE STATISTICS puede necesitar más intervención manual, dependiendo del caso de uso.

Cuándo utilizar cada uno

La elección entre UPDATE STATISTICS y sp_updatestats depende de las necesidades específicas de nuestro entorno de base de datos. Si estamos administrando una base de datos crítica con muchas consultas y necesitamos un rendimiento óptimo en tablas específicas, UPDATE STATISTICS con opciones avanzadas como FULLSCAN es la mejor opción. Esto garantiza que las estadísticas se actualicen con precisión y se basen en datos reales y completos pero tendrá un alto coste en recursos.

Por otro lado, si buscamos un enfoque menos manual y necesitamos actualizar las estadísticas de toda la base de datos sin dedicar demasiado tiempo a configurar el proceso, sp_updatestats es una opción rápida y eficaz, especialmente cuando se utiliza en combinación con tareas programadas de mantenimiento.

Conclusión

Mantener las estadísticas actualizadas en SQL Server es una parte fundamental del mantenimiento de la base de datos para asegurar el rendimiento óptimo de las consultas. Mientras que UPDATE STATISTICS nos da un control detallado sobre qué estadísticas actualizar y cómo hacerlo, sp_updatestats ofrece una solución más automatizada y general para mantener la base de datos en buen estado.

La clave está en conocer cuándo utilizar cada enfoque. Si gestionamos bases de datos con altos volúmenes de datos o con requisitos específicos de rendimiento, optar por UPDATE STATISTICS puede ser lo más adecuado. Sin embargo, en escenarios de mantenimiento general, sp_updatestats nos proporciona una forma conveniente y eficaz de mantener las estadísticas actualizadas sin esfuerzo manual adicional. Como siempre, es fundamental realizar pruebas y monitorear el impacto de estas operaciones en el rendimiento de nuestras consultas y en el uso de los recursos del sistema.

Oct

2024

Actualización de estadísticas en SQL Server

Las estadísticas en SQL Server son fundamentales para que el optimizador de consultas pueda generar planes de ejecución eficientes. Sin ellas, el rendimiento de las consultas se vería gravemente afectado, ya que el motor de base de datos se basa en estas estadísticas para estimar cuántas filas serán procesadas, seleccionar los índices correctos, y en general, tomar decisiones optimizadas. En este artículo, veremos los diferentes tipos de actualización de estadísticas en SQL Server: las actualizaciones automáticas, las automáticas asimétricas y las manuales.

¿Qué son las estadísticas en SQL Server?

Antes de entrar en los tipos de actualización de estadísticas, es importante tener claro qué son las estadísticas en SQL Server. Estas, son colecciones de metadatos que describen la distribución de los valores en una o más columnas de una tabla o índice. SQL Server crea y mantiene estas estadísticas para ayudar al optimizador de consultas a evaluar de manera precisa el costo de ejecutar una consulta.

Una estadística consta de un histograma, que es un resumen de los valores en la columna, junto con un conjunto de densidades que indican cuán distribuidos están esos valores. Esto le permite a SQL Server hacer predicciones precisas sobre las operaciones de búsqueda, escaneo y uniones entre tablas.

Actualización automática de estadísticas en SQL Server

SQL Server incluye una opción que permite que las estadísticas se actualicen automáticamente cuando el sistema detecta que han quedado desfasadas. Esta es la opción, configurable a nivel de base de datos, y se conoce como AUTO_UPDATE_STATISTICS y está activada por defecto.

¿Cuándo se actualizan automáticamente?

Las estadísticas se actualizan automáticamente cuando SQL Server detecta que ha habido un cambio significativo en la distribución de los datos en una tabla o índice. De manera general, SQL Server utiliza un umbral basado en el número de filas modificadas:

Si una tabla tiene menos de 500 filas, las estadísticas se actualizan después de que 500 modificaciones ocurran en la tabla.
Si una tabla tiene más de 500 filas, se actualizan cuando el número de filas modificadas supera el 20% de la tabla más 500 filas.

En versiones anteriores a SQL Server 2016, este umbral era distinto y podía ser bastante ineficiente, especialmente en tablas grandes, ya que requería una cantidad considerable de cambios en los datos para activar la actualización automática. Esto significaba que las estadísticas podían quedarse desactualizadas por un largo tiempo si los cambios en los datos eran graduales.

Beneficios de la actualización automática

El mayor beneficio de las estadísticas automáticas es que reduce la necesidad de intervención manual. El sistema se encarga de mantener las estadísticas al día, lo que es útil en entornos donde no se dispone de un DBA que monitorice constantemente las operaciones. Sin embargo, en ciertas situaciones, especialmente cuando el volúmen de datos empieza a crecer, este mecanismo puede no ser suficiente para garantizar el rendimiento óptimo, lo que nos obliga a añadir otros mecanismos de actualización adicionales.

Actualización automática asimétrica de estadísticas

SQL Server introdujo en versiones recientes una característica conocida como Asynchronous Statistics Update o AUTO_UPDATE_STATISTICS_ASYNC, que se traduce en actualizaciones automáticas de estadísticas en segundo plano. Esta característica permite que las estadísticas se actualicen de manera asíncrona, es decir, sin detener la ejecución de la consulta que disparó la necesidad de actualización.

¿Cómo funcionan las actualizaciones asimétricas?

Cuando el modo AUTO_UPDATE_STATISTICS_ASYNC está habilitado, SQL Server no espera a que las estadísticas se actualicen antes de ejecutar la consulta. En lugar de detenerse y esperar a que las estadísticas se regeneren, la consulta se ejecuta utilizando el plan basado en las estadísticas antiguas. Luego, en segundo plano, SQL Server actualiza las estadísticas para futuras consultas.

Este enfoque tiene varias ventajas, ya que evita que las consultas sufran retardos debido a la actualización de estadísticas en tablas grandes, lo que puede ser un proceso costoso y demorado. Sin embargo, estaremos ejecutando las consultas con un plan subóptimo que podría afectar gravemente al rendimiento.

Cuándo utilizar las actualizaciones asimétricas

Las actualizaciones asimétricas son especialmente útiles en escenarios donde se prioriza la latencia de las consultas sobre la exactitud inmediata de las estadísticas. Por ejemplo, en sistemas OLTP de alta concurrencia donde la velocidad de respuesta es crítica, habilitar las actualizaciones asimétricas puede mejorar la experiencia del usuario.

No obstante, hay que tener cuidado, ya que la primera consulta que se ejecute con estadísticas obsoletas podría tener un plan de ejecución subóptimo, lo que afectaría el rendimiento de esa consulta específica. Sin embargo, consultas posteriores, que se ejecuten una vez que esa actualización de estadística haya concluido, deberían beneficiarse de las estadísticas actualizadas.

Actualización manual de estadísticas

Por último, tenemos la opción de actualizar las estadísticas de manera manual. Esto se hace cuando el DBA o el equipo de desarrollo tenemos un control más preciso sobre cuándo y cómo deben actualizarse las estadísticas en el sistema. Las actualizaciones manuales se realizan mediante el comando UPDATE STATISTICS, o utilizando los procedimientos almacenados del sistema como sp_updatestats.

¿Cuándo realizar actualizaciones manuales?

Es recomendable hacer actualizaciones manuales en los siguientes escenarios:

Carga masiva de datos: Cuando se insertan, actualizan o eliminan grandes cantidades de datos en una tabla, es probable que las estadísticas se queden desactualizadas antes de que el umbral de actualización automática se alcance. En este caso, actualizar las estadísticas manualmente puede mejorar drásticamente el rendimiento de las consultas subsiguientes.
Procesos de ETL: En operaciones de ETL donde se transforman y mueven grandes volúmenes de datos, realizar una actualización manual de estadísticas al final del proceso puede ayudar a asegurar que las consultas que utilicen esos datos optimicen su ejecución.
Consultas de bajo rendimiento: Si observamos un descenso significativo en el rendimiento de ciertas consultas, puede ser útil actualizar manualmente las estadísticas para asegurarnos de que el optimizador de consultas tiene información precisa y actualizada sobre la distribución de los datos.

Estrategias de actualización manual

Existen diferentes estrategias para realizar actualizaciones manuales. Una opción es usar el comando UPDATE STATISTICS directamente sobre tablas específicas o sobre todas las tablas de una base de datos. Otra opción más eficiente es utilizar sp_updatestats, que actualiza las estadísticas de todas las tablas que hayan sufrido modificaciones, evitando el coste innecesario de actualizar estadísticas que no requieren actualización.

Además, SQL Server permite configurar el grado de muestreo en las estadísticas mediante el parámetro WITH FULLSCAN, que obliga a SQL Server a escanear todas las filas en lugar de hacer un muestreo. Esto es especialmente útil cuando queremos asegurar la mayor precisión posible, aunque puede ser más costoso en términos de tiempo.

Actualización de estadísticas como parte de un plan de mantenimiento

Aunque las actualizaciones automáticas funcionan bien en la mayoría de los casos sencillos, en cuanto la base de datos y los requerimientos crecen, puede ser recomendable que incluyamos la actualización de estadísticas como parte de nuestros planes de mantenimiento. Esta práctica asegura que las estadísticas estén siempre actualizadas de forma programada, evitando que se queden obsoletas y afecten el rendimiento del sistema.

Implementación de un plan de mantenimiento

El uso de planes de mantenimiento en SQL Server es una estrategia común para tareas recurrentes como la reconstrucción de índices, la limpieza de la base de datos y la actualización de estadísticas. Sin embargo, los planes de mantenimiento estándar de SQL Server a menudo carecen de la flexibilidad y optimización que muchos entornos requieren. Es aquí donde entran los scripts de mantenimiento de Ola Hallengren, ampliamente reconocidos en la comunidad SQL Server por su robustez y capacidad de personalización.

Ola Hallengren ofrece un conjunto de scripts que permiten configurar tareas de mantenimiento, incluida la actualización de estadísticas, de manera muy eficiente. Estos scripts ofrecen un control avanzado sobre cómo y cuándo se deben actualizar las estadísticas, permitiendo especificar opciones como:

Tablas específicas: Se pueden actualizar solo las estadísticas de las tablas que lo necesiten, en lugar de hacer un barrido completo de todas las tablas.
Opciones de muestreo: El script permite configurar el tipo de muestreo para las estadísticas, lo que ofrece un mayor control sobre el rendimiento y precisión de las actualizaciones.
Actualización condicional: El script de Ola Hallengren también permite que las estadísticas se actualicen solo cuando las tablas hayan alcanzado un cierto umbral de modificaciones, lo que evita actualizaciones innecesarias.

Si estás buscando una solución integral y flexible para el mantenimiento de estadísticas, puedes consultar los scripts de Ola Hallengren en su página oficial.

Configuración del script de Ola Hallengren para estadísticas

El script de mantenimiento de Ola Hallengren nos permite programar la actualización de estadísticas con una sintaxis sencilla y múltiples opciones. Un ejemplo básico de uso para actualizar estadísticas sería:

EXECUTE dbo.IndexOptimize
@Databases = 'MiBaseDeDatos',
@UpdateStatistics = 'ALL',
@OnlyModifiedStatistics = 'Y'

En este ejemplo, se actualizan todas las estadísticas de la base de datos especificada, pero solo aquellas que hayan sido modificadas. Esta opción es excelente para evitar el coste innecesario de actualizar estadísticas que no lo requieren.

Consideraciones y mejores prácticas

El uso adecuado de las actualizaciones automáticas, asimétricas, manuales y mediante planes de mantenimiento depende del contexto y la carga de trabajo del sistema. Algunas recomendaciones incluyen:

Mantener activadas las actualizaciones automáticas: En la mayoría de los casos, es recomendable dejar activada la opción AUTO_UPDATE_STATISTICS para que SQL Server mantenga las estadísticas actualizadas sin intervención manual. Esto cubre dignamente la mayoría de los escenarios diarios sin añadir carga administrativa adicional.
Utilizar actualizaciones asimétricas en entornos de alta concurrencia: Las actualizaciones asíncronas pueden mejorar el rendimiento en algunos sistemas OLTP donde la velocidad de respuesta es crucial, aunque deben usarse con precaución para evitar planes de ejecución subóptimos. Antes de activar esta opción te recomiendo probarla y ver si realmente es beneficiosa para ti..
Incluir las actualizaciones en planes de mantenimiento: Utilizar herramientas avanzadas como los scripts de Ola Hallengren para actualizar estadísticas de forma regular y controlada es una práctica recomendada en entornos críticos o con grandes volúmenes de datos. Esto nos asegura que las estadísticas estén siempre actualizadas, reduciendo el riesgo de que las consultas sufran debido a información desactualizada.

Conclusión

Las estadísticas en SQL Server son fundamentales para el rendimiento de las consultas, y mantenerlas actualizadas es clave para que el optimizador de consultas genere planes de ejecución eficientes. Ya sea que optemos por actualizaciones automáticas, asimétricas, manuales o basadas en un plan de mantenimiento, tener una estrategia clara es esencial para asegurar un rendimiento óptimo en la base de datos.

Si deseas más detalles sobre cómo implementar planes de mantenimiento efectivos o utilizar los scripts de Ola Hallengren para optimizar tus estadísticas, consulta nuestro artículo sobre planes de mantenimiento en SQL Server para obtener una visión completa de cómo automatizar y mejorar estas tareas rutinarias.

Rendimiento

Optimizando TempDB: Metadata Optimizada en Memoria

Introducción a Memory-Optimized TempDB Metadata

Ventajas de Memory-Optimized TempDB Metadata

Disponibilidad y Soporte en Plataformas

Limitaciones de Memory-Optimized TempDB Metadata

Cómo Habilitar Memory-Optimized TempDB Metadata

Casos de Uso Comunes

Conclusión

Tablas Expandidas en Power BI

¿Qué son las tablas expandidas?

¿Cómo funcionan las tablas expandidas?

Propagación de filtros y relaciones

Uso de DAX y las tablas expandidas

Ejemplos prácticos de tablas expandidas en Power BI

Estructura de las tablas

Ejemplo 1: Total de ventas por categoría

Ejemplo 2: Filtrar por categoría

Ejemplo 3: Visualización con tablas expandidas

Implicaciones de rendimiento

Conclusión

NO TE PIERDAS NADA

Colabora con nosotros

Entradas recientes

Etiquetas

Comentarios recientes