SQL Server

Collation en SQL

La collation (intercalación) es uno de esos conceptos cruciales de SQL Server y Azure SQL sin embargo, a menudo se pasa por alto o se confunde con otros términos como idioma o codificación. Dado que la collation impacta directamente en la forma en que se procesan las consultas de texto, su correcta configuración es vital para evitar problemas de rendimiento y coherencia en nuestras aplicaciones. En resumen, la collation define cómo se ordenan y comparan los datos de texto en una base de datos, incluyendo reglas sobre la sensibilidad a mayúsculas, acentos y otros caracteres especiales. Es de esas configuraciones de las que uno solo se acuerda cuando tiene un error y ya es tarde para solucionarlo.

¿Qué es la Collation?

La collation en SQL Server es una configuración que define las reglas para comparar y ordenar cadenas de texto. Estas reglas determinan, por ejemplo, si las comparaciones deben ser sensibles a mayúsculas o minúsculas (case-sensitive o case-insensitive), si deben distinguir entre caracteres con y sin acento (accent-sensitive o accent-insensitive), y cómo se ordenan los caracteres según un conjunto de reglas culturales o técnicas específicas.

Una confusión común es suponer que al establecer una collation se está configurando el idioma de la base de datos o la codificación de los datos. Esto no es correcto. Es importante entender que la collation no es lo mismo que el idioma o la codificación de los caracteres.

Diferencias entre intercalación, idioma y codificación

Mientras que la collation puede estar basada en un conjunto de reglas lingüísticas propias de un idioma (por ejemplo, cómo se ordenan las letras en español), no impone que los datos en la base de datos estén escritos en ese idioma.

El idioma, por definición, se refiere al conjunto de reglas gramaticales y de escritura utilizadas en un texto. La codificación, por su parte, la podemos definir como la manera de representar los caracteres en bytes (por ejemplo, UTF-8 o ASCII). Aunque la collation puede estar influenciada por el idioma, ya que define las reglas de ordenación basadas en ese idioma, no determina el idioma del texto en sí.

Por otro lado, la codificación se encarga de la representación física de los caracteres, es decir, cómo los caracteres son almacenados y transmitidos. SQL Server usa la collation para interpretar estas representaciones y aplicar las reglas correctas durante las comparaciones y ordenaciones, independientemente de la codificación subyacente.

Por ejemplo, si seleccionamos una collation basada en inglés, como SQL_Latin1_General_CP1_CI_AS, esta permitirá que las comparaciones de texto sean insensibles a mayúsculas y acentos, de acuerdo con las reglas del idioma inglés. Sin embargo, esto no impide que los datos almacenados estén en otro idioma, como español o alemán; simplemente determina cómo se manejarán y ordenarán esos datos.

En cuanto a la codificación, ésta se refiere a cómo los datos se almacenan y se interpretan a nivel de bytes. SQL Server maneja esto automáticamente, y la collation se encarga de aplicar las reglas adecuadas durante las operaciones con texto, como ORDER BY o WHERE.

Niveles de Intercalación

SQL Server está preparado para manejar distintas collation a nivel de instancia , base de datos e incluso columna. Cada una de estas intercalaciones tiene un alcance distinto y, por tanto, si deseamos modificarlas el proceso será diferente. Lo que sí os puedo asegurar es que en todos los casos cambiar una collation es peor que un dolor de muelas. Además, una discrepancia de collation puede ser incompatible con operaciones de comparación de datos o de lectura en un objeto y escritura en otro, existen maneras de salvarlo pero, nuevamente, será un suplicio para el desarrollador.

Collation a nivel de instancia en SQL Server

La collation a nivel de instancia se configura durante la instalación de SQL Server y define el comportamiento predeterminado para todas las bases de datos y objetos creados dentro de esa instancia. Esta collation será la de las bases de datos de datos de sistema y es clave en el futuro comportamiento de SQL Server. Además, si no especificamos una collation al crear después una base de datos de usuario o un objeto, heredará la de la instancia.

Esta collation de instancia influye en la forma en que se gestionan las comparaciones y ordenaciones en todas las bases de datos del sistema, afectando aspectos como la sensibilidad a mayúsculas y acentos. Es esencial elegir la collation correcta durante la instalación, ya que cambiarla posteriormente puede ser complicado, requiriendo a veces la reinstalación del servidor o la migración de las bases de datos.

Collation a nivel de base de datos

Cada base de datos en SQL Server puede tener su propia collation, independientemente de la collation de la instancia. Esto es útil cuando necesitamos manejar datos en diferentes idiomas o con diferentes requisitos de comparación. Por ejemplo, una base de datos que maneje datos en japonés puede necesitar una collation distinta de otra que gestione datos en francés no por el idioma o por el juego de caracteres sino porque los criterios de ordenación de los caracteres cambia.

Al crear una base de datos, podemos especificar la collation utilizando la cláusula COLLATE. Si necesitamos cambiar la collation de una base de datos existente, esto se puede hacer con el comando ALTER DATABASE, aunque el cambio no afectará automáticamente a las tablas y columnas ya existentes. Por lo tanto, si cambiamos la collation de una base de datos, debemos asegurarnos de revisar y actualizar también las collations de las columnas si es necesario.

Collation a nivel de columna

El nivel más granular de collation se encuentra en las columnas de las tablas. Esto nos permite tener columnas con diferentes collations dentro de la misma tabla, lo cual es especialmente útil en escenarios donde necesitamos manejar datos de diferentes orígenes o con distintos requisitos culturales.

Para definir la collation de una columna al momento de crear una tabla, utilizamos la cláusula COLLATE después del tipo de dato de la columna. Si necesitamos cambiar la collation de una columna existente, podemos hacerlo con el comando ALTER TABLE ALTER COLUMN, aunque este proceso puede ser costoso en términos de rendimiento, especialmente si la tabla contiene grandes volúmenes de datos.

Cómo trabajar con datos con distinta Collation

Trabajar con datos que tienen diferentes collations requiere precaución, especialmente al realizar comparaciones o uniones entre columnas. SQL Server permite especificar la collation en las consultas utilizando la cláusula COLLATE en las expresiones de texto, lo que nos permite unificar la collation de los datos en una operación específica. Esta es la única forma de poder actuar cuando tenemos distintas collations entre objetos, por ejemplo, entre bases de datos e instancia que, como hemos visto antes afecta a las bases de datos de sistema y por tanto a las tablas temporales en TempDB.

Otro ejemplo, si tenemos dos columnas con diferentes collations y necesitamos compararlas, podemos utilizar COLLATE para especificar la collation a usar durante la comparación, evitando así errores cómo «Cannot resolve the collation conflict«. De esta manera, podemos trabajar con datos multilingües o de diferentes fuentes de manera más segura y eficiente.

Cambiar la Collation: Impacto y consideraciones

Cambiar la collation en SQL Server, ya sea a nivel de instancia, base de datos o columna, no es una tarea trivial y debemos realizarla con precaución. Los cambios a nivel de instancia son los más delicados, ya que afectan a todas las bases de datos y objetos de esa instancia. Esto implica una reinstalación de facto de la instancia y, aunque no perderemos los datos, sí que pueden verse afectados los objetos de instancia como logins, credenciales, etc…

A nivel de base de datos, es fundamental considerar que las tablas y columnas existentes no cambiarán automáticamente, lo que podría llevar a una mezcla de collations dentro de la misma base de datos. Este tipo de situaciones complican la gestión y pueden dar lugar a problemas de rendimiento o coherencia de datos. Por ello, es crucial planificar estos cambios con antelación y realizar pruebas exhaustivas en un entorno controlado antes de aplicarlos en producción.

Conclusión

La correcta gestión de la collation en SQL Server y Azure SQL es esencial para garantizar la integridad y el rendimiento de nuestras bases de datos. Entender las diferencias entre collation, idioma y codificación nos permite tomar decisiones más informadas y evitar errores comunes que pueden surgir al trabajar con datos multilingües o de diferentes fuentes. Al aplicar las mejores prácticas en la configuración y el manejo de collations, podemos optimizar nuestras bases de datos para un rendimiento y consistencia óptimos, asegurando que nuestras aplicaciones manejen datos de texto de manera eficaz y sin sorpresas inesperadas.

Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo.

Publicado por Roberto Carrancio en Cloud, SQL Server, 1 comentario

Comprendiendo los servicios de SQL Server

Cuando instalamos SQL Server en nuestro ordenador o en un servidor vamos a ver que se instalan varios servicios que no teníamos antes. Esto es porque SQL Server es mucho más que un motor de base de datos relacional (RDBMS) sino que hay todo un ecosistema a su alrededor que hace posible la ejecución de todas las capacidades adicionales de las que dispondremos. Estos servicios trabajan en conjunto para proporcionarnos las capacidades de automatización, escalabilidad, seguridad, y analítica avanzada, permitiendo que SQL Server sea más que un simple motor de base de datos, como decíamos antes. A continuación, vamos a ver en detalle cada uno de estos servicios y componentes, desglosando su rol dentro del ecosistema de SQL Server para que como administradores de base de datos tengáis un mayor control.

Servicios SQL Server: El motor de base de datos 

El motor de base de datos es el núcleo sobre el que se sustentan todas las operaciones en SQL Server, el motor relacional propiamente dicho. Su principal función es el almacenamiento, procesamiento y seguridad de los datos. Este servicio maneja la ejecución de consultas SQL y la gestión de transacciones, así como  la administración de la integridad referencial y la seguridad. Este motor está diseñado para manejar desde pequeños hasta grandes volúmenes de datos y soportar entornos de gran concurrencia, proporcionándonos un rendimiento constante y confiable. Además, es responsable de la ejecución de procedimientos almacenados, funciones y triggers (desencadenadores), lo que permite la automatización de tareas dentro de la base de datos. Veremos un servicio de SQL Server por cada una de las instancias que tengamos instalada en nuestra máquina y detener estos servicios implica detener esas instancias de SQL Server.

Servicios SQL Server agent: automatización y programación de tareas

El agente de SQL Server es un servicio clave para la administración eficiente de las bases de datos. Su función principal es la automatización de tareas rutinarias, como la ejecución de scripts y la programación de copias de seguridad, lo que nos permite a los administradores mantener la continuidad del servicio y asegurar la optimización y seguridad de las bases de datos. A través de la programación de trabajos, el agente nos permite ejecutar tareas de manera recurrente o en respuesta a eventos específicos, minimizando la intervención manual y asegurando que las bases de datos se mantengan en condiciones óptimas. Además, cuenta con un sistema de alertas que nos notifica a los administradores sobre eventos críticos, como fallos en los trabajos o problemas de rendimiento, lo que facilita una respuesta proactiva.

Este servicio está disponible para todas las instalaciones de SQL Server que no sean una edición Express y veremos uno de ellos por cada una de las instancias que cumplan esa condición. Si detenemos este servicio SQL Server seguirá funcionando pero no el agente de SQL por lo que no podremos hacer uso de jobs ni de alertas.

Servicio SQL Server browser: gestión de conexiones en múltiples instancias

El servicio SQL Server Browser es esencial en entornos donde coexisten múltiples instancias de SQL Server o cuando tenemos una instancia con nombre. Este servicio gestiona las conexiones a las distintas instancias, resolviendo el nombre de la instancia y redirigiendo al cliente al puerto correspondiente. Es particularmente útil en entornos que utilizan instancias con nombres o puertos dinámicos, ya que facilita la administración de las conexiones sin necesidad de configurar manualmente cada una. El Browser también proporciona información sobre las instancias disponibles en una máquina, mejorando la flexibilidad y simplicidad en la conexión a SQL Server.

Se trata de un servicio común para todas las instancias de SQL Server por lo que solo veremos uno por cada servidor, tengamos las instancias que tengamos. Si este servicio está detenido, SQL Server seguirá funcionando pero podemos encontrarnos con problemas de conexión desde los equipos de la red si nuestras instancias tienen nombre o si tienen configurado el puerto dinámico.

Servicios Full-text engine y los servicios SQL full-text filter daemon launcher

El Full-text Engine y su servicio asociado, el Full-text Filter Daemon Launcher, proporcionan capacidades avanzadas de búsqueda en texto completo dentro de SQL Server. Este servicio permite realizar búsquedas complejas en grandes volúmenes de datos textuales, utilizando criterios como palabras clave, frases, y proximidad de términos. Es especialmente útil en aplicaciones que manejan datos no estructurados, como documentos y correos electrónicos, permitiendo a los usuarios realizar consultas sofisticadas que van más allá de las capacidades de búsqueda estándar de SQL. La combinación del Full-text Engine con el motor de base de datos permite realizar consultas mixtas que integran búsquedas textuales y estructuradas, proporcionando un alto nivel de flexibilidad en la recuperación de información. Veremos un servicio SQL Full-text Filter Daemon Launcher por cada una de las instancias que tengamos instalada en nuestra máquina y podremos detenerlo siempre y cuando no usemos estas características.

Servicios PolyBase: integración y análisis de datos externos

PolyBase es una tecnología dentro de SQL Server que nos facilita la consulta de datos almacenados en sistemas externos, como Hadoop o Azure Blob Storage, utilizando T-SQL. Los servicios asociados a PolyBase, como PolyBase Data Movement y PolyBase Engine son los que nos permiten mover y procesar datos entre diferentes nodos en una configuración distribuida. Esto es especialmente relevante cuando trabajamos en entornos de Big Data, donde nos es necesario manejar grandes volúmenes de datos que residen fuera del ecosistema tradicional de SQL Server. En estos entornos, PolyBase nos permite integrar y analizar datos de diversas fuentes sin necesidad de moverlos físicamente a SQL Server, lo que optimiza el rendimiento y reduce los costes de almacenamiento.

Los servicios de PolyBase son comunes para todas las instancias del servidor por lo que solo veremos uno de cada y ya que tienen una funcionalidad muy específica podremos detenerlos si no hacemos uso de ella.

Servicio SQL Server vss writer: copias de seguridad consistentes

El servicio SQL Server VSS Writer es fundamental para la realización de copias de seguridad consistentes de las bases de datos mientras están en uso. Este servicio interactúa con la tecnología de copia de sombra de volumen de Windows (Volume Shadow Snapshot) para asegurar que las copias de seguridad sean coherentes y confiables, incluso en entornos de producción donde las bases de datos están activas. La capacidad de realizar copias de seguridad en vivo sin afectar el rendimiento del sistema es crucial para garantizar la disponibilidad y la integridad de los datos en SQL Server. Además, este tipo de copias de seguridad por snapshot suelen ser instantáneas a la hora de realizarse y mucho (pero muchísimo) más rápidas a la hora de restaurarse.

Se trata, nuevamente, de un servicio común para todas las instalaciones de SQL Server por lo que solo veremos uno y podremos detenerlo si tenemos claro que en ningún caso se realizan este tipo de copias. Sin embargo, este es uno de esos servicios que yo recomiendo tener siempre en ejecución.

Servicios SQL Server launchpad: integración con lenguajes de análisis de datos

SQL Server Launchpad es un servicio que habilita la ejecución de scripts en lenguajes de análisis de datos, como R y Python, directamente dentro de SQL Server. Este servicio permite integrar el análisis avanzado y el machine learning en el entorno de SQL Server, sin necesidad de mover los datos a plataformas externas. La ejecución de modelos de análisis directamente sobre los datos almacenados en SQL Server optimiza el rendimiento y simplifica el flujo de trabajo, lo que es esencial en aplicaciones que requieren un análisis en tiempo real o procesamientos estadísticos complejos. Esta capacidad se puede elegir a nivel de instancia por lo que cada una que tengamos instalada tendrá su servicio y podremos detenerlos si no los necesitamos.

Servicios de otros productos de la familia SQL Server

Como ya sabéis, SQL Server incluye otros servicios además del motor de bases de datos, estos son SSAS, SSRS y SSIS. La integración de SQL Server con estos otros servicios nos permite construir soluciones BI completas y robustas.

Servicios de SSAS

SQL Server Analysis Services (SSAS) es un servicio crucial para la creación de soluciones de inteligencia de negocios (BI). SSAS permite la creación de modelos de datos complejos que pueden ser consultados eficientemente, ofreciendo soporte tanto para modelos multidimensionales (OLAP) como tabulares. Este servicio es la columna vertebral de las capacidades analíticas de SQL Server, permitiendo a las organizaciones realizar análisis profundos de sus datos, identificar patrones y tendencias, y tomar decisiones basadas en datos. Al igual que con SQL Server, podemos tener varias instancias de SSAS y veremos un servicio en ejecución por cada una de ellas.

Servicios de SSIS

SQL Server Integration Services (SSIS) es la plataforma de SQL Server para la integración y transformación de datos. SSIS permite ejecutar complejas operaciones ETL (Extract, Transform, Load), integrando datos de diversas fuentes y transformándolos para su análisis o almacenamiento en bases de datos. Además del servicio del motor de SSIS vamos a encontrar los servicios de escalado de SSIS, como el Scale Out Master y Scale Out Worker que permiten distribuir la carga de trabajo entre múltiples servidores, mejorando el rendimiento y la eficiencia en la ejecución de paquetes SSIS. Esta capacidad de escalabilidad es fundamental en entornos que requieren procesar grandes volúmenes de datos de manera rápida y eficiente. Como solo se puede tener una instalación de SSIS por máquina solo vamos a ver uno de cada uno de estos tres servicios.

Servicio de SSRS

SQL Server Reporting Services (SSRS) es el componente que permite la creación, distribución y administración de informes empresariales. SSRS proporciona herramientas para diseñar informes detallados, que pueden incluir gráficos, tablas y otros elementos visuales, facilitando la interpretación de los datos. Además, SSRS permite automatizar la distribución de informes, asegurando que los responsables de tomar decisiones tengan acceso a la información más actualizada. La capacidad de personalizar y programar informes según las necesidades específicas de la organización hace de SSRS una herramienta indispensable en el ecosistema de SQL Server. SSRS ya ha dejado de distribuirse junto con SQL Server por lo que para instalarlo tendremos que buscar un instalador independiente.

Servicios CEIP en SQL Server, SSAS y SSIS

Los servicios CEIP (Customer Experience Improvement Program) en SQL Server SQL Server Integration Services (SSIS) y SQL Server Analysis Services (SSAS) recolectan información sobre cómo utilizamos estas herramientas, incluyendo estadísticas de rendimiento y uso. Esta información se envía a Microsoft para contribuir a la mejora del producto en futuras versiones. Aunque estos servicios no son críticos para la operación diaria de SQL Server, SSIS o SSAS, pueden ser útiles para los que deseamos contribuir al desarrollo y mejora del software y obtener recomendaciones sobre cómo optimizar su uso.

Conclusión

SQL Server es una plataforma integral que va más allá de ser simplemente un motor de base de datos relacional. Sus diversos servicios, desde la automatización de tareas con el agente de SQL Server hasta las capacidades analíticas avanzadas de SSAS, y la integración de datos externos con PolyBase, permiten a las organizaciones construir soluciones completas y optimizadas para manejar grandes volúmenes de datos. Comprender y aprovechar estos servicios es fundamental para maximizar el rendimiento, la seguridad y la eficiencia en cualquier implementación de SQL Server. La correcta configuración y gestión de estos componentes garantiza que SQL Server no solo cumpla con las demandas actuales, sino que esté preparado para enfrentar los desafíos del futuro en el manejo y análisis de datos.

Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo.

Publicado por Roberto Carrancio en SQL Server, 0 comentarios

Control avanzado de transacciones

Uno de los conceptos fundamentales y a los que más atención debemos prestar cuando trabajamos con bases de datos es el de las transacciones. Las transacciones nos permiten agrupar una serie de operaciones en una única unidad de trabajo. Dentro de este contexto, dos comandos clave son COMMIT y ROLLBACK, que nos permiten confirmar o deshacer transacciones respectivamente. Pero también existen otros aspectos fundamentales que debemos conocer como las transacciones implícitas y explícitas y los conceptos BEGIN TRAN, BEGIN TRY y BEGIN CATCH. Si todo esto te suena a chino no te preocupes, acompáñame en este artículo en el que profundicemos en estos conceptos y en cómo la gestión de transacciones puede influir en nuestra estrategia de manejo de datos.

¿Qué son las transacciones?

Una transacción es un conjunto de operaciones SQL que se ejecutan como una unidad indivisible. El principio básico es que todas las operaciones dentro de una transacción deben completarse con éxito; de lo contrario, ninguna de ellas se aplicará. Este comportamiento garantiza la integridad y consistencia de los datos. 

Si echamos la vista atrás, cuando empezamos a estudiar bases de datos relacionales siempre nos dicen que se basan en el concepto ACID, que es un acrónimo que hace referencia a un conjunto de propiedades fundamentales que aseguran que las transacciones se manejen de manera confiable.

Propiedades ACID

Las transacciones en bases de datos relacionales como SQL Server deben cumplir con las propiedades ACID. Pero, ¿qué es ACID? ACID son las iniciales de Atomicidad, Consistencia, Aislamiento (Isolation en inglés) y Durabilidad. Veamos qué significa:

Atomicidad (Atomicity): Una transacción debe ser atómica, es decir, todas las operaciones dentro de una transacción se consideran como una sola unidad. Cuando una transacción tiene varios pasos, o se ejecutan todos o ninguno. Si alguna operación falla, toda la transacción debe fallar y deshacerse.

Consistencia (Consistency): Una transacción debe llevar la base de datos de un estado consistente a otro estado consistente. Esto significa que las reglas y restricciones de la base de datos deben ser respetadas antes y después de la transacción.

Aislamiento (Isolation): Las transacciones concurrentes deben aislarse unas de otras y cada transacción debe ser independiente. Esto asegura que las transacciones no afecten el estado intermedio de otras transacciones en curso.

Durabilidad (Durability): Una vez que una transacción ha sido confirmada (COMMIT), los cambios realizados deben persistir en la base de datos, incluso en caso de fallos del sistema.

Commit: Confirmando transacciones

El comando COMMIT se utiliza para confirmar una transacción, haciendo permanentes todos los cambios realizados desde el inicio de la misma. Una vez que se emite un COMMIT, no hay marcha atrás: los cambios quedan guardados en la base de datos de forma definitiva.

En este bloque de código, cualquier operación SQL entre BEGIN TRANSACTION y COMMIT será confirmada y guardada permanentemente al ejecutar el COMMIT.

Rollback: Deshaciendo transacciones

El comando ROLLBACK es el contrario a COMMIT. Nos permite deshacer todas las operaciones realizadas en la transacción actual, volviendo la base de datos a su estado anterior al inicio de la transacción. Esto es esencial para manejar errores y mantener la integridad de los datos.

Aquí, si algo sale mal o si detectamos algún error en las operaciones SQL, el ROLLBACK deshará todos los cambios desde el BEGIN TRANSACTION, asegurando que la base de datos no quede en un estado inconsistente.

Manejo avanzado de transacciones: BEGIN TRAN, TRY, CATCH

Para un manejo más completo de las transacciones, SQL Server ofrece estructuras adicionales como BEGIN TRANSACTION (o su abreviatura BEGIN TRAN), BEGIN TRY y BEGIN CATCH, que nos permiten manejar errores de manera efectiva dentro de las transacciones.

BEGIN TRAN

El comando BEGIN TRANSACTION o BEGIN TRAN se utiliza para iniciar una nueva transacción. Este comando es esencial cuando queremos agrupar varias operaciones SQL en una sola unidad de trabajo. La sintaxis es la que ya hemos estado viendo en los anteriores ejemplos:

TRY y CATCH

Las estructuras TRY y CATCH en SQL Server nos permiten capturar y manejar errores dentro de las transacciones. Utilizando BEGIN TRY y BEGIN CATCH, podemos definir bloques de código que se ejecutan en caso de éxito o fallo de la transacción.

En este ejemplo, si alguna operación dentro del bloque TRY falla, el control pasa al bloque CATCH, donde podemos realizar un ROLLBACK y manejar el error de manera apropiada.

Transacciones implícitas en SSMS

En SQL Server Management Studio, las transacciones por defecto son automáticas, es decir, no es necesario declarar el BEGIN TRANSACTION al inicio ni el COMMIT al terminar, se hará automáticamente. Sin embargo, pueden ser configuradas para ser implícitas y que debamos ser nosotros quienes elijamos si hacer COMMIT o ROLLBACK. Esto significa que cada operación individual se convierte automáticamente en una transacción. Aunque puede parecer ventajoso, esta configuración tiene tanto ventajas como inconvenientes. Si la transacción es abierta manualmente con un BEGIN TRANSACTION entonces hablamos de transacciones explícitas.

En resumen, el comportamiento por defecto son las transacciones automáticas y cada operación es una transacción individual que se confirma (COMMIT) automáticamente. Podemos definir de manera explícita una transacción con BEGIN TRANSACTION y perdurará hasta que hagamos un COMMIT o ROLLBACK manualmente. Si lo que queremos es anular el COMMIT automático en las operaciones individuales podemos configurar las transacciones implícitas.

Ventajas de las transacciones implícitas

Una de las principales ventajas de las transacciones implícitas es que no necesitamos preocuparnos por envolver nuestras operaciones en bloques de transacción explícitos. Esto puede simplificar el código y reducir errores por omisión de transacciones. Además, en escenarios de producción puede reducir el riesgo de errores por ejecución de código no deseado.

Inconvenientes de las transacciones implícitas

Sin embargo, las transacciones implícitas también tienen importantes desventajas. La principal es el riesgo de olvidar confirmar o deshacer una transacción, lo que puede llevar a bloqueos o a un uso excesivo de recursos. Otro de los problemas comunes es que mientras una transacción esté abierta el log no se va a vaciar, pudiendo crecer descontroladamente. Por último, al no ser automáticas ni explícitas, es más difícil llevar un control riguroso de cuándo se inician y terminan las transacciones, lo cual puede complicar la depuración y el mantenimiento del código. Además, la automatización de transacciones puede generar una sobrecarga innecesaria en operaciones simples que no requieren aislamiento transaccional.

Configuración de transacciones implícitas en SSMS

Para habilitar las transacciones implícitas en SSMS, debemos modificar una configuración específica. En SSMS, vamos a Tools > Options > Query Execution > SQL Server > ANSI, y activamos la opción «SET IMPLICIT_TRANSACTIONS». Esto cambia el comportamiento predeterminado de las consultas ejecutadas en el editor.

Una vez activada esta opción, cada instrucción SQL iniciará automáticamente una transacción que deberá ser confirmada con COMMIT o deshecha con ROLLBACK. Es crucial recordar en todo momento que hemos activado este comportamiento para evitar los problemas que acabamos de describir hace un momento.

Por otro lado, independientemente de la configuración general de nuestro SSMS o cuando estamos trabajando con otras herramientas es posible editar este comportamiento para una sesión en concreto. Esto lo haremos con el comando SET IMPLICIT_TRANSACTION seguido de un valor ON u OFF en función de lo que deseemos.

Buenas Prácticas en la gestión de transacciones

Para maximizar el beneficio de controlar manualmente las transacciones y minimizar los riesgos, es esencial seguir algunas buenas prácticas. Primero, debemos asegurar que las transacciones sean de un tamaño aceptable. Como norma general una transacción que afecte a varios registros será más eficiente que muchas transacciones individuales pero hasta cierto punto. Llega un momento que el tamaño de la transacción puede acarrear problemas. Existe una recomendación aproximada de no superar los 10.000 registros por transacción pero depende en gran medida de la complejidad de la misma y del volumen de los datos. Lo que sí está claro es que esto nos va a reducir la probabilidad de sufrir bloqueos y a mejorar el rendimiento general de nuestro servidor. También es recomendable incluir manejo de errores dentro de nuestras transacciones para poder realizar un ROLLBACK automático en caso de fallos.

Conclusión

El manejo adecuado de transacciones en SQL Server mediante los comandos COMMIT y ROLLBACK es fundamental para asegurar la integridad y consistencia de nuestros datos. Además, las transacciones implícitas nos pueden ofrecer ventajas en términos de simplicidad y rapidez de desarrollo, pero siempre prestando atención, pues tienen riesgos que debemos gestionar con cuidado. Entender estos conceptos y aplicar buenas prácticas nos permitirá desarrollar sistemas más robustos y eficientes.

 Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo. 

Publicado por Roberto Carrancio en Cloud, SQL Server, 1 comentario

Restauración a un punto en el tiempo

La restauración de una base de datos a un punto en el tiempo es una habilidad crítica para cualquier DBA. Esta técnica nos permite recuperar datos hasta un instante específico, minimizando así la pérdida de información tras un incidente. En este artículo, abordaremos el proceso de restauración en SQL Server y Azure SQL, dos plataformas muy similares pero en las que vamos a encontrar diferencias a la hora de proceder. Empezaremos con una breve introducción a la restauración a un punto en el tiempo y luego nos adentraremos en los detalles técnicos.

¿Qué es restaurar a un punto en el tiempo?

La restauración a un punto en el tiempo es una técnica avanzada que nos permite revertir una base de datos a un estado anterior específico. Esto es especialmente útil cuando ocurren errores de usuario, fallos en las aplicaciones o cualquier otro tipo de problema que afecte la integridad de los datos. Para SQL Server y Azure SQL, el proceso varía ligeramente, pero el principio básico es el mismo: utilizar copias de seguridad (backups) completas y de logs de transacciones (transaction logs) para reconstruir la base de datos hasta el momento deseado.

Restauración a un punto en el tiempo en SQL Server

Para realizar una restauración a un punto en el tiempo en SQL Server, necesitamos disponer de una copia de seguridad completa de la base de datos y todas las copias de seguridad del registro de transacciones hasta el punto en el tiempo que queremos restaurar. Es, por tanto, necesario tener la base de datos en un modo de recuperación FULL o Bulk-logged. 

Primero, asegurémonos de tener todas las copias de seguridad necesarias. La estrategia de copias de seguridad debería incluir backups completos y de logs de transacciones. Opcionalmente podremos disponer también de backups diferenciales. Los backups completos contienen toda la información de la base de datos, mientras que los diferenciales almacenan sólo los cambios desde el último backup completo. Los de log de transacciones, por su parte, registran todas las modificaciones realizadas en la base de datos desde el último backup de log. Una vez que confirmamos que disponemos de todas las copias de seguridad necesarias, procedemos a la restauración. 

Para empezar, restauramos la copia de seguridad completa usando el siguiente comando:

El parámetro NORECOVERY es crucial, ya que permite aplicar backups adicionales antes de recuperar la base de datos. A continuación, restauramos cualquier backup diferencial (si existe):

Finalmente, aplicamos los backups de los registros de transacciones hasta el punto en el tiempo deseado:

El parámetro STOPAT especifica el punto en el tiempo exacto al que queremos restaurar. Para completar el proceso, recuperamos la base de datos:

Usar STANDBY para encontrar un momento dado desconocido

En ocasiones, necesitamos restaurar la base de datos a un momento específico pero desconocido, donde ocurrió un evento crítico. En estos casos, la opción STANDBY resulta muy útil. Esta opción nos permite restaurar la base de datos en un estado de solo lectura después de aplicar cada backup de registro de transacciones. De esta manera, podemos inspeccionar la base de datos en diferentes puntos del tiempo hasta encontrar el momento exacto que necesitamos.

Para usar STANDBY, primero restauramos la copia de seguridad completa y cualquier backup diferencial como antes. Luego, aplicamos los registros de transacciones de la siguiente manera:

El archivo UndoFile se utiliza para almacenar la información necesaria para revertir las transacciones no confirmadas, permitiendo que la base de datos se mantenga en un estado de solo lectura. Podemos repetir este proceso, aplicando registros de transacciones de uno en uno, verificando el estado de la base de datos después de cada restauración, hasta que encontremos el momento exacto que buscamos. Una vez que lo encontramos, aplicamos el resto de los registros de transacciones y finalizamos la restauración con WITH RECOVERY como hemos visto antes.

Restauración a un punto en el tiempo en Azure SQL

En Azure SQL, el proceso de restauración a un punto en el tiempo es más sencillo gracias a la infraestructura gestionada por Microsoft. Azure SQL realiza copias de seguridad automáticas y las almacena en un almacenamiento redundante.

Para restaurar una base de datos a un punto en el tiempo específico, usamos el portal de Azure o comandos de PowerShell/CLI. En el portal de Azure, navegamos a la base de datos que queremos restaurar, seleccionamos «Restore» y elegimos la opción «Point-in-time restore». Especificamos la fecha y hora a la que queremos restaurar y confirmamos la operación.

Mediante PowerShell, el comando sería similar a este:

El parámetro -PointInTime debe especificar el punto en el tiempo exacto en formato ISO 8601. Este proceso crea una nueva base de datos a partir del punto en el tiempo especificado.

Conclusión

Restaurar una base de datos a un punto en el tiempo en SQL Server y Azure SQL es una técnica vital que todos los administradores de bases de datos debemos dominar. En SQL Server, la restauración implica una secuencia cuidadosa de operaciones de restauracion de backups completos, diferenciales y de logs de transacciones. En Azure SQL, el proceso está simplificado gracias a las funcionalidades gestionadas por la plataforma.

Dominar esta habilidad nos permite asegurar la continuidad del negocio y la integridad de los datos tras cualquier incidente. Además, nos da la tranquilidad de saber que podemos recuperar información valiosa hasta el instante preciso en que ocurrió el problema. Sin duda, una habilidad indispensable en el arsenal de cualquier DBA experto.

 Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo.

Publicado por Roberto Carrancio en Cloud, SQL Server, 0 comentarios

Log de transacciones

Cuando trabajamos con SQL Server, uno de los elementos más críticos y, a menudo, menos comprendidos es el log de transacciones. Este componente de las bases de datos es esencial para asegurar la integridad y consistencia de nuestros datos. Gracias a este registro de transacciones, el motor de base de datos va a poder llevar a cabo una recuperación completa en caso de fallo. También se usa para la replicación de datos, una vez sincronizada una base de datos lo que se replica en tiempo real son las operaciones que registra el log. 

¿Qué es el Log de Transacciones?

El log de transacciones es una archivo de base de datos que se almacena con una estructura de datos secuencial y que registra todas las modificaciones hechas a la base de datos. Cada cambio, sea cual sea, desde una simple inserción hasta una transacción compleja, se documenta en el log antes de ser aplicado físicamente a la base de datos. Gracias a esta característica podemos estar seguros de que en caso de un fallo del sistema, vamos a poder recuperar la base de datos a su estado anterior sin pérdida de datos.

Entender cómo funcionan los logs de transacciones es, por tanto, clave para cualquier DBA ya que sin ellos no funcionan nuestras bases de datos. En este artículo hablamos un poco más sobre el tema. 

Por otro lado, los logs se organizan en una serie de segmentos denominados VLFs (Virtual Log Files). SQL Server gestiona estos VLFs automáticamente, pero es fundamental entender su funcionamiento para evitar problemas de rendimiento. Cuando el log de transacciones crece, se añaden más VLFs, y si no se gestionan adecuadamente, pueden llevar a una fragmentación del log, lo que afecta negativamente al rendimiento.También hablamos sobre ellos en el blog, puedes profundizar más sobre este tema aquí

Importancia del Modo de Recuperación

El modo de recuperación de la base de datos determina cómo se gestionan los logs de transacciones y, en última instancia, cómo se pueden recuperar los datos. SQL Server ofrece tres modos de recuperación: Simple, Completo y Bulk-Logged.

En el modo de recuperación Simple, el log de transacciones se trunca automáticamente después de cada checkpoint, limitando las opciones de recuperación a los backups completos. El modo de recuperación Full (completo), por otro lado, permite una recuperación total hasta el punto de fallo, siempre y cuando se mantenga un régimen adecuado de backups de logs de transacciones. Finalmente, el modo de recuperación Bulk-Logged ofrece un compromiso entre los dos anteriores. Este modo minimiza las escrituras en log durante operaciones masivas, como cargas de datos, a cambio de una menor granularidad en la recuperación.

Optimización y Mantenimiento del Log de Transacciones

Para asegurar un rendimiento óptimo del log de transacciones, es crucial seguir ciertas prácticas de mantenimiento y optimización. Primero, es esencial monitorizar el tamaño del log y evitar que crezca indefinidamente. Esto se logra configurando adecuadamente el tamaño inicial del log y sus incrementos automáticos, así como realizando backups regulares del log de transacciones en los modos de recuperación distintos a simple.

Otro aspecto vital es la gestión de los VLFs. Un número excesivo de VLFs puede degradar el rendimiento, por lo que es recomendable mantenerlos en un rango razonable. Esto se puede controlar ajustando los incrementos automáticos del tamaño del log, evitando incrementos pequeños que resulten en una gran cantidad de VLFs. 

Accediendo al Log de Transacciones

Acceder a los logs de transacciones nos puede parecer una tarea intimidante al principio, pero SQL Server nos proporciona varias herramientas para facilitar este proceso. La forma más común de acceso es a través de la función fn_dblog, que permite visualizar el contenido del log directamente desde SQL Server Management Studio (SSMS). Consultando esta función, obtendremos una lista detallada de todas las transacciones registradas. Esta operación, nos permite a los DBAs una visión sin filtros de cada operación, pero es importante manejar la cantidad de información con precaución, ya que puede ser abrumadora.

 Interpretando los Datos del Log

Una vez que hemos accedido al log, el siguiente paso es interpretar los datos. Cada registro en el log contiene múltiples columnas que describen la transacción en detalle. Algunas de las columnas más relevantes incluyen:

  • Transaction ID: Identificador único de la transacción.
  • Operation: Tipo de operación realizada (inserción, eliminación, actualización, etc.).
  • Transaction Name: Nombre de la transacción, si se ha especificado.
  • Begin Time: Hora de inicio de la transacción.
  • End Time: Hora de finalización de la transacción.

Comprender estas columnas nos permite seguir el rastro de cada transacción y analizar su impacto en la base de datos. Por ejemplo, podemos identificar transacciones largas que podrían estar afectando el rendimiento o detectar operaciones no autorizadas.

Uso de DBCC LOG para el Análisis Avanzado

Para análisis más avanzados, la instrucción DBCC LOG ofrece una visión aún más profunda del log de transacciones. Ejecutando DBCC LOG (<nombre de la base de datos>, <opción de detalle>), podemos especificar el nivel de detalle que queremos obtener. Las opciones de detalle van desde 0 (menos detalle) hasta 4 (máximo detalle), permitiendo ajustar la cantidad de información según nuestras necesidades. Aunque es un procedimiento no documentado, esta herramienta es particularmente útil para investigar problemas específicos o realizar auditorías exhaustivas.

Recuperación de Datos y Auditoría de Seguridad

Uno de los usos más críticos de los logs de transacciones es la recuperación de datos. En situaciones donde se han producido errores o pérdidas de datos, los logs permiten revertir transacciones y restaurar la base de datos a un estado previo consistente. Para llevar a cabo esta tarea, podemos utilizar la instrucción RESTORE LOG junto con el archivo de log de transacciones correspondiente. Es vital tener un plan de backup y recuperación bien definido que incluya la utilización de estos logs.

En cuanto a la auditoría de seguridad, los logs de transacciones son una herramienta invaluable. Al monitorizar y analizar las transacciones registradas, podemos detectar actividades sospechosas o no autorizadas, lo que nos permite tomar medidas preventivas y correctivas a tiempo. Configurar alertas y auditorías basadas en el contenido de los logs nos proporciona una capa adicional de seguridad.

Conclusión

El log de transacciones de SQL Server es un componente fundamental que garantiza la integridad y recuperación de nuestros datos. Comprender su funcionamiento, mantenerlo optimizado y monitorizarlo continuamente nos permite asegurar un rendimiento óptimo y evitar sorpresas desagradables en nuestros entornos de producción más críticos. A través de una gestión cuidadosa y un enfoque proactivo, podemos maximizar la eficiencia de nuestras bases de datos y asegurar su disponibilidad y consistencia en todo momento.

 Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo.

Publicado por Roberto Carrancio en Cloud, SQL Server, 1 comentario

Mantenimiento imprescindible en SQL Server

El mantenimiento de bases de datos en SQL Server, como en todos los sistemas de bases de datos, es una actividad crítica para garantizar el rendimiento y la estabilidad de las aplicaciones que dependen de ellas. Un enfoque proactivo en la gestión de índices, estadísticas, integridad y copias de seguridad nos permite a los administradores evitar problemas potenciales antes de que se conviertan en fallos costosos. En este artículo, profundizaremos en cada uno de estos aspectos, proporcionando una visión detallada y práctica para mantener nuestras bases de datos en condiciones óptimas.

Mantenimiento de índices para mejorar el rendimiento

Los índices son componentes esenciales en nuestras bases de datos, ya que nos permiten un acceso rápido a los datos y mejoran significativamente el rendimiento de nuestras consultas. Prueba de ello es la cantidad de artículos que les hemos dedicado en el blog. Sin embargo, la eficiencia de los índices puede deteriorarse con el tiempo debido a la fragmentación, que ocurre cuando las páginas de datos se desorganizan. Este fenómeno afecta negativamente la rapidez de las búsquedas y actualizaciones y tenemos que prevenirlo y ponerle solución.

Para mantener un rendimiento óptimo, es crucial que monitoricemos y gestionemos los índices de forma periódica. No vamos a entrar en muchos más detalles pues ya le dedicamos un artículo completo a este tema. Simplemente vamos a ver que tenemos dos opciones de mantenimiento, la reorganización y la reconstrucción. La reorganización de índices es una técnica por la cual el motor de base de datos ajusta los índices sin necesidad de reconstruirlos completamente, lo que es en sí un proceso menos intensivo en recursos. Cuando la fragmentación es alta, la reorganización ya no es tan efectiva y debemos recurrir a la reconstrucción de índices, aunque sea un proceso más costoso en términos de tiempo y recursos. Deberemos planificar estas actividades de mantenimiento durante periodos sin uso o de baja actividad para minimizar el impacto a los usuarios.

Mantenimiento de estadísticas

Las estadísticas en SQL Server proporcionan al optimizador de consultas la información necesaria para decidir cuál es el mejor plan de ejecución posible para nuestra consulta, es decir, cómo ejecutar una consulta de la manera más eficiente posible. Sin datos actualizados, el optimizador puede hacer estimaciones inexactas, lo que lleva a un mal rendimiento.

La actualización regular de las estadísticas es una práctica recomendada para mantener el rendimiento del sistema. SQL Server ofrece opciones de actualización automática, pero en entornos con alta carga de trabajo o donde el rendimiento es crítico, puede ser más efectivo realizar actualizaciones manuales programadas. Esto asegura que las estadísticas reflejen con precisión la distribución actual de los datos, lo que es esencial para que el optimizador pueda generar planes de ejecución óptimos. Además no olvidéis que una actualización de estadísticas fuerza la recopilación de los planes de ejecución por lo que tenemos que buscar el equilibrio para mantenerlas actualizadas sin provocar un exceso de recompilaciones de los planes en caché.

Chequeo de integridad de las bases de datos

La integridad de los datos es un aspecto fundamental en la administración de bases de datos. Gracias a las herramientas de SQL Server, como DBCC CHECKDB, vamos a poder verificar la consistencia física de las bases de datos y de sus datos internos. Esta verificación es crucial para identificar y corregir errores en las estructuras de datos, que pueden surgir por diversas razones, desde fallos del hardware de almacenamiento hasta errores humanos o de consistencia en los datos.

Realizar verificaciones de integridad de manera regular ayuda a detectar problemas antes de que afecten la disponibilidad del sistema o provoquen pérdidas de datos. En caso de encontrarnos con corrupción, deberemos tomar acciones inmediatamente para reparar los daños antes de que puedan ir a más. Para esto intentaremos usar las herramientas disponibles como DBCC CHECKDB y, si no es posible restauraremos los datos desde una copia de seguridad anterior al incidente. 

Una vez resuelta la corrupción tendremos que buscar el origen del problema para evitar que se vuelva a repetir. Las causas más comunes de corrupción son fallos en el almacenamiento o interrupciones inesperadas del servicio (como fallos de alimentación). Es común encontrarse con problemas de corrupción también en instalaciones en sistemas operativos de escritorio que, para ahorrar energía, desconectan la alimentación de los discos duros. Esta configuración debe ser deshabilitada si se instala SQL Server en un sistema operativo de escritorio.

Copias de seguridad como medida de protección esencial

Las copias de seguridad deberían ser la piedra angular de cualquier estrategia de administración de bases de datos. Gracias a estas copias vamos a poder recuperar datos en caso de fallos o desastres, asegurando la continuidad del negocio. Es crucial diseñar un plan de copias de seguridad que considere la frecuencia de los respaldos, la retención y el almacenamiento seguro de los mismos.

Como ya vimos en el artículo que les dedicamos, existen diferentes tipos de copias de seguridad, como completas, diferenciales y de log de transacciones, cada una con su propia función y aplicabilidad. También es vital que realicemos pruebas de restauración periódicas para asegurarnos de que los procedimientos de recuperación funcionarán correctamente cuando sean necesarios. Además, es aconsejable que almacenemos las copias de seguridad en ubicaciones seguras y, si es posible, en lugares distintos geográficamente para protegernos contra desastres locales.

Soluciones de mantenimiento para bases de datos en SQL Server

Para que podamos gestionar eficazmente el mantenimiento de bases de datos en SQL Server podemos contar con herramientas y soluciones que automatizan y optimizan estas tareas. SQL Server ofrece varias herramientas nativas, mientras que otros desarrolladores han creado soluciones adicionales que pueden complementar o incluso superar las capacidades integradas. 

Herramientas nativas de SQL Server para el mantenimiento

SQL Server incluye varias características y herramientas integradas que facilitan la gestión del mantenimiento de bases de datos. Entre ellas, el Mantenimiento de Bases de Datos (Database Maintenance) y el Asistente para Mantenimiento (Maintenance Plan Wizard) son particularmente útiles para automatizar tareas como la reorganización y reconstrucción de índices, la actualización de estadísticas, la verificación de integridad y la realización de copias de seguridad.

Estas herramientas nos permiten a los DBAs configurar trabajos programados (jobs) de manera sencilla, utilizando una interfaz gráfica o scripts Transact-SQL. Sin embargo, aunque son bastante flexibles y suficientes para escenarios no muy complejos, es común encontrarnos con que estas herramientas pueden estar limitadas en cuanto a personalización y control exhaustivo sobre nuestras tareas de mantenimiento.

Soluciones avanzadas de Ola Hallengren

Una de las soluciones más reconocidas y ampliamente utilizadas en la comunidad SQL Server es el conjunto de scripts de mantenimiento desarrollado por Ola Hallengren. Estos scripts son muy configurables y nos proporcionan una solución completa para el mantenimiento de índices, copias de seguridad y verificación de integridad. De esta manera, nos permiten adaptar nuestras tareas de mantenimiento a las necesidades específicas de cada entorno.

Yo siempre recomiendo los scripts de Ola Hallengren ya que destacan por su eficiencia frente a las soluciones nativas. Además tienen una integración con el agente de SQL Server que nos facilita la programación y monitorización de las tareas de mantenimiento. Por último, pero no menos importante, estos scripts son gratuitos y se actualizan regularmente, lo que los convierte en una opción robusta y confiable.

Conclusión

Un mantenimiento adecuado y constante de las bases de datos en SQL Server es esencial para garantizar su rendimiento, disponibilidad y seguridad. La gestión eficiente de índices, la actualización estadísticas, las verificaciones regulares de integridad y una estrategia eficaz de copias de seguridad son pilares fundamentales en esta tarea. Adoptar un enfoque proactivo y planificado nos permite evitar problemas antes de que se conviertan en crisis, asegurando que nuestras bases de datos funcionen de manera óptima y que los datos estén siempre disponibles y protegidos.

 

Publicado por Roberto Carrancio en Cloud, Rendimiento, SQL Server, 0 comentarios

Reducir bases de datos (shrink)

En nuestro pasado artículo hablamos del crecimiento de las bases de datos. Entre otras cosas, os expliqué las diferencias entre espacio utilizado y espacio total del fichero y a que eran debidas. También vimos los errores más comunes que nos pueden llevar a que nuestras bases de datos crezcan más de lo necesario. En el artículo de hoy vamos a ver las técnicas de reducción de espacio de una base de datos con la operación shrink. El objetivo es que entendamos cuándo y por qué usar esta herramienta y si tienes que usarla, al final del artículo te diré cómo.

Espacio ocupado y utilizado

Como explicamos en el pasado artículo, aunque muy por encima, el espacio que ocupan nuestras bases de datos SQL Server en disco no es el tamaño real que tienen ocupado los datos. Por temas de rendimiento, el espacio que se asigna al fichero es mayor, o debería serlo, al que realmente ocupan los datos. Esto es así porque los tiempos de las operaciones de escritura podemos dividirlos en dos, por un lado reservar el espacio necesario en disco para los datos y por último escribir los datos. Aunque con técnicas como la inicialización instantánea de ficheros podemos agilizar mucho el proceso de crecimiento de los ficheros, si el espacio ya está previamente reservado, es decir, ocupado por el fichero pero no utilizado, será mucho más rápido el proceso de escritura. 

Reducir una base de datos

Cuando hablamos de reducir una base de datos, lo único que vamos a poder hacer sin eliminar datos es liberar ese espacio que tenía el fichero reservado pero no en uso. Es decir, reducir el tamaño del fichero hasta como mínimo el tamaño máximo de los datos. En el pasado artículo ya hablamos de las técnicas para que los datos ocupen menos y esto nos puede servir para reducir su tamaño, sin embargo, ninguna de estas técnicas va a reducir por sí misma el tamaño de los ficheros, para eso tenemos que recurrir a una reducción de ficheros o de base de datos también conocida como shrink.

¿Qué es el shrink?

El shrink es un proceso mediante el cual se reduce el tamaño físico de un archivo de base de datos, ya sea de datos o de log. Este comando libera espacio no utilizado y lo devuelve al sistema operativo. Aunque a primera vista puede parecer una herramienta útil para gestionar el espacio en disco, es fundamental entender cómo funciona realmente y los efectos que puede tener en el rendimiento de la base de datos. Empecemos por el principio, podemos hacer un shrink de toda la base de datos o de solo unos ficheros (ya sean de datos o de log), esta última opción es la más recomendable ya que nos permite un mayor control sobre la operación. 

Tipos de Shrink

Por otro lado, existen tres tipos de shrink, debido a que solo se puede liberar el espacio libre al final del fichero nos encontramos con un shrink truncateonly donde solo se libera ese espacio libre al final del fichero pero el espacio que hay entre los datos (fragmentación) sigue ocupado, este tipo de shrink es el más rápido y menos invasivo. 

El tipo más efectivo para liberar espacio es cuando definimos un tamaño que será el tamaño total que ocupe el fichero tras el proceso, en este caso, para conseguir liberar todo el espacio, SQL Server moverá físicamente los datos dentro del fichero eliminando los espacios libres y dejándolos al final para así poder liberar todo ese espacio. Esta operación en ficheros de datos es complicada, no solo por lenta, sino porque desfragmenta los índices. Al mover los datos de sitio los índices ya no apuntan al sitio correcto y hay que reconstruirlos después o no serán usables. El problema con esto, es que al reconstruir los índices, SQL Server crea un nuevo índice y al terminar borra el antiguo y si, durante este proceso vuelve a consumir espacio del fichero de datos. En concreto el espacio que ocupa el índice. 

Por último, cuando tenemos varios ficheros de base de datos del mismo filegroup podemos hacer un shrink en uno de ellos que lo vacíe por completo moviendo los datos al resto de ficheros. Esto también nos va a generar los problemas de fragmentación comentados anteriormente.

Ventajas del Uso del Shrink

Una de las ventajas más obvias del shrink es la liberación de espacio en disco. Esto nos será especialmente útil en situaciones donde el almacenamiento sea limitado o costoso. Además, el shrink puede ser una solución rápida para situaciones de emergencia en las que se necesita liberar espacio inmediatamente. Podemos ejecutar un shrink de forma fácil, incluso podemos programarlo en jobs para que se ejecute automáticamente. Incluso podemos configurar nuestras bases de datos para que liberen el espacio libre por defecto de manera automática.

Otra ventaja es que el shrink puede ayudar en la gestión de archivos de log de transacciones, que a menudo crecen considerablemente en bases de datos con muchas transacciones. En este contexto, el shrink puede reducir el tamaño de estos archivos después de una copia de seguridad del log, evitando así que ocupen espacio innecesario. En este mismo contexto, podemos hacer un shrink sobre la base de datos tempdb cuando haya crecido más de la cuenta debido a una transacción grande.

Inconvenientes y Riesgos del Shrink

A pesar de sus ventajas aparentes, como ya hemos comentado, nos podemos encontrar con muchos inconvenientes si ejecutamos un shrink sin ser cuidadosos. Uno de los principales problemas es la fragmentación de los índices. El proceso de shrink puede reorganizar los datos de manera que los índices queden fragmentados, lo que puede degradar significativamente el rendimiento de las consultas. La fragmentación aumenta el tiempo de respuesta de las consultas y la carga sobre el sistema, lo cual es contraproducente en entornos de alta demanda.

Además, el shrink es un proceso que consume recursos, muchos recursos. Durante su ejecución, puede aumentar la carga de trabajo del servidor, afectando a otras operaciones. Tendremos que tener un especial cuidado en bases de datos grandes o en sistemas con recursos limitados. También es importante mencionar que el espacio liberado por el shrink no se puede recuperar sin expandir el archivo nuevamente, lo cual podría ser necesario si la base de datos vuelve a crecer rápidamente.

Prácticas Recomendadas para el Uso del Shrink

Dado que el shrink puede tener efectos adversos en el rendimiento, es crucial seguir ciertas prácticas recomendadas para minimizar sus desventajas. Primero, no debemos usar el shrink como una solución de gestión de espacio a largo plazo. Normalmente si ya hemos utilizado un espacio vamos a necesitarlo en un futuro. Por tanto, es mejor emplearlo en situaciones específicas, como después de la eliminación masiva de datos o en la gestión de archivos de log de transacciones. Como ya habrás adivinado, cuando hacemos un shrink del log de transacciones o de la tempdb no vamos a vernos afectados por la fragmentación de índices.

También es recomendable realizar el shrink en momentos de baja actividad para minimizar el impacto en el rendimiento del sistema. Posteriormente, deberemos realizar una reconstrucción de índices para solucionar la fragmentación causada por el proceso de shrink. Esto ayuda a restaurar el rendimiento óptimo de las consultas.

Por último, debemos tener una previsión del espacio que van a necesitar nuestros ficheros de bases de datos y reducirlos siempre dejando el suficiente espacio libre para unas escrituras óptimas.

Alternativas al Shrink

El shrink más eficiente es el que no se hace. En este sentido, existen alternativas que pueden ser más adecuadas en ciertas circunstancias. La gestión proactiva del espacio, como la eliminación de datos obsoletos o el archivo de datos antiguos, puede reducir la necesidad de realizar un shrink. Además, la implementación de prácticas de mantenimiento regulares, como el reindexado y la actualización de estadísticas, puede ayudar a mantener la base de datos en buen estado sin los efectos adversos del shrink.

Conclusión

El shrink en SQL Server es una herramienta que debe ser utilizada con precaución y entendimiento. Aunque puede ofrecer una solución rápida para liberar espacio en disco, sus efectos secundarios, como la fragmentación de índices y el consumo de recursos, deben ser cuidadosamente gestionados. Es fundamental considerar el shrink como una herramienta de última instancia y explorar alternativas y prácticas de mantenimiento regulares para mantener una base de datos saludable y eficiente. La clave está en el balance y en la planificación proactiva, asegurando que el rendimiento y la integridad de los datos no se vean comprometidos.

Si has llegado hasta aquí esperando ver cómo hacer un shrink te diré que este no era el objetivo de este artículo, tienes eso en un vídeo aquí. Hoy quería contarte todo lo que rodea a esta operación, para mi, es más importante saber cuándo y por que hacer un shrink que saber hacerlo.

Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

No te vayas aun. Hemos creado una página donde estamos recopilando todos estos artículos que dan respuesta a estas preguntas frecuentes de SQL Server. Pásate por aquí a echar un vistazo.

Publicado por Roberto Carrancio en Cloud, Rendimiento, SQL Server, 0 comentarios