Otros

May

2024

Agenda semanal SoyDBA

Iniciamos una nueva semana con una agenda apasionante, esta semana va a ser muy especial para mí y todo es gracias a vosotros que día a día me apoyáis leyendo y compartiendo mi contenido. Creo que, gracias a vuestro constante apoyo y entusiasmo por aprender cosas nuevas, se está formando una gran comunidad de profesionales alrededor de este blog. Personalmente os estoy profundamente agradecido ya que este apoyo repercute directamente en mi crecimiento personal y desarrollo profesional. ¡GRACIAS POR ACOMPAÑARME EN ESTE MARAVILLOSO PROYECTO!

Ahora, sin más palabrería cursi, me gustaría compartir con vosotros la emocionante agenda de actividades que se nos presenta esta semana esperando que podáis vosotros también participar de ella

Noches de DBAs: primer hito en mi agenda semanal

Como primera actividad de esta semana estaré participando como ponente en el evento Noches de DBAs. Este evento es organizado por Alberto de Rossi para la comunidad de Power BI User Group de Lima en Perú. Es una gran oportunidad para aprender, compartir conocimientos y experiencias con otros profesionales del campo. Nos vamos a enfocar en el lado de la fuente de datos cuando usamos la plataforma de datos Microsoft. Conocer sobre la operación de las fuentes y cómo optimizarlas también es importante para mantener adecuadamente una solución de inteligencia de negocios con Power BI. En esa noche podréis asistir a dos presentaciones a cargo de experimentados DBA. Trataremos los siguientes temas:

Niveles de aislamiento en SQL Server y gestión de la concurrencia de los procesos, a cargo de Roberto Carrancio.
Cómo capturar y optimizar los querys ejecutados desde Power BI, a cargo de Alberto De Rossi

Ponentes:

Alberto De Rossi

Alberto es un profesional con más de 20 años de experiencia en tecnologías de la información, dedicado a la consultoría de proyectos relacionados con el diseño, implementación y administración de soluciones de datos e inteligencia de negocios, así como a la capacitación en Azure, Power BI y SQL Server. Cuenta en su haber con el reconocimiento MVP de Microsoft desde hace ya 6 años. Os dejo por aquí su perfil de MVP.

Roberto Carrancio

Roberto, el mismo que escribe estas líneas (y el resto del blog). Como ya sabéis soy DBA de SQL server con más de 10 años de experiencia en el sector. Durante este tiempo he tenido oportunidad de lidiar con proyectos en compañías de todos los tamaños y sectores, desde pymes hasta grandes multinacionales.

Agenda

Este evento tendrá lugar el Miércoles 22 de Mayo a las 18:30 hora de Perú (GMT-5), lo que en España es el Jueves 23 de Mayo a las 01:30. El evento será online, retransmitido en directo y la asistencia es gratuita, simplemente tenéis que apuntaros aquí para recibir el enlace con la invitación. Una vez concluidas las sesiones, quedarán disponibles abiertamente para su consulta en el canal de Youtube de Power BI User Group Lima. Os dejaré los enlaces en mis redes y posiblemente también en el blog.

Power Platform Madrid 2024 para cerrar la agenda semanal

Después de mi participación en el evento de Lima, asistiré presencialmente al evento Power Platform Madrid 2024 el sábado 25 por la mañana. En esta ocasión, estaré asistiendo como oyente, buscando aprender de otros expertos de la comunidad y mantenerme al día con las últimas tendencias y desarrollos en el sector. Os dejo la descripción del evento en el que podréis encontrar talleres prácticos el viernes 24 y más de 40 ponencias el sábado 25:

Bienvenido a la sesión presencial de Power Platform de Madrid 2024, el evento para profesionales y entusiastas de la tecnología, centrado en la potente herramienta que es Microsoft Power Platform.

Este evento representa una oportunidad única para aquellos que buscan conectar con otros miembros de la comunidad, compartir desafíos y soluciones, y expandir su red de contactos profesionales en un ambiente de colaboración y descubrimiento.

Ya sea que te estés iniciando en estas tecnologías o busques afianzar y expandir tu maestría, este evento está diseñado para inspirar y elevar tus capacidades.

El viernes 24 se celebrarán talleres prácticos dirigidos por grandes profesionales, y el sábado 25 sesiones divulgativas con todo un elenco de ponentes. Puedes consultar todos los detalles en la agenda del evento ¡No te lo pierdas!

Consulta aquí la agenda de talleres y sesiones

Compra aquí tu entrada.

Espero que esta semana llena de nuevas experiencias y aprendizajes para mi os resulte interesante también a vosotros. Me encantaría veros por ahí. Y, por supuesto, estaré aquí para compartir con vosotros todas las novedades y conocimientos adquiridos durante estos eventos. Para terminar, no os preocupéis, el blog va a seguir su programación habitual con artículos y video blogs. Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de Telegram y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

Abr

2024

DuckDB ¿Revolucionará los Data Lakes?

En un anterior análisis, exploramos las capacidades revolucionarias de Snowflake, una plataforma que ha transformado el almacenamiento y análisis de datos en la nube. Hoy, nos sumergimos en el mundo de DuckDB, una base de datos emergente que promete llevar la analítica de datos a un nuevo nivel de eficiencia y accesibilidad.

DuckDB: Un Vistazo al Futuro de la Analítica de Datos

DuckDB es un sistema de gestión de bases de datos SQL OLAP (procesamiento analítico en línea) que opera in-process. Es decir, se ejecuta dentro de la aplicación anfitriona, lo que elimina la necesidad de comunicaciones de red o procesos separados para la gestión de datos. Esta característica lo hace increíblemente rápido y fácil de implementar. Además, la compresión de cadenas y tipos de números enteros antes de la clasificación y agregación agrupada reduce el consumo de memoria, optimizando aún más el rendimiento.

DuckDB se distingue por su arquitectura columnar y su capacidad para ejecutar consultas analíticas complejas con una velocidad impresionante. Su integración sin fisuras con lenguajes de programación mayoritarios y su instalación en menos de 20 segundos en la mayoría de las plataformas lo convierten en una opción atractiva para desarrolladores y analistas de datos.

Con una instalación que promete ser más rápida que cualquier ave en picado, DuckDB se integra sin problemas con los principales lenguajes de programación y plataformas. Su diseño columnar-vectorizado es el secreto detrás de su velocidad relámpago, permitiendo ejecuciones paralelas y manejo de cargas de trabajo más grandes que la memoria disponible.

Por si esto os parece poco, DuckDB es completamente gratis. Sus desarrolladores trabajaban como funcionarios en Paises Bajos cuando empezaron el proyecto. Siempre han querido compartir sus avances con la comunidad por lo que distribuyen DuckDB bajo licencia MIT en Github.

Ventajas de DuckDB: Vuelo Alto en la Analítica

Una de las ventajas más notables de DuckDB es su simplicidad operativa. No requiere dependencias externas y se integra como una biblioteca C++ autónoma, lo que facilita su incorporación en proyectos más grandes. No hace falta instalar ningún software y la transferencia de datos tiene una gran velocidad ya que no necesita ni copiar los datos externos para procesarlos. Incluye, por ejemplo, un componente Python capaz de trabajar con datos Pandas sin importarlos ni copiarlos.

Además, admite código SQL con casi todas las características del estándar y ofrece todas las garantías ACID (Atomicidad, Consistencia, Aislamiento y Durabilidad). Los datos se almacenan en bases de datos persistentes en ficheros, admiten índices para agilizar las búsquedas y está completamente integrado con Python y R para funciones analíticas.

Velocidad

DuckDB está diseñado desde su concepción para trabajar con base de datos OLAP. Estos entornos de trabajo destacan por su gran cantidad de consultas complejas y de larga duración para procesar gran parte de los datos almacenados en el modelo de datos. Estamos hablando, por ejemplo, de operaciones con agregaciones de tablas enteras o uniones entre varias tablas grandes. Así mismo podemos intuir que las modificaciones en los datos afectarán a grandes cantidades de registros, con inserciones masivas o modificaciones que afecten a un gran porcentaje de los registros de las tablas.

Para tragarse tan ingente carga de trabajo y salir airosos de ello el equipo de duckDB ha trabajado en reducir la cantidad de ciclos de CPU que se van a utilizar optimizando al máximo las operaciones. Esto lo consiguen gracias a una novedosa tecnología como son los motores de ejecución de consultas vectorizados. Esto es lo que dicen en su documentación oficial:

DuckDB contains a columnar-vectorized query execution engine, where queries are still interpreted, but a large batch of values (a “vector”) are processed in one operation. This greatly reduces overhead present in traditional systems such as PostgreSQL, MySQL or SQLite which process each row sequentially. Vectorized query execution leads to far better performance in OLAP queries.

¿Os suena verdad? Es la misma idea detrás de los índices columnares de SQL Server y su procesamiento por lotes.

Inconvenientes: ¿Dónde se Moja el Pato?

No todo es un vuelo tranquilo para DuckDB. A pesar de su rendimiento impresionante para tamaños de datos pequeños y medianos, DuckDB aún no es tan bueno escalando a muchos núcleos de CPU como algunos de sus competidores.

En comparación con gigantes como Spark, Elasticsearch y MongoDB, DuckDB se destaca por su diseño de almacenamiento y ejecución columnar optimizado para consultas analíticas. Sin embargo, enfrenta limitaciones en escalabilidad y no está optimizado para cargas de trabajo intensivas de escritura de datos. A pesar de esto, su rendimiento en operaciones de lectura y análisis de datos es notablemente superior.

Conclusión

DuckDB ha llegado a los lagos de datos con un chapoteo impresionante, ofreciendo una solución analítica rápida y eficiente para muchos casos de uso. Aunque todavía puede que no sea el pato líder en cuanto a escalabilidad, su facilidad de uso y rendimiento lo convierten en un contendiente que no se puede ignorar. ¿Será DuckDB el próximo patito feo que se convierte en cisne en la analítica de datos? Solo el tiempo lo dirá, pero por ahora, este pato está aquí para quedarse.

Nos encontramos ante una era emocionante para la analítica de datos, y DuckDB es sin duda una tecnología a seguir de cerca. Con su continua evolución y compromiso con la mejora del rendimiento, DuckDB tiene el potencial de cambiar la forma en que las organizaciones acceden y analizan sus datos, marcando el comienzo de una nueva era de inteligencia de datos accesible y poderosa.

Te animo a investigar más sobre esta novedad y a explorar todas las posibilidades que ofrece. Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de LinkedIn y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

Abr

2024

Dimensionamiento correcto de un servidor

En nuestro trabajo como administradores de bases de datos, una de las tareas más cruciales y desafiantes a las que nos vamos a enfrentar es calcular el dimensionamiento de un servidor SQL Server. Este proceso implica determinar la cantidad de recursos necesarios para que el servidor funcione de manera óptima, teniendo en cuenta factores como el número de usuarios, la cantidad de datos y las operaciones de la base de datos.

Consideraciones Iniciales

El dimensionamiento adecuado de un servidor SQL Server no es una tarea sencilla. Requiere un conocimiento profundo de las características y capacidades del servidor, así como de las necesidades y demandas de la base de datos y las aplicaciones que se ejecutan en él. Antes de sumergirnos en cálculos y métricas, es esencial entender la carga de trabajo que manejará nuestro nuevo servidor. Esto implica analizar el volumen de transacciones, la concurrencia de usuarios, y los patrones de acceso a los datos. Solo con un conocimiento profundo de estas variables podemos comenzar a esbozar los requisitos de nuestro servidor.

Si el nuevo servidor se va a usar para sustituir uno ya existente lo vamos a tener mucho más fácil, podremos basarnos en el estado actual y analizar sus puntos flacos para tratar de mejorarlos. Hablamos de migraciones en este otro artículo.

El verdadero reto lo tendremos cuando nos enfrentemos a un escenario nuevo, desde 0. En este caso, será crucial la colaboración de los equipos responsables de los datos o de las aplicaciones, en especial de un buen project manager, además de otros departamentos de negocio que nos puedan indicar previamente las expectativas de carga de trabajo y necesidades de almacenamiento. En un mundo ideal, todas estas necesidades estarían especificadas en la documentación del proyecto y no tendríamos que hacer más preguntas. Pero, como eso no es lo que nos solemos encontrar (y menos mal, porque así tengo algo de lo que escribiros), vamos a analizar en profundidad que debemos tener en cuenta.

Aspectos a evitar

A lo largo de mis años de experiencia me he enfrentado a las suficientes migraciones y nuevos despliegues como para haber elaborado una lista con los aspectos que si o si debo evitar si quiero llevar el proyecto a buen puerto. Os comparto un pequeño resumen:

Subestimar el crecimiento: Y no solo me refiero a los datos, eso es quizá lo de menos. Debemos tener una idea clara de las necesidades de recursos del servidor para que un futuro aumento de la carga de trabajo no nos degrade el rendimiento o, directamente, tumbe el servicio.
Falta de monitorización: Es imprescindible monitorizar completamente el servidor tanto antes de la migración si es el caso, como tras la implementación, SIEMPRE. Si disponemos de un servidor antiguo que tenemos que migrar, no monitorizarlo y conocer su comportamiento completamente nos llevará a problemas en un futuro. No hagamos conjeturas, y apoyémonos en datos.
No conocer los objetivos comerciales: Este punto está muy ligado al primero pero tiene su razón de ser como punto independiente. Puede que el equipo de desarrollo haya desplegado una aplicación para los 500 clientes actuales y esos sean los datos que tenemos nosotros pero, si desde la dirección se han marcado el objetivo de doblar esa cifra cada ejercicio, pronto nuestro servidor no dará más de sí.
Sobreaprovisionamiento: Puede parecer una buena opción visto lo visto pero nada más lejos de la realidad. Aprovisionar más recursos de los que necesitamos o vamos a necesitar a corto plazo será un malgasto de recursos y no nos dejará en buen lugar como profesionales.

Cómo calcular un dimensionamiento correcto

Ahora que ya sabemos los puntos clave que debemos evitar vamos a ver uno a uno como debemos hacerlo.

Carga de trabajo

Como ya hemos dicho, comprender la carga de trabajo que afrontará nuestro servidor es el aspecto fundamental para un correcto dimensionamiento. Si hablamos de un servidor completamente nuevo nos tendremos que basar en las necesidades que nos indiquen los responsables del proyecto y cobrarán más sentido el resto de apartados. Si por el contrario estamos sustituyendo un servidor existente este punto es de vital importancia. Usaremos todos los recursos que tengamos a nuestra disposición y en ocasiones un trabajo de monitorización previo nos facilitará el trabajo.

En este sentido, a mi me gusta tener siempre en mis servidores un proceso que controle el crecimiento de los ficheros de base de datos (usando la vista sys.master_files por ejemplo) y que lo persista en una tabla de configuración. De esta manera a la hora de calcular el dimensionamiento podremos hacernos una idea clara del histórico de crecimiento de nuestras bases de datos.

Para calcular las necesidades de otros recursos echaremos mano de las DMV que SQL Server pone a nuestra disposición, de Query Store o del monitor de rendimiento de Windows. Prestaremos especial atención a los tiempos de espera de nuestras consultas para, en la medida de lo posible, acabar con esos cuellos de botella.

Estrategia proactiva

Las bases de datos no son objetos estáticos, están continuamente cambiando y como tal, nosotros tendremos que monitorizar y verificar que las previsiones iniciales que hicimos son correctas. No solo hablo de las pruebas antes del “go live” sino de todo el ciclo de vida del servidor. Una buena monitorización nos permitirá pronosticar una futura necesidad de recursos y anticiparnos a ese dimensionamiento antes de que exista degradación en el rendimiento del servidor.

El mercado está repleto de soluciones integrales de monitorización de rendimiento de SQL Server pero, cuando el presupuesto no lo permite, tendremos que ser creativos con las soluciones nativas sin dejar de lado esta tarea. Nuevamente las DMV de SQL Server, Query Store y el monitor de rendimiento de Windows serán nuestros aliados. Además, si persistimos estos datos, seremos capaces de analizar tendencias y predecir comportamientos en un futuro (de esto sabe mucho la gente de BI).

Objetivos Comerciales y dimensionamiento

No trabajamos solos, en la mayoría de los casos nuestras bases de datos son una pieza clave para el desempeño de la actividad de negocio. Sería de necios pensar que podemos hacer nuestro trabajo sin alinearnos con el resto de departamentos e ignorando los objetivos comerciales de nuestra organización. En este sentido, cuanto mayor sea nuestro conocimiento del sector, de la empresa en particular y de sus objetivos mejores previsiones podremos hacer.

Igualmente, esto va en los dos sentidos, es nuestra responsabilidad hacernos valer y que los jefes que toman las decisiones sepan que tienen que contar con nosotros. He trabajado en sitios donde no era así, se tomaban decisiones de negocio sin comunicar los objetivos comerciales al departamento de IT y sin trasladar las necesidades de crecimiento. ¿De verdad piensas que tus sistemas están preparados para asumir de la noche a la mañana una fusión que duplique la cantidad de clientes?

Podríamos resumir este apartado en tres aspectos fundamentales, conoce los objetivos comerciales, involucra a todas las partes interesadas en la planificación y pronostica de manera adecuada la capacidad de los sistemas antes de que sea tarde.

Escalabilidad, prepárate para un ajuste en el dimensionamiento

Como último punto a tener en cuenta pero no por ello menos importante tenemos que ser capaces de diseñar un sistema capaz de crecer. Ya hemos dicho que nuestras bases están vivas y cambian con el tiempo, normalmente, si todo va bien, crecerán. También hemos visto que sobredimensionar de primeras un sistema puede ser un malgasto de recursos. Aquí es donde entra en juego la escalabilidad. No voy a profundizar más en el concepto porque ya le hemos dedicado un artículo completo al tema que puedes leer aquí.

Es importante que conozcas y que trabajes conjuntamente con el equipo de infraestructura para brindar a tus servidores de esta capacidad. Y no solo con sistemas, confirma con los equipos de desarrollo si sus aplicativos están preparados para un escalado horizontal. Si es así, considera planificar nuevas máquinas, licencias y todo lo necesario para asumir el crecimiento futuro, aunque solo sea una planificación y no se implante a corto plazo es importante tenerlo documentado.

Sin embargo, este escenario no es lo más común. Normalmente priorizaremos un escalado vertical, aumentando los recursos de nuestro servidor siempre que sea posible. Aquí entra en juego ese trabajo conjunto con los compañeros de sistemas del que estábamos hablando antes. No es lo mismo un escalado vertical en una máquina física que en una virtual o en la nube. Asegúrate de que tienes el presupuesto y la capacidad para crecer y hacer frente a las futuras capacidades del servicio.

Conclusión

El dimensionamiento adecuado de un servidor SQL Server es esencial para garantizar su rendimiento y eficiencia. Al tener en cuenta factores como la carga de trabajo, el rendimiento, la capacidad de almacenamiento y la concurrencia, y al utilizar las herramientas y técnicas adecuadas, podemos hacer una estimación precisa de los recursos necesarios para nuestro servidor. Aun así, el trabajo no termina ahí, las bases de datos están en constante crecimiento y tenemos que ser capaces de adelantarnos a las necesidades de recurso y redimensionar el servidor correctamente.

Espero que este artículo te haya sido útil y que te ayude a dimensionar correctamente tus SQL Server. Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de LinkedIn y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

Mar

2024

Solución a problemas de Parameter Sniffing

Seguimos con el tema de ayer sobre el Parameter Sniffing en SQL Server y, como prometimos, vamos a ver cómo podemos hacer para controlarlo y beneficiarnos de ello minimizando sus inconvenientes. Es este, por tanto, una segunda parte del artículo de ayer que os recomiendo encarecidamente leer antes de continuar con este. Como ya sabemos, si la distribución de nuestros datos es relativamente equitativa, un reaprovechamiento del plan de ejecución de una consulta será muy beneficioso para el rendimiento. De lo contrario, si la distribución de datos tiene gran variación, reutilizar un plan hará que este no sea el óptimo para esa ocasión.

¿Es malo el parameter sniffing?

Empecemos por el principio, la pregunta que todos os estáis haciendo ¿es malo el parameter sniffing para el rendimiento? Para mi la respuesta es no, aun con todos sus inconvenientes, conociendo su comportamiento podremos beneficiarnos en gran medida de ello. En la mayoría de escenarios OLTP, el comportamiento normal del parameter sniffing mejora el rendimiento de las consultas. Para los escenarios en los que nos encontramos con inconvenientes, normalmente será en algún procedimiento almacenado y no todos y, por suerte, tenemos varias alternativas para solventar el problema.

Identificando el problema del parameter sniffing

El primer paso cuando tenemos un problema es reconocerlo y en esta ocasión será sencillo. Si no tenemos habilitado la parametrización forzada bastará con ejecutar nuestra consulta fuera del procedimiento almacenado para comparar los planes. En otras ocasiones los usuarios nos darán pistas sin quererlo, como cuando unos clientes me decían que tras reiniciar el servidor el procedimiento volvía a funcionar. Reiniciar, por si solo no resuelve nada y si no somos capaces de saber que provocaba el problema antes del reinicio nos volveremos a encontrar en esa misma situación antes o después. Pero esta discusión es para otra ocasión, volvamos a mi anécdota.

Lo que les pasaba a mis clientes es que si la primera ejecución del plan de la caché era con un parámetro con un volumen de datos muy inferior a la media, el plan cacheado iba a ir mal para todas las siguientes ejecuciones. Como la caché de SQL se vacía al reiniciar y ellos estaban esperando el reinicio para ejecutar el SP con los parámetros que antes daban problemas ya se almacenaba en caché el plan correcto y todo iba bien hasta que por presión de memoria ese plan se borraba y la siguiente ejecución era de un parámetro distinto.

Soluciones al problema del parameter sniffing

Bien, sabemos que el causante de nuestro problema de rendimiento es un problema de parameter sniffing. Ahora tenemos que solucionarlo. Para ello os voy a proponer distintas soluciones.

No cambiar nada

Sabemos lo que está pasando y que es el comportamiento natural de SQL Server, expliquemos todo esto a nuestros usuarios y que se conformen con el resultado. No va a funcionar, ¿verdad?. Habéis soltado una carcajada al leerlo que se ha oído en la luna, que os conozco. Los usuarios de SQL necesitan sus datos y los necesitan rápido y por mucho que nosotros les contemos no se van a conformar. Y están en su derecho así que descartemos este punto y vayamos a por los siguientes.

Pasa el marrón a otro

La siguiente solución que tengo que poner, pero que, al igual que la anterior, tampoco os recomiendo es pasar la pelota al equipo que desarrolla el código del procedimiento. Podríais explicarles lo que está pasando y que creen un SP distinto para cada parámetro. Como os digo esto es una mala idea, malísima en realidad. Acaba completamente con todas las ventajas de un procedimiento almacenado y ni hablar de si problema si es causado por tener activada la parametrización forzada. Descartemos este punto también por favor.

Actualiza tu SQL

Ya comentamos ayer que el las últimas versiones de SQL Server (a partir de 2019) entran en juego los planes de ejecución con joins adaptativos lo que nos permitirá que pasadas unas ejecuciones se persistirá un plan dinámico en caché con varias alternativas en función de los parámetros. Esto es un avance, sin embargo, aún no lo veo una solución pues necesitas de varias ejecuciones lentas para que SQL se de cuenta de lo que pasa y en un entorno con gran cantidad de consultas donde los planes en caché no duran tanto como nos gustaría puede no ser una solución.

Recompilaciones del procedimiento

En este punto, ya hemos descartado no hacer nada y también crear varios procedimientos almacenados, veamos cómo podemos hacer para que nuestro procedimiento problemático rinda como debería. Una de estas soluciones es crear el procedimiento para que no haga uso de los planes en caché y recompile siempre el plan de ejecución. Esto lo haremos en la declaración del procedimiento con la sugerencia de procedimiento almacenado RECOMPILE. Por ejemplo:

CREATE PROCEDURE GET_OrderDetail
@id INT
WITH RECOMPILE
AS
SELECT *
FROM Sales.SalesOrderDetail 
WHERE ProductID = @id

Con esa simple sugerencia conseguiremos que los planes de ejecución de todas las consultas del procedimiento almacenado se recopilen antes de la ejecución, lo que nos supondrá un mayor coste de CPU pero nos garantizará un plan óptimo. Si es uno o unos pocos procedimientos en los que tenemos problemas al final compensa.

Recompilaciones de las consultas

Si el problema lo estamos teniendo fuera de un procedimiento almacenado por tener habilitada la parametrización forzada o si queremos hilar más fino porque sabemos que solo una de las muchas consultas de un procedimiento es la que tiene problemas podemos hilar más fino y aplicar la sugerencia RECOMPILE a nivel de consulta. Por ejemplo

CREATE PROCEDURE GET_OrderDetail
@id INT
AS
SELECT *
FROM Sales.SalesOrderDetail 
WHERE ProductID = @id
OPTION (RECOMPILE)

INSERT INTO log_sp (SP_Name, Fecha) VALUES ('GET_OrderDetail', GETDATE())

En este ejemplo tenemos dos consultas, un select y un insert, sin embargo solo recopilaremos el plan de ejecución de la primera.

Optimizado para valor

Otra de las opciones que tenemos a nivel de consulta es utilizar una sugerencia que indique que calcule el plan de ejecución para un valor concreto y no para el que se pase como parámetro de nuestro SP. En algunas ocasiones puede ser una solución pero a mi no me gusta porque genera planes ultra dimensionados cuando no son necesarios y requiere mucho mantenimiento a medida que los datos cambian. Si recordáis el ejemplo del almacén que vimos ayer es como si desplegamos todos los recursos necesarios para mover maquinaria industrial pesada para al final realmente mover un clavo. Aun así os dejo un ejemplo de cómo sería:

CREATE PROCEDURE GET_OrderDetail
@id INT
AS
SELECT *
FROM Sales.SalesOrderDetail 
WHERE ProductID = @id
OPTION  (OPTIMIZE FOR (@ProductID=897))

Conclusión

Aunque siempre digo que no debemos influir sobre el comportamiento normal de SQL Server en estos casos siempre hago una excepción. Nosotros conocemos nuestros datos (o deberíamos) y cuando el parameter sniffing no termine de adaptarse a nuestras necesidades no debemos tener miedo de actuar. Usa todas las herramientas que SQL pone a nuestra disposición y anticipate a las llamadas de usuarios descontentos, Query Store tiene una vista de consultas recursivas que nos mostrará estos casos de una manera muy cómoda. Añade tus sugerencias de consulta o procedimientos y no dejes que nada frene tus consultas.

Espero que este artículo te haya sido útil y que te ayude a optimizar el rendimiento de tus consultas en SQL Server. Si tenéis alguna duda o sugerencia, podéis dejarla en Twitter, por mail o dejarnos un mensaje en los comentarios. Y recuerda que también tenemos un grupo de LinkedIn y un canal de YouTube a los que te puede unir. ¡Hasta la próxima!

Mar

2024

Introducción a Snowflake: ¿Qué es y por qué lo necesitas?

Snowflake es un sistema de gestión de bases de datos (SGBD) que se ejecuta en la nube y que ofrece una solución innovadora para el almacenamiento y el análisis de datos. En este artículo, vamos a explicarte qué es Snowflake, cómo funciona, cuáles son sus ventajas y cómo puedes empezar a usarlo para tus proyectos.

¿Qué es Snowflake?

Snowflake es un servicio de almacenamiento y procesamiento de datos en la nube que se basa en el concepto de data warehouse (almacén de datos). Un data warehouse es una base de datos centralizada que contiene los datos históricos y actuales de una organización, provenientes de diversas fuentes y sistemas. El objetivo de un data warehouse es facilitar el análisis y la toma de decisiones basadas en los datos.

Snowflake se diferencia de otros servicios de data warehouse en la nube por su arquitectura única, que separa el almacenamiento del procesamiento. Esto significa que los datos se almacenan en un espacio compartido y securizado, mientras que el procesamiento se realiza mediante unidades independientes llamadas warehouses (almacenes). Cada warehouse puede escalar de forma automática y elástica según la demanda, sin afectar al rendimiento ni a la disponibilidad de los datos.

Snowflake como SGBD

Snowflake es un SGBD que se basa en el modelo de datos relacional, pero que incorpora características propias de los sistemas NoSQL, como la escalabilidad, la flexibilidad y el rendimiento. Además, Snowflake se diferencia de otros SGBD en la nube por su arquitectura única, que se compone de tres capas:

Capa de almacenamiento: donde se guardan los datos en formato comprimido y columnar, aprovechando las ventajas de los servicios de almacenamiento en la nube, como Amazon S3 o Microsoft Azure Blob Storage.
Capa de computación: donde se procesan las consultas de los usuarios, utilizando unidades de procesamiento independientes llamadas almacenes virtuales (virtual warehouses), que se pueden escalar horizontal y verticalmente según la demanda.
Capa de servicios: donde se gestionan aspectos como la seguridad, el acceso, la metadatos, el caché y la optimización de las consultas.

Otras características

Además, Snowflake ofrece una serie de características que lo hacen más flexible, eficiente y seguro que otros servicios similares. Algunas de estas características son:

Soporta múltiples formatos de datos, desde estructurados (como tablas) hasta semi-estructurados (como JSON o XML).
Permite crear múltiples vistas lógicas de los datos, llamadas databases (bases de datos), schemas (esquemas) y tables (tablas), sin duplicar ni mover los datos físicamente.
Facilita el intercambio y la colaboración entre diferentes usuarios y organizaciones, mediante el uso de shares (comparticiones) y roles (roles).
Implementa un sistema de seguridad basado en encriptación, autenticación y autorización, que garantiza la protección y el control de los datos en todo momento.
Integra fácilmente con otras herramientas y servicios de la nube, como AWS, Azure o Google Cloud Platform, así como con aplicaciones de business intelligence (BI) o machine learning (ML).

Ventajas de Snowflake

Gracias a esta arquitectura, Snowflake ofrece una serie de beneficios para los usuarios, como:

Separación entre el almacenamiento y la computación: lo que permite pagar solo por lo que se usa y ajustar los recursos según las necesidades.
Concurrencia ilimitada: lo que significa que se pueden ejecutar múltiples consultas al mismo tiempo sin afectar al rendimiento ni generar cuellos de botella.
Elasticidad: lo que implica que se puede escalar el sistema fácilmente, tanto en capacidad como en rendimiento, sin tener que realizar cambios en el código ni en la estructura de los datos.
Compatibilidad: lo que hace que se pueda acceder a los datos desde diferentes herramientas y lenguajes, como SQL, Python, R, Spark, Power BI, Tableau o Looker.
Seguridad: lo que garantiza que los datos están protegidos por cifrado, autenticación, autorización y auditoría.

¿Por qué necesitas Snowflake?

Snowflake es una solución ideal para las organizaciones que quieren aprovechar el potencial de los datos en la nube, sin tener que preocuparse por la infraestructura, el mantenimiento o la escalabilidad. Con Snowflake, puedes:

Almacenar y procesar grandes cantidades de datos con rapidez y eficiencia, gracias a su arquitectura optimizada para la nube.
Acceder y analizar los datos desde cualquier lugar y dispositivo, mediante una interfaz web o una API.
Obtener insights valiosos para tu negocio, mediante consultas SQL o herramientas de BI o ML integradas.
Reducir los costes operativos y optimizar los recursos, pagando solo por lo que usas y ajustando el tamaño de los warehouses según tus necesidades.
Mejorar la calidad y la fiabilidad de los datos, mediante procesos de limpieza, transformación y validación.
Fomentar la innovación y la competitividad, creando nuevos productos y servicios basados en los datos.

¿Cómo empezar a usar Snowflake?

Para empezar a usar Snowflake, lo primero que hay que hacer es crear una cuenta en su página web y elegir el plan que mejor se adapte a las necesidades del proyecto. Hay diferentes planes disponibles, desde el gratuito (Snowflake Free Trial) hasta el empresarial (Snowflake Enterprise).

Una vez creada la cuenta, se puede acceder al panel de control (Snowflake Web Interface), donde se pueden realizar diferentes acciones, como crear bases de datos y esquemas, cargar datos desde diferentes fuentes, crear almacenes virtuales y asignarles recursos, ejecutar consultas SQL y ver los resultados o monitorizar el uso y el rendimiento del sistema

Además del panel de control, también se puede interactuar con Snowflake desde otras interfaces, como la línea de comandos (SnowSQL), el conector JDBC o ODBC, su API REST o los drivers para diferentes lenguajes (Python, Java, Node.js, etc.)

¿Cómo usar Snowflake en las nubes de Azure o AWS?

Snowflake está disponible en las principales plataformas de nube pública, como Azure o AWS. Esto significa que se puede elegir la nube que mejor se adapte a las preferencias y requisitos del proyecto. Además, se puede aprovechar las características y servicios específicos de cada nube, como la integración con otros productos o la disponibilidad regional.

Para usar Snowflake en Azure o AWS, hay que seguir unos pasos similares a los que se describen a continuación:

Crear una cuenta en Snowflake y elegir el plan adecuado.
Elegir la región y la nube donde se quiere desplegar Snowflake.
Crear una base de datos y un esquema en Snowflake.
Cargar los datos desde la nube o desde otras fuentes externas.
Crear un almacén virtual y asignarle los recursos necesarios.
Conectar Snowflake con las herramientas o lenguajes que se quieran usar para acceder a los datos.

Para aprender más sobre cómo usar Snowflake, te recomendamos que consultes la documentación oficial, donde encontrarás guías, tutoriales y ejemplos prácticos. También puedes visitar el blog de Snowflake, donde podrás leer artículos sobre las últimas novedades y casos de éxito del servicio.

Conclusión

Snowflake es un SGBD de datos en la nube que permite almacenar, procesar y analizar grandes volúmenes de información de forma rápida, eficiente y segura. Con Snowflake, puedes crear una arquitectura de datos moderna y escalable, que te ayude a obtener insights valiosos para tu negocio y a impulsar la innovación y la competitividad. Si quieres empezar a usar Snowflake, solo tienes que crear una cuenta en su página web y seguir los pasos que te hemos indicado en este artículo. Puedes probarlo gratis durante 30 días, visita su página web oficial.

Mar

2024

El futuro de los DBAs: Tendencias y predicciones

La administración de bases de datos es una profesión que requiere de conocimientos técnicos, experiencia y capacidad de adaptación. Los DBAs somos los responsables de garantizar el correcto funcionamiento, la seguridad y el rendimiento de los sistemas de información que almacenan y procesan grandes cantidades de datos. Pero, ¿Qué nos espera a los administradores de bases de datos en el futuro? ¿Qué tendencias y predicciones se pueden anticipar en este campo tan dinámico y cambiante? En este artículo, vamos a analizar algunos de los aspectos más relevantes que marcarán el rumbo de la administración de bases de datos en los próximos años.

La nube como escenario principal de un futuro cercano

Una de las tendencias más evidentes y consolidadas en el ámbito de la administración de bases de datos es el uso de la nube como plataforma para alojar y gestionar los datos. La nube ofrece ventajas como la escalabilidad, la flexibilidad, la disponibilidad y la reducción de costes, que la hacen muy atractiva para las empresas que necesitan almacenar y analizar grandes volúmenes de datos.

La nube también supone un reto para los administradores de bases de datos, que debemos adaptarnos a las características y requerimientos específicos de cada proveedor y servicio cloud. Además, la nube implica una mayor complejidad en la gestión de la seguridad, el cumplimiento normativo y la integración con otros sistemas.

Los administradores de bases de datos debemos estar preparados para trabajar con diferentes tipos de bases de datos en la nube, como las relacionales, las no relacionales, las híbridas o las distribuidas. Asimismo, debemos conocer las herramientas y servicios que facilitan la migración, la monitorización, el respaldo y la recuperación de los datos en la nube.

La inteligencia artificial del futuro como aliada

Otra tendencia que está revolucionando el mundo de la administración de bases de datos es la aplicación de la inteligencia artificial (IA) para optimizar y automatizar diversas tareas y procesos. La IA puede ayudarnos a los administradores de bases de datos a mejorar el rendimiento, la eficiencia y la calidad de los sistemas de información.

La Inteligencia Artificial puede contribuir a mejorar aspectos como:

La configuración y el ajuste de los parámetros y recursos de las bases de datos.
La detección y resolución de problemas e incidencias.
La prevención y mitigación de riesgos y amenazas.
La generación y análisis de informes y métricas.
La recomendación y aplicación de mejores prácticas.

La IA también puede facilitarnos el aprendizaje y la actualización continua a los administradores de bases de datos, al proporcionarnos información relevante, sugerencias y feedback sobre su trabajo. Además, la IA puede permitir una mayor colaboración e interacción entre los administradores de bases de datos y otros profesionales involucrados en el ciclo de vida de los datos.

Entrevista de trabajo con Inteligencia Artificial

La diversidad como realidad

Un tercer aspecto que caracteriza el futuro de la administración de bases de datos es la diversidad. La diversidad se refiere tanto a los tipos y formatos de los datos como a las fuentes y aplicaciones que los generan y consumen.

Los administradores de bases de datos debemos estar capacitados para trabajar con diferentes tipos de datos, como los estructurados, los no estructurados, los semiestructurados, los temporales, los espaciales o los multimedia. Cada tipo de dato tiene sus propias particularidades y desafíos en cuanto a su almacenamiento, procesamiento, análisis y visualización.

Los administradores de bases de datos también debemos estar familiarizados con las diversas fuentes y aplicaciones que producen y utilizan los datos, como las redes sociales, los dispositivos móviles, los sensores, las cámaras, los asistentes virtuales o las plataformas de comercio electrónico. Estas fuentes y aplicaciones generan una gran cantidad y variedad de datos, que requieren de una gestión ágil, eficaz y segura.

Conclusión

La administración de bases de datos es una profesión apasionante, que ofrece múltiples oportunidades y desafíos. Los administradores de bases de datos debemos estar al día de las tendencias y predicciones que marcan el futuro de nuestro campo, y contar con las habilidades y competencias necesarias para afrontarlos con éxito.

Mar

2024

Cómo manejar el crecimiento de los datos: Estrategias y soluciones

Los datos son el activo más valioso de cualquier organización, pero también suponen un gran desafío para nosotros, los administradores de bases de datos (DBAs). El crecimiento exponencial de los datos, impulsado por la digitalización, el internet de las cosas, el big data y la inteligencia artificial, requiere soluciones eficientes y escalables que garanticen el rendimiento, la disponibilidad y la seguridad de las bases de datos.

En este artículo, vamos a explorar algunas de las estrategias y soluciones que los DBAs podemos implementar para manejar el crecimiento de los datos en nuestras bases de datos, una de las plataformas de gestión de datos más populares y robustas del mercado. Veremos las tendencias y predicciones que marcarán el futuro de las bases de datos, y cómo podemos adaptarnos a ellas con éxito.

¿Qué es el crecimiento de los datos y por qué es un problema?

El crecimiento de los datos se refiere al aumento constante del volumen, la variedad y la velocidad de los datos que se generan, almacenan y procesan en las organizaciones. Según un estudio de IDC, se espera que el volumen global de datos alcance los 175 zettabytes en 2025, lo que supone un incremento del 61% respecto a 2018.

Este crecimiento implica varios retos para nosotros como DBAs, entre los que se encuentran:

El aumento de los costes de almacenamiento, infraestructura y licencias.
La disminución del rendimiento y la capacidad de respuesta de las consultas y las aplicaciones.
La complejidad de gestionar múltiples fuentes, formatos y tipos de datos.
La dificultad de garantizar la calidad, la integridad y la seguridad de los datos.
La necesidad de cumplir con las normativas legales y regulatorias sobre la protección y el uso de los datos.

Para afrontar estos retos, los DBAs debemos adoptar estrategias y soluciones que nos permitan optimizar el uso de los recursos, mejorar el rendimiento y la disponibilidad, y facilitar la administración y el mantenimiento de las bases de datos.

Estrategias y soluciones para manejar el crecimiento de los datos

Existen diversas estrategias y soluciones que los DBAs podemos aplicar para manejar el crecimiento de los datos en nuestras bases de datos, dependiendo del contexto, las necesidades y los objetivos de cada organización. A continuación, vamos a describir algunas de las más relevantes:

Escalado vertical: Consiste en aumentar la capacidad del servidor donde se aloja la base de datos, añadiendo más memoria, procesador o disco. Esta solución es sencilla de implementar, pero tiene limitaciones físicas y económicas. Además, no resuelve el problema de la disponibilidad, ya que si el servidor falla, se pierde el acceso a la base de datos.
Escalado horizontal: Consiste en distribuir la carga de trabajo entre varios servidores que contienen réplicas o particiones de la base de datos. Esta solución permite mejorar el rendimiento, la disponibilidad y la escalabilidad, ya que se puede añadir o quitar servidores según la demanda. Sin embargo, requiere una mayor complejidad en la configuración, la sincronización y el balanceo de carga.
Bases de datos distribuidas: Consisten en sistemas que almacenan y procesan los datos en múltiples nodos independientes, que pueden estar ubicados en diferentes lugares geográficos. Estos sistemas ofrecen ventajas como la tolerancia a fallos, la elasticidad y la capacidad de manejar grandes volúmenes y variedades de datos. No obstante, presentan desafíos como la consistencia, la latencia y la seguridad.
Bases de datos híbridas: Consisten en sistemas que combinan diferentes tipos o modelos de bases de datos, como relacionales, no relacionales o en memoria. Estos sistemas permiten aprovechar las fortalezas y compensar las debilidades de cada tipo o modelo según el caso de uso. Por ejemplo, se puede usar una base de datos relacional para almacenar los datos estructurados y críticos para el negocio, y una base de datos no relacional para almacenar los datos no estructurados o dinámicos.

Tendencias y predicciones sobre el futuro de las bases de datos

El crecimiento de los datos es una realidad que seguirá marcando el futuro de las bases de datos, y que nos exigirá a los DBAs estar al día de las tendencias y predicciones que se perfilan en el horizonte. Algunas de las más destacadas son:

El auge de la nube: La nube se ha convertido en una opción cada vez más atractiva y accesible para alojar y gestionar las bases de datos, ya que ofrece beneficios como la reducción de costes, la flexibilidad, la escalabilidad y la seguridad. Según Gartner, se espera que el mercado de servicios de bases de datos en la nube crezca un 23% anual hasta 2025.
La importancia de la inteligencia artificial: La inteligencia artificial (IA) es una herramienta clave para extraer valor de los datos, mediante técnicas como el aprendizaje automático, el procesamiento del lenguaje natural o la visión artificial. La IA también puede ayudarnos a los DBAs a optimizar y automatizar tareas como el diseño, monitorización, ajuste o la recuperación de las bases de datos.
La convergencia de los datos: Los datos ya no se pueden tratar como entidades aisladas, sino como parte de un ecosistema integrado y conectado. Esto implica que las bases de datos deben ser capaces de interactuar con otras fuentes, plataformas y servicios de datos, tanto internos como externos, para ofrecer una visión holística y actualizada de la información.
La ética de los datos: Los datos no solo tienen un valor económico, sino también social y moral. Por ello, los DBAs debemos ser conscientes de las implicaciones éticas que conlleva el manejo de los datos, y respetar los principios de transparencia, privacidad, responsabilidad y equidad. Asimismo, debemos cumplir con las regulaciones legales y normativas que rigen el uso y la protección de los datos.

Conclusión

El crecimiento de los datos es un fenómeno imparable que plantea grandes oportunidades y desafíos para las organizaciones y los DBAs. Para aprovechar las oportunidades y superar los desafíos, es necesario adoptar estrategias y soluciones que permitan manejar el crecimiento de los datos en nuestra base de datos de forma eficaz y eficiente. Además, es imprescindible estar al tanto de las tendencias y predicciones que marcarán el futuro de las bases de datos, y adaptarse a ellas con agilidad e innovación. Solo así se podrá garantizar el éxito y la competitividad en un mundo cada vez más digital y basado en los datos.

Otros

DuckDB ¿Revolucionará los Data Lakes?

DuckDB: Un Vistazo al Futuro de la Analítica de Datos

Ventajas de DuckDB: Vuelo Alto en la Analítica

Velocidad

Inconvenientes: ¿Dónde se Moja el Pato?

Conclusión

Solución a problemas de Parameter Sniffing

¿Es malo el parameter sniffing?

Identificando el problema del parameter sniffing

Soluciones al problema del parameter sniffing

No cambiar nada

Pasa el marrón a otro

Actualiza tu SQL

Recompilaciones del procedimiento

Recompilaciones de las consultas

Optimizado para valor

Conclusión

Cómo manejar el crecimiento de los datos: Estrategias y soluciones

¿Qué es el crecimiento de los datos y por qué es un problema?

Estrategias y soluciones para manejar el crecimiento de los datos

Tendencias y predicciones sobre el futuro de las bases de datos

Conclusión

NO TE PIERDAS NADA

Colabora con nosotros

Entradas recientes

Etiquetas

Comentarios recientes