Plataforma de Cómputo para Deep Learning basada en NVIDIA DGX A100
Concurso de Proyectos de Equipamiento Científico y Tecnológico Mediano 2022 (Responsible coordinator)
Actualmente, las áreas de Machine Learning (ML), y en particular DL, tienen una fuerte presencia en la UAI. Esto se ha visto potenciado por el gran desarrollo que ha tenido la universidad en Data Science los últimos años, lo cual le ha permitido posicionarse en el mundo universitario como un actor relevante en esta disciplina dentro de Chile y a nivel regional. Una dirección clave en el plan estratégico de la UAI es seguir fortaleciendo estas áreas. Es por esto que la plataforma solicitada es un cluster formado por dos nodos de cómputo NVIDIA DGX A100 interconectados por una red infiniband de alta velocidad. El DGX A100 realiza cómputo acelerado por GPU a través de 8 GPUs NVIDIA A100 Tensor Core comunicadas por un mecanismo de alta velocidad (NvLink). Su programación se basa en el modelo de paralelismo masivo (thread, bloque, grid) y se realiza con APIs como CUDA, OpenCL o librerías de más alto nivel (TensorFlow, Pytorch, Thrust, CUBLAS, CUFFT, etc). La tecnología Tensor Core permite que ciertas operaciones puedan expresarse como una serie de matrix-multiply-accumulate (MMA). Así, esta característica lleva a un rendimiento que es potencialmente casi 10 veces superior al modo normal de la GPU. El poder realizar cómputo acelerado por GPU, de forma tradicional y por Tensor Cores, abre las puertas a poder solucionar problemas que antes no era posible manejar de forma oportuna. Además, la alta eficiencia energética de las GPUs A100 se alinea con los principios de sustentabilidad con el medio ambiente de la UAI. Así, la propuesta actual busca equipar a la UAI con una plataforma GPU con el propósito de potenciar la docencia e investigación intra e inter facultades en temas de ML/DL y sus diversas aplicaciones, siempre de manera colaborativa y abierta con la comunidad científica nacional y colaboradores internacionales. En esa dirección, esta postulación tiene como instituciones asociadas al Instituto Milenio de Astrofísica (MAS) y al instituto Milenio Fundamento de los Datos (IMFD).