A jornada de uma indústria rumo à análise preditiva em nível de sistema para o data center começa agora!
Por: Admin - 28 de Setembro de 2023
A indústria de data centers tem uma lista definida de desafios que são bem conhecidos e divulgados há anos:
- Aumento da digitalização alimentando o aumento da demanda por data centers
- Manutenção confiável e operações econômicas no contexto atual de crescentes preocupações com sustentabilidade e mudanças climáticas
- Modernização de instalações legadas para acompanhar a evolução tecnológica e os requisitos de eficiência energética
- Habilidades contínuas da força de trabalho e escassez de talentos
Acrescente-se a isto os tão esperados desenvolvimentos em torno da inteligência artificial (IA) e as suas implicações, incluindo uma maior procura pela capacidade dos centros de dados. A IA requer computação de alto desempenho (servidores, armazenamento e rede), que requer mais energia e produz mais calor. A combinação de todos estes desafios (ou oportunidades) cria um apelo à ação mais urgente para que a indústria dos centros de dados colabore no desenvolvimento de soluções pragmáticas e sustentáveis.
A atual dinâmica de mercado em rápida evolução para a indústria de data centers
A dinâmica do mercado para a indústria dos centros de dados está a evoluir a um ritmo anteriormente inimaginável – francamente, o mercado dos centros de dados está a explodir e espera-se que continue este crescimento acelerado durante os próximos anos. “ O IDC 1 projeta que a capacidade de energia dos provedores de serviços globais crescerá de 93.908 MW para 216.195 MW em 2027, representando uma taxa composta de crescimento anual (CAGR) de 18,4%.” Esta procura explosiva não se deve apenas a atividades orientadas para o consumidor, como o streaming de conteúdos. Em vez disso, é também uma resposta direta ao crescimento da IA e ao poder de processamento necessário para suportar pilhas de software de IA e os resultados correspondentes (ou seja, modelos, imagens, texto, etc.).
Ao contrário das cargas de TI tradicionais, que normalmente exigem que os dados estejam mais próximos do ponto de geração ou consumo de dados, os data centers que suportam o treinamento de modelos de IA não têm essa limitação. Como a latência não é uma preocupação com essas cargas, os data centers que suportam principalmente esse tipo de atividade podem ser implantados em locais mais remotos. Há aqui uma compensação com a capacidade dos operadores de centros de dados de construir mercados com menor procura e custos de energia e sem as restrições de recursos que normalmente vemos nos mercados primários de hoje, como a Virgínia do Norte nos EUA, Paris, Amesterdão, etc. a flexibilidade no local de construção criará redes de data centers mais distribuídas geograficamente.
Aumentar a capacidade do data center com novas construções é apenas uma fração da equação. Novas construções que suportem pilhas de software de IA também precisarão ser projetadas para suportar o aumento do consumo de energia e a remoção de calor. Mas qual é o plano para instalações legadas? A vida útil de um data center é normalmente de 15 a 20 anos em comparação com a vida útil dos equipamentos de TI (ciclos de atualização de 3 a 5 anos) versus a infraestrutura física do data center (ciclos de atualização de 5 a 10 anos). À medida que a infraestrutura do data center envelhece, a confiabilidade e o desempenho dos custos devem ser gerenciados de forma eficaz para manter a competitividade com espaços mais recentes. Para além dos avanços tecnológicos da infra-estrutura física em novas construções que contribuem para um melhor desempenho, fiabilidade, eficiência energética e utilização do espaço, os operadores de instalações mais recentes estão a começar a reconsiderar a sua abordagem às operações e manutenção. Está em curso uma mudança de mentalidade que reconhece que a gestão preventiva reativa – uma combinação de intervenções de serviço baseadas em calendário e monitorização em tempo real através de um sistema de gestão de edifícios (BMS) ou de uma plataforma de monitorização dedicada para a infraestrutura do centro de dados, pode ser dispendiosa e arriscada . Além disso, padrões e conjuntos de dados diferentes de OEM significam que pode ser difícil construir análises de dados abrangentes, pois o acesso e a qualidade dos dados variam.
As falsas suposições de mercado de hoje
A capacidade de desenvolver soluções para os desafios da indústria dos centros de dados (antigos e novos) está a ser dificultada pela prevalência das actuais falsas suposições de mercado. O mais importante é:
- Uma única empresa pode criar análises preditivas e manutenção baseada em condições por conta própria. Uma abordagem solitária não funcionou para melhorar a eficiência energética dos data centers e não funcionará para construir análises preditivas e manutenção baseada nas condições do sistema. A solução para o enigma da eficiência energética do data center foi desenvolvida por membros da Green Grid, composta por líderes da indústria de data center, que introduziram a métrica Power Usage Effectiveness (PUE) , que se tornou “a métrica preferida da indústria para medir a eficiência energética da infraestrutura para centros de dados.” 2 Será necessária a mesma abordagem colaborativa em todo o setor para criar análises preditivas em nível de sistema e manutenção baseada em condições em nível de sistema.
- A análise preditiva para o data center já existe . Existe um equívoco comum de que a análise preditiva já existe e é amplamente adotada na indústria de data centers. Esta é certamente uma suposição falsa. O que existe hoje são algoritmos em nível de ativo ou em nível de componente que permitem a manutenção baseada em condições. Hoje, as organizações podem aproveitar os dados, com base em regras de ativos e limites de configuração de equipamentos, como um guia para intervir antes que ocorra uma falha de equipamento no nível dos ativos.A capacidade de visualizar o data center no nível do sistema, ou seja, análises de todo o sistema, e pré-determinar quando ocorrerá uma falha no equipamento e quais outras áreas do sistema serão impactadas como resultado, ainda não foi atualizada… embora haja há algumas colaborações do setor em andamento hoje que aproximarão a análise preditiva da realidade. Qualquer organização que prometa análises preditivas, especialmente em nível de sistema hoje, está aproveitando a onda do marketing do setor e aumentando ainda mais o entusiasmo.
- A conectividade causa ameaças cibernéticas…os data centers nunca se conectarão.Garantir a segurança cibernética no data center é fundamental. No entanto, existem maneiras de os data centers se conectarem a um ambiente de nuvem sem comprometer seus protocolos de segurança cibernética. Francamente, a conectividade é uma etapa que todos os operadores de data centers precisarão adotar para colher os benefícios da IA. Isto não pretende ser uma declaração irreverente. Depois que um operador de data center e seu parceiro entendem quais dados precisam ser compartilhados, existem práticas recomendadas de segurança cibernética que recomendamos implementar como parte de qualquer processo de conectividade, incluindo: garantir a conformidade com SOC2/ISO 27001, aproveitar um envio de dados unidirecional com dados diodo, se necessário, e execução de um teste de penetração externo, para citar alguns. O acesso aos dados é essencial para permitir a modelagem de IA para inferência posterior.
- IA vs. Humanos. Embora seja uma boa isca para cliques, fundamentalmente não apoiamos o argumento de que a IA substituirá os humanos. Esta não é uma situação binária; em vez disso, é ambos/e. Seremos capazes de gerar maior eficiência e impacto combinando o poder da IA com a experiência no domínio para fornecer os resultados certos. Os modelos de IA ainda requerem validação humana e contexto, e ainda não chegamos a um momento em que possamos considerar os modelos de IA pelo seu valor nominal.
Uma nova abordagem para resolver problemas antigos
Precisamos adotar uma nova abordagem para finalmente resolver os problemas que assolam a indústria de data centers há anos. Libertar-nos destes desafios permitir-nos-á concentrar-nos no nosso próximo capítulo – impulsionado pela IA. Então, como podemos transformar essa visão em realidade?
Começa com uma mudança de mentalidade e comportamento; uma vontade de se envolver com soluções inovadoras em desenvolvimento hoje que desafiam as normas da indústria. Adotar uma abordagem em nível de sistema é a única maneira de alcançar análises totalmente preditivas e, usando IA, podemos desenvolver modelos para todo o sistema. Ao fechar o círculo do poder do digital + humano, esses modelos de IA precisarão ser construídos usando conhecimento de domínio. É necessário um nível profundo de conhecimento no assunto para construir inicialmente os modelos certos alinhados às necessidades do negócio. Com o tempo, à medida que mais dados são ingeridos nos modelos, os modelos se tornarão mais inteligentes e ganharão a capacidade de aprender por conta própria. Para alcançar esta visão, é necessária a ingestão de domínios em escala, incluindo dados e insights anteriores.
Para começar, devemos entender que um data center não é um conjunto de ativos. É uma compilação de sistemas e subsistemas contendo ativos. Numa configuração redundante, um ativo pode falhar e um sistema ainda pode funcionar. Contudo, uma falha no sistema raramente é um evento isolado. A compreensão da interação entre os ativos do sistema desbloqueia os principais dados necessários para ajudar a fornecer recursos preditivos no nível do sistema . A obtenção das ações necessárias a partir destes dados-chave requer a extração destes dados através de conectividade segura para construir os modelos de IA associados.
Esses modelos precisarão ser validados pelo que é chamado de Ground Truth Validation :
Ao aproveitar os modelos de IA baseados em dados, poderemos oferecer insights prognósticos , que são recomendações sobre o que está errado em um sistema baseado em um modelo baseado em dados versus uma abordagem orientada por dados usando dados históricos. Esses insights de prognóstico podem então ser compartilhados com um representante de serviço antes de uma intervenção no local, permitindo-lhes chegar ao local do data center com os equipamentos e peças certos para resolver o problema em menos visitas, levando a uma maior redução no tempo de inatividade planejado para o site. O Representante de Serviço seria então capaz de confirmar se os insights prognósticos eram realmente precisos, o que seria realimentado no modelo para melhoria contínua e treinamento contínuo dos modelos. Através deste processo,o pessoal no local seria capaz de fazer mais com menos .
A combinação de IA e experiência no domínio permitiria à indústria fazer a transição para uma abordagem de manutenção preditiva verdadeiramente em nível de sistema com segurança e confiabilidade. Acreditamos que podemos agora reduzir o risco ao ponto de o valor de uma abordagem de manutenção preditiva exceder o risco de uma transição de uma abordagem de manutenção baseada no tempo, o que até agora tem sido uma luta. Um benefício adicional de uma abordagem de manutenção verdadeiramente preditiva é a capacidade de atender de maneira ideal tanto os sistemas quanto os ativos com sistemas, agrupando logicamente a manutenção dos equipamentos, guiada pela abundância de dados disponíveis.
Através da nossa parceria com a Compass Datacenters, a Schneider conseguiu desenvolver novas ferramentas e modelos de serviço que nos permitem realmente fazer a transição para a manutenção preditiva nos principais ativos do data center no nível do sistema. Juntos tivemos uma visão dessa transformação de como os data centers são operados e mantidos, que hoje se tornou uma realidade. Ao combinar dados e uma abordagem estatística ao risco, provámos que podemos reduzir as deslocações dos camiões, otimizar as intervenções e criar um caminho a seguir para os operadores de centros de dados prontos para embarcar nesta transição para a manutenção baseada nas condições do nível do sistema. Introduzimos com sucesso uma estrutura de ativos industrializados que permite a análise de dados multivariáveis e entre sistemas para determinar a correlação e/ou causalidade de anomalias. Com fluxos de dados de alta frequência em tempo real, informações de qualidade de energia estão sendo geradas com a capacidade de indicar falhas originadas fora dos módulos Compass. Conseguimos aproveitar com sucesso os dados de temperatura do módulo ambiente e dos ativos localizados, juntamente com os dados de energia, para criar um modelo termodinâmico para a integridade geral do resfriamento do módulo. Isso permite que o modo operacional, o clima e a carga dinâmica de TI sejam modelados, comparados e otimizados.
Principais lições aprendidas nesta jornada
Embora ainda estejamos em nossa jornada com o Compass e em nossa evolução para análises preditivas em nível de sistema, há algumas lições importantes que aprendemos até agora e que acreditamos que se adotadas pela indústria em geral ajudariam a acelerar a definição de soluções para nossos desafios compartilhados:
- A mudança é uma mentalidade. Como profissionais do setor, sabemos que o tempo de atividade do data center é fundamental. No entanto, precisamos de equilibrar esta necessidade com uma mentalidade mais aberta à mudança – tanto do ponto de vista técnico como financeiro. A nossa indústria está no cerne da evolução digital e, para acompanhar o ritmo, tanto os fabricantes como os operadores de centros de dados devem estar dispostos a abraçar a mudança para uma inovação contínua.
- Tenha um plano, mas seja flexível. Definir uma visão para orientá-lo em direção à ambição da sua organização é crucial. No entanto, entenda que você não está trabalhando para uma solução “pronta e pronta”. Em vez disso, é importante compreender que se trata de uma evolução e que o valor a ser obtido é através da jornada iterativa contínua.
- A experiência em domínio vem de muitos lugares. A expertise de domínio é o valor que as pessoas trazem para a evolução da IA e essa expertise tem diversas fontes. É importante trabalhar em todos os setores e em todos os fabricantes da cadeia de valor para obter conhecimentos especializados em todo o trem da energia.
- Não existe uma solução única para todos. A crença de que existe uma solução única dificultará o seu progresso. É importante alinhar-se com o ambiente do cliente para obter valor. Os fabricantes podem fornecer um “projeto básico” ou “blocos de construção”, por assim dizer, mas o verdadeiro valor serão os complementos modulares alinhados ao ambiente do cliente e aos objetivos de negócios.
- Investir em IA é mais amplo do que em equipamentos. O valor potencial da IA é maior do que as pilhas de software e a infraestrutura física. Como a indústria está fazendo investimentos em hardware e software, é importante considerar também o investimento nas pessoas. Aprendemos que é necessária uma equipe de IA dedicada e focada na ingestão de dados em escala para desenvolver modelos de treinamento em IA. Além disso, é necessário implementar um processo para que esta equipa de IA colabore estreitamente com os especialistas do domínio que fornecem o contexto.
Para onde vamos a partir daqui
Este é um momento emocionante para a indústria de data centers e nossos próximos passos terão um impacto significativo no futuro da nossa indústria. Tal como a indústria se uniu para encontrar uma solução para a eficiência energética dos centros de dados através da PUE, a indústria precisará mais uma vez unir forças para resolver os nossos desafios existentes, bem como aqueles colocados pela IA. Na Schneider, sabemos que a jornada para a análise preditiva ao nível do sistema e a manutenção baseada nas condições ocorrerá ao longo do tempo, mas há valor a ser concretizado hoje. Estamos ansiosos pela jornada que temos pela frente com outros líderes do setor e convidamos você a permanecer conectado e se juntar a nós através de nossa experiência em inovação