Iniciar processamento manual de arquivos pendentes para um schema usando DataFlow. Este endpoint é opcional, pois o sistema possui configurações automáticas de processamento que podem ser configuradas no painel de controle.
Este endpoint é opcional! O sistema DataSnap possui configurações automáticas que permitem o processamento de arquivos sem intervenção manual. Veja a seção “Processamento Automático” abaixo para entender as opções disponíveis.
Processamento inteligente: Os arquivos enviados são processados somente uma vez. Por exemplo, se você enviar 1GB de arquivos e processar, depois enviar mais 1GB, o sistema processará apenas esse 1GB novo, não os 2GB totais de arquivos.
Economia automática: Temos uma configuração para otimizar custos que permite que o sistema exclua automaticamente os arquivos processados com sucesso no término do processamento, liberando espaço de armazenamento e reduzindo custos.
Planejamento importante: O tempo de processamento de cada DataFlow varia, podendo levar de 10 a 30 minutos dependendo do volume de dados e complexidade do processamento.
Com esta opção, cada vez que novos arquivos forem enviados para a plataforma, o processamento será iniciado automaticamente. Ideal para fluxos de trabalho em tempo real onde você precisa que os dados estejam disponíveis para análise o mais rápido possível após o upload. Não é necessária nenhuma intervenção manual.
O sistema monitorará o tamanho total dos arquivos pendentes de processamento. Quando o volume acumulado atingir o limite configurado, o processamento será iniciado automaticamente. Esta opção é eficiente para otimizar recursos, pois processa lotes de dados em vez de arquivos individuais, ideal para uploads frequentes de arquivos pequenos.
Com esta configuração, o sistema processará automaticamente todos os arquivos pendentes x minutos após o upload, dando tempo para acumular quantos arquivos forem necessários até chegar o momento do processamento. Perfeito para estabelecer uma rotina previsível de processamento, como a cada hora ou a cada 30 minutos, independentemente do volume de dados. Ideal para relatórios periódicos ou quando você precisa de atualizações consistentes.
Como configurar: Acesse o painel de controle da DataSnap e configure a opção de processamento automático que melhor se adapta ao seu fluxo de trabalho.
Para acompanhar o status do processamento automaticamente, você pode configurar webhooks que receberão notificações em tempo real sobre mudanças no status.
Para informações completas sobre configuração, implementação, segurança e exemplos práticos de webhooks, consulte nossa documentação dedicada de Webhooks.
O corpo da requisição é opcional. Se o seu plano de tenant permite processamento personalizado, você pode especificar parâmetros personalizados. Caso contrário, o sistema usará configurações padrão.
ID do shape para o executor - Este parâmetro define qual configuração de hardware será usada pelo executor no processamento DataFlow. Obrigatório se o plano do tenant permite processamento personalizado.
Como funciona: O DataFlow usa uma arquitetura Driver + Executor. Quando você escolhe um shape_id, está definindo o executor. O sistema automaticamente escolherá o driver da mesma arquitetura.
Lembre-se: O sistema sempre precisa de 2 CPUs no mínimo:
1 CPU para o Driver (escolhido automaticamente)
1+ CPUs para o Executor (definido pelo shape_id que você escolher)
Analise suas necessidades: Compare o tamanho dos seus arquivos com recommended_file_size_gb
Considere o custo: Verifique final_cost_per_hour para controlar gastos
Escolha a arquitetura: AMD (melhor custo-benefício) ou Intel (performance)
Exemplo prático:
Você tem arquivos de 20GB para processar
Consulta shapes disponíveis e encontra “AMD Medium” (ID: 7) com recomendação de 25GB
Usa "shape_id": 7 na requisição
Sistema automaticamente usa “AMD Small” (ID: 6) como driver por ser o default_driver_from_this_architecture: true para AMD
Prefira shapes com default_driver_from_this_architecture: true quando possível - eles foram otimizados para serem drivers eficientes de suas respectivas arquiteturas.
Número de executores (trabalhadores) - Define quantas máquinas virtuais trabalharão em paralelo processando seus arquivos. Aceita valores de 1 a 10. Obrigatório se o plano do tenant permite processamento personalizado.
O que são executores: São as máquinas “trabalhadoras” no DataFlow. Enquanto o Driver coordena, os executores fazem o processamento pesado dos dados em paralelo.
Como escolher o número ideal de executores:Para arquivos pequenos (até 5GB):
1-2 executores geralmente são suficientes
Mais executores podem desperdiçar recursos
Para arquivos médios (5-20GB):
2-4 executores oferecem bom equilíbrio
Aceleram processamento sem gastos excessivos
Para arquivos grandes (20GB+):
4-8 executores maximizam velocidade
Ideais para trabalhos urgentes ou datasets volumosos
Para processamentos muito complexos:
8-10 executores (máximo permitido)
Use apenas quando velocidade é crítica
Custo vs. Velocidade: Mais executores = processamento mais rápido, mas também:
Maior consumo de créditos DataFlow
Custo multiplicado pelo número de executores
Retorno diminuente após certo ponto
Dica prática: Comece com 2-3 executores para a maioria dos casos. Você pode ajustar em processamentos futuros baseado na performance observada.
Exemplo de configuração completa:
Copy
{ "shape_id": 7, // AMD Medium para executor "executors": 3 // 3 trabalhadores em paralelo}
Resultado: 1 Driver + 3 Executores = 4 máquinas processando em conjunto
Verifique primeiro se há arquivos pendentes usando o endpoint /api/v1/schemas/{slug}/files?processing_status=pending antes de iniciar o processamento.
Para grandes conjuntos de dados, considere usar mais executores (se seu plano permitir) para acelerar o processamento, mas esteja ciente do aumento no consumo de recursos.
O processamento consome créditos DataFlow baseado no número de arquivos, volume de dados e complexidade do processamento. Monitore seu uso para evitar cobranças inesperadas.
Antes de usar processamento personalizado, você pode recuperar os formatos DataFlow disponíveis:
Copy
curl -X GET \ "https://api.datasnap.com.br/api/v1/dataflow/shapes" \ -H "Authorization: Bearer SEU_TOKEN_AQUI"
Isso retornará os formatos disponíveis com seus IDs, nomes e descrições para ajudá-lo a escolher o shape_id apropriado para suas necessidades de processamento.