#SystemDesign#ArmazenamentoDeArquivos#Dropbox#GoogleDrive#ObjectStorage#SistemasDistribuídos#UploadResumível#SyncEngine#CloudStorage#EntrevistaTécnica

Projetando Armazenamento de Arquivos em Escala: System Design de Dropbox e Google Drive

Anderson LimaSoftware Architect

19 de junio de 2026

50 min de lectura

Anderson Lima

Software Architect

Pós-graduado em arquitetura de software e soluções. Conecto profundidade técnica com resultados de negócio para entregar produtos que as pessoas realmente usam. Também mentoro desenvolvedores e criadores em programas ao vivo, podcasts e iniciativas de comunidade focadas em tecnologia inclusiva.

LinkedIn GitHub

Artículos Relacionados

Continúa explorando temas similares

#SystemDesign#Instagram#FeedRanking

Projetando o Instagram em Escala Global: Um Guia Completo de System Design

Um guia de arquitetura em nível de produção para construir um sistema estilo Instagram com feed personalizado, stories, reels, mensagens, notificações, ranking em tempo real e operação global.

16 min de lectura

288

21 de marzo de 2026

#SystemDesign#CacheDistribuido#Redis

Projetando um Cache Distribuído: Guia Completo de System Design

Um guia completo de system design para cache distribuído com Redis e Memcached, cobrindo cache-aside, read-through, write-through, invalidação, TTL, eviction, sharding, replicação, hot keys, preven...

#SystemDesign#Uber#Ridesharing

Projetando o Uber em Escala: Um Guia Completo de System Design

Um guia completo de system design para construir uma plataforma de compartilhamento de corridas lidando com milhões de viagens simultâneas, matching geoespacial em tempo real, precificação dinâmica e predição de ETA em escala global.

57 min de lectura

1,305

8 de marzo de 2026

Recurso gratuito

Checklist de Code Review Pre-Producción

Una lista de 47 puntos para encontrar errores, riesgos de seguridad y problemas de rendimiento antes del lanzamiento.

Tienda Lemon.dev

Convierte lo que aprendiste en código que funciona

Templates probados en producción, usados por desarrolladores. Ahorra semanas de setup en tu próximo proyecto.

Ver templates

Requisito	Meta	Motivo
Disponibilidade de upload	99,99% para sessão e commit	Usuários confiam arquivos importantes
Latência de metadados	p95 < 100 ms, p99 < 300 ms	Navegação em pastas precisa parecer instantânea
Commit de arquivo pequeno	p95 < 500 ms após bytes aceitos	Fotos e documentos dominam contagem
Upload de arquivo grande	resumível para 100 GB+	Falhas de rede são normais
Frescor de sync	p95 < 5 segundos para devices online	Sync desktop precisa parecer vivo
Durabilidade	alvo lógico de 11 noves	Perda de dados é existencial
Consistência	forte para metadados; eventual para thumbnails e scans	Usuário espera árvore correta
Segurança	criptografia em trânsito e repouso	Conteúdo é sensível
Controle de abuso	scan antes de compartilhamento amplo	Links públicos criam risco de distribuição
Eficiência de custo	tiering frio e compactação	Custo de storage acumula para sempre

Recurso	Propósito
`/upload-sessions`	Criar sessões de upload resumível
`/upload-sessions/{id}/chunks`	Enviar bytes de chunk
`/upload-sessions/{id}/status`	Consultar offset e ranges aceitos
`/upload-sessions/{id}/commit`	Commitar manifest em versão de arquivo
`/files/{id}`	Ler e mudar metadados
`/files/{id}/content`	Baixar bytes
`/folders/{id}/children`	Listar entradas da pasta
`/changes`	Listar mudanças após cursor
`/shares`	Conceder acesso a usuário ou grupo
`/links`	Criar e gerenciar links públicos
`/devices/{id}/cursor`	Guardar checkpoints de sync

Campo	Tipo	Observações
`file_id`	string	Identificador lógico estável
`owner_id`	string	Usuário ou workspace
`parent_id`	string	ID da pasta pai
`type`	enum	`file` ou `folder`
`name`	string	Nome exibido
`current_revision_id`	string	Revisão atual
`folder_revision`	int64	Versão monotônica da pasta
`deleted_at`	timestamp	Soft delete
`created_at`	timestamp	Tempo do servidor
`updated_at`	timestamp	Tempo do servidor
`created_by_device_id`	string	Auditoria/debug
`namespace_shard`	int	Dica de roteamento
Índices importantes:
Índice	Consulta
---	---
`(owner_id, parent_id, name)`	unicidade e lookup de pasta
`(parent_id, updated_at)`	listagem de pasta
`(owner_id, deleted_at)`	listagem de lixeira
`(file_id)`	lookup direto
Não use path como chave primária. Paths mudam. IDs permanecem.

Campo	Tipo	Observações
`revision_id`	string	ID imutável da revisão
`file_id`	string	ID lógico do arquivo
`manifest_id`	string	Manifest de conteúdo
`size_bytes`	int64	Tamanho lógico
`file_hash`	string	Hash do arquivo inteiro
`content_type`	string	MIME type
`client_modified_at`	timestamp	Vindo do device
`server_created_at`	timestamp	Tempo de commit
`created_by_user_id`	string	Ator
`created_by_device_id`	string	Device
`scan_state`	enum	`pending`, `clean`, `blocked`
`preview_state`	enum	`none`, `queued`, `ready`, `failed`
Revisions são imutáveis. Rollback torna uma revision antiga a atual. Ele não muta a revision antiga.

Campo	Tipo	Observações
`manifest_id`	string	ID estável
`file_hash`	string	Hash do conteúdo completo
`chunking_strategy`	string	`fixed` ou `content_defined`
`chunk_count`	int	Número de chunks
`total_size_bytes`	int64	Tamanho do arquivo
`created_at`	timestamp	Criação do manifest

Campo	Tipo	Observações
`manifest_id`	string	Manifest pai
`chunk_index`	int	Posição ordenada
`chunk_hash`	string	Endereço por conteúdo
`offset`	int64	Byte inicial
`size_bytes`	int	Tamanho do chunk
`compression`	string	Opcional
`encryption_key_id`	string	Referência de chave

Campo	Tipo	Observações
`chunk_hash`	string	Chave primária
`size_bytes`	int	Tamanho armazenado
`storage_uri`	string	Ponteiro no object store
`ref_count`	int64	Referências lógicas
`durability_state`	enum	`local`, `replicated`, `erasure_coded`
`hotness_score`	float	Dica de tiering
`first_seen_at`	timestamp	Dedup/debug
`last_read_at`	timestamp	Tiering
`region_set`	array	Regiões com o chunk
Não confie apenas em reference count. Use mark-and-sweep ou reconciliação por log porque contadores podem desviar em falhas.

Campo	Tipo	Observações
`upload_session_id`	string	ID da sessão
`owner_id`	string	Usuário/workspace
`parent_id`	string	Pasta alvo
`name`	string	Nome alvo
`expected_size_bytes`	int64	Tamanho declarado
`state`	enum	`open`, `committing`, `committed`, `expired`, `aborted`
`accepted_ranges`	json	Ranges aceitos
`idempotency_key`	string	Segurança contra retry
`expires_at`	timestamp	Limpeza
`created_at`	timestamp	Tempo do servidor

Campo	Tipo	Observações
`change_id`	int64/string	Monotônico dentro do shard
`namespace_id`	string	Namespace do usuário/workspace
`resource_id`	string	ID de arquivo/pasta
`event_type`	enum	`added`, `updated`, `deleted`, `moved`, `shared`
`revision_id`	string	Revisão de conteúdo se relevante
`parent_id`	string	Pasta pai
`actor_user_id`	string	Ator
`actor_device_id`	string	Device
`occurred_at`	timestamp	Tempo do servidor
`payload`	json	Payload compacto
O change log pode ser particionado fisicamente por namespace. Dentro de um namespace, use ordenação monotônica. Ordenação global é desnecessária e cara.

Objeto	TTL
Sessão aberta	24 horas
Metadados de sessão expirada	7 dias
Chunk staged sem referência	7-30 dias
Registro de idempotência de commit	7 dias

Tamanho do arquivo	Estratégia
< 8 MB	chunk único
8 MB - 1 GB	chunks fixos de 8 MB
> 1 GB	chunks fixos de 16 MB ou adaptativo
workloads de backup	chunks definidos por conteúdo

Nível	Descrição	Prós	Riscos
sem dedup	armazena cada upload isolado	privacidade simples	custo alto
por usuário	dedup dentro da conta	baixo risco	economia limitada
por tenant	dedup em workspace/empresa	bom trade-off enterprise	isolamento necessário
global	dedup entre todos os usuários	economia máxima	risco de side-channel
Em storage consumer, cuidado com dedup global. Se um usuário descobre que um hash já existe, pode inferir que alguém enviou conteúdo conhecido.

Dado	Cache key
Metadados atuais	`file_id + revision_id`
Manifest	`manifest_id`
Chunk	`chunk_hash`
Preview	`revision_id + preview_type + size`
Auth de link público	`link_id + policy_version`

Campo	Propósito
`local_path`	path local atual
`file_id`	ID no servidor
`revision_id`	última revision sincronizada
`content_hash`	último hash sincronizado
`mtime`	modified time local
`size_bytes`	tamanho local
`sync_state`	clean, uploading, downloading, conflict
`last_error`	problema visível
`cursor`	último cursor aplicado

Tipo	Significado	Ação do cliente
`file_added`	novo arquivo visível	criar/baixar
`file_updated`	nova revision	baixar ou marcar online-only
`file_deleted`	lixeira ou remoção	deletar ou tombstone local
`file_moved`	parent/name mudou	mover path local
`folder_added`	nova pasta	criar pasta local
`acl_changed`	permissão mudou	atualizar acesso
`link_changed`	policy de link mudou	atualizar UI

Sinal local	Mutação provável
novo inode/path	adicionar arquivo
hash mudou	atualizar arquivo
path mudou mesmo file id	move/rename
path ausente	delete
diretório criado	adicionar pasta
permissão negada	erro de sync
Detecção de rename é difícil. Muitos filesystems reportam rename como delete mais create. Use inode/file IDs locais quando disponíveis. Fallback para hash e heurísticas de tempo.

Role	Capacidades
owner	tudo, transferir propriedade, deletar permanentemente
editor	ler, enviar, atualizar, mover dentro do escopo
commenter	ler, comentar se existir comentário
viewer	ler e preview
uploader	adicionar arquivos, sem ler existentes

Conceito	Significado
shared root	folder node real
mount point	onde colaborador vê
namespace view	árvore visível do usuário
effective ACL	permissões pelo mount

Campo	Propósito
`link_id`	identificador opaco
`resource_id`	arquivo ou pasta
`role`	viewer ou editor se permitido
`expires_at`	revogação automática
`password_hash`	senha opcional
`allow_download`	modo preview-only
`max_downloads`	controle de abuso
`created_by`	auditoria
`revoked_at`	revogação
`policy_version`	invalidação de cache

Tipo fonte	Artefatos derivados
imagem	thumbnails small, medium, large
PDF	thumbnails de páginas, extração de texto
vídeo	poster frame, metadados curtos
áudio	waveform, duração
office docs	PDF preview se suportado
archive	lista de arquivos se policy permitir

Estado	Acesso do owner	Acesso compartilhado	Link público
pending	permitido ou limitado	limitado	bloqueado
clean	permitido	permitido	permitido
restricted	permitido com aviso	bloqueado ou aviso	bloqueado
blocked	quarentena para owner	bloqueado	bloqueado
A política exata depende do produto e de requisitos legais.

Plano	Lixeira	Histórico de versão	Legal hold
free	30 dias	30 dias	não
pro	180 dias	180 dias	não
business	configurável	configurável	sim
enterprise regulado	definido por policy	definido por policy	sim

Caso	Política
upload abandonado	liberar reserva após TTL
dedup hit	ainda contar bytes lógicos do owner
upload em pasta compartilhada	contar do owner ou workspace
nova versão	contar conforme plano
lixeira	contar até delete permanente ou quota separada

Sinal	Significado
`last_read_at`	acesso recente
`download_count_30d`	popularidade
`owner_plan`	plano pago pode exigir restore mais rápido
`shared_link_active`	provável acesso
`legal_hold`	manter durável, talvez frio
`file_type`	vídeos e archives podem ser grandes
`region_policy`	restrição de residência

Estado	Significado	Tratamento visível
`staged`	upload aceito, não commitado	não visível
`local_durable`	armazenado em zona/cell local	commit pode aguardar ou seguir por policy
`multi_zone`	replicado entre zonas	seguro para visibilidade normal
`multi_region`	replicado entre regiões	alta durabilidade
`erasure_coded`	layout frio compacto	custo eficiente

Componente	RPO	RTO
metadata service	segundos a minutos	minutos
chunks commitados	segundos a minutos	minutos a horas
thumbnails	regenerável	horas
search index	reconstruível	horas
analytics	horas	horas
Nem todo dado precisa do mesmo alvo de recuperação. Não gaste orçamento premium de durabilidade em artefatos reconstruíveis.

Falha	Comportamento esperado
cliente perde rede durante upload	continuar do range aceito
upload gateway cai após gravar chunk	status revela estado aceito após reconciliação
commit de metadados dá timeout	retry idempotente retorna arquivo commitado ou erro seguro
read no object store falha	retry em réplica alternativa
notificação de change cai	device faz polling em `/changes`
watcher desktop perde evento	scan local periódico detecta drift
backlog de scanner cresce	sharing espera, upload continua commitado
preview worker cai	job faz retry ou marca failed
região falha	roteamento para réplica com regras de stale-safety

Jornada	SLI	Meta
criar sessão de upload	taxa de sucesso	99,99%
enviar chunk	sucesso por bytes aceitos	99,95%
commitar upload	sucesso e latência	99,99%, p99 < 1s
listar pasta	latência	p99 < 300ms
primeiro byte de download	latência	p99 < 500ms
frescor de sync	tempo do commit até device ver mudança	p95 < 5s
revogar link público	tempo até negar	p99 < 30s
backlog de scan	tempo até veredito	p95 < 5 min

Alerta	Página?	Motivo
burn de error budget no upload commit	sim	caminho de dados visível
p99 do metadata DB acima da meta	sim	impacto em browse/sync
lag de replicação acima do limite	sim	risco de durabilidade
backlog de preview alto	não, ticket	artefato derivado
backlog de scan para links públicos alto	sim	segurança e sharing
dedup ratio cai	ticket	regressão de custo

Anderson Lima

Artículos Relacionados

Projetando o Instagram em Escala Global: Um Guia Completo de System Design

Projetando um Cache Distribuído: Guia Completo de System Design

Projetando o Uber em Escala: Um Guia Completo de System Design

Checklist de Code Review Pre-Producción

Convierte lo que aprendiste en código que funciona

Projetando Armazenamento de Arquivos em Escala: System Design de Dropbox e Google Drive

Sumário

Análise de Requisitos

Requisitos Funcionais

Requisitos Não-Funcionais

Perguntas de Clarificação

Premissas Usadas Neste Design

Modelo de Consistência

Cálculos de Envelope

Throughput de Upload

Throughput de Requisições

Storage de Metadados

Blob Storage

Workload de Thumbnail e Preview

Fanout de Sync

Não empurre payload completo para cada device. Envie uma invalidação pequena. Devices puxam mudanças com cursor.

Arquitetura de Alto Nível

Control Plane vs Data Plane

Caminho Crítico de Upload

Caminho Crítico de Sync

Princípios Centrais

Guarde Conteúdo Como Chunks Imutáveis

Guarde Namespace Como Metadados Mutáveis

Use Logs Append-Only Para Sync

Torne Clientes Idempotentes

Separe Intenção do Usuário de Enforcement Assíncrono

Design de APIs

Visão Geral dos Recursos

Criar Sessão de Upload

Enviar Chunk

Consultar Status do Upload

Commitar Upload

Baixar Arquivo

Listar Filhos de Pasta

Listar Mudanças

Criar Compartilhamento

Criar Link Público

Links públicos precisam de controles separados de shares autenticados. Eles são sensíveis a abuso. Eles devem ser revogáveis rapidamente.

Modelagem de Dados

Visão Entidade-Relacionamento

file_nodes

file_revisions

manifests

manifest_chunks

chunks

upload_sessions

change_events

Fluxo de Upload Resumível

Máquina de Estados do Upload

Modelo Sequencial por Offset

Modelo de Chunks Paralelos

Expiração e Limpeza

Regras de Resume

Chunking e Endereçamento por Conteúdo

Chunking de Tamanho Fixo

Chunking Definido por Conteúdo

Recomendação Prática

Hashes de Conteúdo

Estratégia de Deduplicação

Níveis de Deduplicação

Padrão Seguro

Content Index

Reference Counting

Garbage Collection

Download e Leituras por Range

Mapeamento de Range

Caminho de Download

Cache

Download de Arquivo Grande

Sync Engine

Loop de Sync

Estado Local do Cliente

Invariantes de Sync

`file_nodes`

`file_revisions`

`manifests`

`manifest_chunks`

`chunks`

`upload_sessions`

`change_events`

Tema	Resposta simples	Resposta senior
upload	enviar arquivo ao servidor	sessões resumíveis com chunk e commit
storage	salvar no S3	chunks imutáveis e manifests
sync	WebSocket updates	invalidação mais pull por cursor
sharing	tabela de ACL	herança, mounts e invalidação de cache
dedup	usar hash	escopo de dedup e sem oracle de existência
delete	deletar linha	lixeira, versões, legal hold e GC

Componente	Responsabilidade
API Gateway	auth, roteamento, rate limit, APIs de metadados
Upload Gateway	ingress de bytes resumível
Download Gateway	range reads e signed downloads
Metadata Service	namespace, file nodes, revisions
Manifest Service	revision para lista de chunks
Chunk Service	verificação de hash e storage
Content Index	dedup e localização de chunks
Change Log Service	eventos append-only de sync
Device Cursor Service	progresso de sync
Permission Service	ACL e avaliação de shares
Quota Service	uso lógico e reservas
Preview Workers	thumbnails e artefatos
Malware Scanner	veredito por revision
Tiering Workers	placement hot/cold
Garbage Collector	deleção segura de chunks sem referência

Decisão	Default
chunk size	8 MB para arquivos normais
hash de chunk	SHA-256
modelo de upload	sessões resumíveis
identidade de arquivo	`file_id` estável
identidade de conteúdo	chunk hash imutável
modelo de sync	pull por cursor com push como dica
conflito	base revision check
delete	soft delete com retenção
escopo de dedup	interno, ciente de tenant
previews	workers assíncronos em sandbox
scanning	assíncrono, bloqueia sharing arriscado
durabilidade	multi-zone depois multi-region
cold storage	tiering após queda de acesso