Loki 安裝上的參數調整以及 Ring 的問題除錯

May 1, 2023 · 2 min read

Blogger

因為 HPA 或是 CA 等調度使得 Ingester 等 Pod 重啟後，有機會踩到 Bug 使得系統中存在 unhealthy instance. 常見的錯誤訊息為 too many unhealthy instances in the ring

這種情況的解法有兩個

手動移除
設定環境讓其自動移除

手動移除的部分需要存取 loki-distributor 的 UI，譬如

$ kubectl port-forward svc/loki-distributor 3100:3100

接者存取 localhost:3100/ring 的網頁，就可以看到所有 instance 的資訊，針對不健康的 instance 從網頁中將其遺忘即可。

另外也可以部署安裝 Loki(Helm) 的過程中設定 ingester 的參數讓其自動忘記，未來就不需要手動設定

ingester:
  autoforget_unhealthy: true

另外部署效能上有不少參數需要調整，通常都是 limits_config，新舊版本有些設定有差然後 querier 以及 ingester 需要額外調整自己的 resource 與 HPA 的數量，根據使用者習慣以及用量來調整已提升整體吞吐量

loki:
  config: |
    server:
      grpc_server_max_recv_msg_size: 104857600
      grpc_server_max_send_msg_size: 104857600
      http_server_read_timeout:  10m
      http_server_write_timeout: 10m
    ingester:
      chunk_idle_period: 10m
      chunk_block_size: 262144
      chunk_encoding: snappy
      chunk_retain_period: 1m
      max_transfer_retries: 0
      wal:
        dir: /var/loki/wal
    limits_config:
      max_global_streams_per_user: 15000
      enforce_metric_name: false
      reject_old_samples: true
      reject_old_samples_max_age: 168h
      max_cache_freshness_per_query: 10m
      retention_period: 2160h
      split_queries_by_interval: 30m
      ingestion_rate_mb: 32
      ingestion_burst_size_mb: 64
      max_query_parallelism: 256
      max_cache_freshness_per_query: 10m
      per_stream_rate_limit_burst: 15MB
gateway:
  nginxConfig:
    httpSnippet: client_max_body_size 50M;
    serverSnippet: |-
      client_max_body_size 50M;
      proxy_read_timeout 600s;
      proxy_send_timeout 600s;