2 posts tagged with "O11y" | hwchiu learning note

Loki 安裝上的參數調整以及 Ring 的問題除錯

May 1, 2023 · 2 min read

Blogger

因為 HPA 或是 CA 等調度使得 Ingester 等 Pod 重啟後，有機會踩到 Bug 使得系統中存在 unhealthy instance. 常見的錯誤訊息為 too many unhealthy instances in the ring

這種情況的解法有兩個

手動移除
設定環境讓其自動移除

手動移除的部分需要存取 loki-distributor 的 UI，譬如

$ kubectl port-forward svc/loki-distributor 3100:3100

接者存取 localhost:3100/ring 的網頁，就可以看到所有 instance 的資訊，針對不健康的 instance 從網頁中將其遺忘即可。

另外也可以部署安裝 Loki(Helm) 的過程中設定 ingester 的參數讓其自動忘記，未來就不需要手動設定

ingester:
  autoforget_unhealthy: true

另外部署效能上有不少參數需要調整，通常都是 limits_config，新舊版本有些設定有差然後 querier 以及 ingester 需要額外調整自己的 resource 與 HPA 的數量，根據使用者習慣以及用量來調整已提升整體吞吐量

loki:
  config: |
    server:
      grpc_server_max_recv_msg_size: 104857600
      grpc_server_max_send_msg_size: 104857600
      http_server_read_timeout:  10m
      http_server_write_timeout: 10m
    ingester:
      chunk_idle_period: 10m
      chunk_block_size: 262144
      chunk_encoding: snappy
      chunk_retain_period: 1m
      max_transfer_retries: 0
      wal:
        dir: /var/loki/wal
    limits_config:
      max_global_streams_per_user: 15000
      enforce_metric_name: false
      reject_old_samples: true
      reject_old_samples_max_age: 168h
      max_cache_freshness_per_query: 10m
      retention_period: 2160h
      split_queries_by_interval: 30m
      ingestion_rate_mb: 32
      ingestion_burst_size_mb: 64
      max_query_parallelism: 256
      max_cache_freshness_per_query: 10m
      per_stream_rate_limit_burst: 15MB
gateway:
  nginxConfig:
    httpSnippet: client_max_body_size 50M;
    serverSnippet: |-
      client_max_body_size 50M;
      proxy_read_timeout 600s;
      proxy_send_timeout 600s;      

觀測 K8s 內 OOM 事件

April 12, 2023 · 2 min read

HungWei Chiu

Blogger

Kubernetes 內的容器運行上可能會遇到 OOM (Out Of Memory)，通長會有兩種情況

應用程式本身的 Memory Limit 沒有設定好，因此踩到上限被移除
眾多應用程式的 Memory Request 沒有設定好，導致系統資源被互搶直到系統沒有足夠記憶體，因此觸發 OOM 開始砍人

這類型的事件可以透過下列的方式去觀測

安裝 kube event exporter，該專案會將所有 event 以不同的方式輸出。簡易方式可以採用 stdout 的方式輸出
透過 Logging 系統收集 stdout 的 log，從中分析是否有 OOM 的事件發生，有的話可以發送 Alert

以 Loki 來說，可以採用下列語法去過ㄌㄩ

count_over_time({container="kube-event-exporter"}[1m] | json | __error__ != "JSONParserErr" | reason="OOMKilling")