GenAIExamples/CodeGen/kubernetes/manifests/gaudi/codegen.yaml

---
# Source: codegen/charts/llm-uservice/templates/configmap.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: v1
kind: ConfigMap
metadata:
  name: codegen-llm-uservice-config
  labels:
    helm.sh/chart: llm-uservice-1.0.0
    app.kubernetes.io/name: llm-uservice
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "v1.0"
    app.kubernetes.io/managed-by: Helm
data:
  TGI_LLM_ENDPOINT: "http://codegen-tgi"
  HUGGINGFACEHUB_API_TOKEN: "insert-your-huggingface-token-here"
  HF_HOME: "/tmp/.cache/huggingface"
  http_proxy: ""
  https_proxy: ""
  no_proxy: ""
  LOGFLAG: ""
---
# Source: codegen/charts/tgi/templates/configmap.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: v1
kind: ConfigMap
metadata:
  name: codegen-tgi-config
  labels:
    helm.sh/chart: tgi-1.0.0
    app.kubernetes.io/name: tgi
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "2.1.0"
    app.kubernetes.io/managed-by: Helm
data:
  MODEL_ID: "meta-llama/CodeLlama-7b-hf"
  PORT: "2080"
  HF_TOKEN: "insert-your-huggingface-token-here"
  http_proxy: ""
  https_proxy: ""
  no_proxy: ""
  HABANA_LOGS: "/tmp/habana_logs"
  NUMBA_CACHE_DIR: "/tmp"
  HF_HOME: "/tmp/.cache/huggingface"
  MAX_INPUT_LENGTH: "1024"
  MAX_TOTAL_TOKENS: "2048"
---
# Source: codegen/charts/llm-uservice/templates/service.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: v1
kind: Service
metadata:
  name: codegen-llm-uservice
  labels:
    helm.sh/chart: llm-uservice-1.0.0
    app.kubernetes.io/name: llm-uservice
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "v1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  type: ClusterIP
  ports:
    - port: 9000
      targetPort: 9000
      protocol: TCP
      name: llm-uservice
  selector:
    app.kubernetes.io/name: llm-uservice
    app.kubernetes.io/instance: codegen
---
# Source: codegen/charts/tgi/templates/service.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: v1
kind: Service
metadata:
  name: codegen-tgi
  labels:
    helm.sh/chart: tgi-1.0.0
    app.kubernetes.io/name: tgi
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "2.1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  type: ClusterIP
  ports:
    - port: 80
      targetPort: 2080
      protocol: TCP
      name: tgi
  selector:
    app.kubernetes.io/name: tgi
    app.kubernetes.io/instance: codegen
---
# Source: codegen/templates/service.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: v1
kind: Service
metadata:
  name: codegen
  labels:
    helm.sh/chart: codegen-1.0.0
    app.kubernetes.io/name: codegen
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "v1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  type: ClusterIP
  ports:
    - port: 7778
      targetPort: 7778
      protocol: TCP
      name: codegen
  selector:
    app.kubernetes.io/name: codegen
    app.kubernetes.io/instance: codegen
---
# Source: codegen/charts/llm-uservice/templates/deployment.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: apps/v1
kind: Deployment
metadata:
  name: codegen-llm-uservice
  labels:
    helm.sh/chart: llm-uservice-1.0.0
    app.kubernetes.io/name: llm-uservice
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "v1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  replicas: 1
  selector:
    matchLabels:
      app.kubernetes.io/name: llm-uservice
      app.kubernetes.io/instance: codegen
  template:
    metadata:
      labels:
        app.kubernetes.io/name: llm-uservice
        app.kubernetes.io/instance: codegen
    spec:
      securityContext:
        {}
      containers:
        - name: codegen
          envFrom:
            - configMapRef:
                name: codegen-llm-uservice-config
          securityContext:
            allowPrivilegeEscalation: false
            capabilities:
              drop:
              - ALL
            readOnlyRootFilesystem: false
            runAsNonRoot: true
            runAsUser: 1000
            seccompProfile:
              type: RuntimeDefault
          image: "opea/llm-tgi:latest"
          imagePullPolicy: IfNotPresent
          ports:
            - name: llm-uservice
              containerPort: 9000
              protocol: TCP
          volumeMounts:
            - mountPath: /tmp
              name: tmp
          livenessProbe:
            failureThreshold: 24
            httpGet:
              path: v1/health_check
              port: llm-uservice
            initialDelaySeconds: 5
            periodSeconds: 5
          readinessProbe:
            httpGet:
              path: v1/health_check
              port: llm-uservice
            initialDelaySeconds: 5
            periodSeconds: 5
          startupProbe:
            failureThreshold: 120
            httpGet:
              path: v1/health_check
              port: llm-uservice
            initialDelaySeconds: 5
            periodSeconds: 5
          resources:
            {}
      volumes:
        - name: tmp
          emptyDir: {}
---
# Source: codegen/charts/tgi/templates/deployment.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: apps/v1
kind: Deployment
metadata:
  name: codegen-tgi
  labels:
    helm.sh/chart: tgi-1.0.0
    app.kubernetes.io/name: tgi
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "2.1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  # use explicit replica counts only of HorizontalPodAutoscaler is disabled
  replicas: 1
  selector:
    matchLabels:
      app.kubernetes.io/name: tgi
      app.kubernetes.io/instance: codegen
  template:
    metadata:
      labels:
        app.kubernetes.io/name: tgi
        app.kubernetes.io/instance: codegen
    spec:
      securityContext:
        {}
      containers:
        - name: tgi
          envFrom:
            - configMapRef:
                name: codegen-tgi-config
          securityContext:
            allowPrivilegeEscalation: false
            capabilities:
              drop:
              - ALL
            readOnlyRootFilesystem: true
            runAsNonRoot: true
            runAsUser: 1000
            seccompProfile:
              type: RuntimeDefault
          image: "ghcr.io/huggingface/tgi-gaudi:2.0.1"
          imagePullPolicy: IfNotPresent
          volumeMounts:
            - mountPath: /data
              name: model-volume
            - mountPath: /tmp
              name: tmp
          ports:
            - name: http
              containerPort: 2080
              protocol: TCP
          livenessProbe:
            failureThreshold: 24
            initialDelaySeconds: 5
            periodSeconds: 5
            tcpSocket:
              port: http
          readinessProbe:
            initialDelaySeconds: 5
            periodSeconds: 5
            tcpSocket:
              port: http
          startupProbe:
            failureThreshold: 120
            initialDelaySeconds: 5
            periodSeconds: 5
            tcpSocket:
              port: http
          resources:
            limits:
              habana.ai/gaudi: 1
              memory: 64Gi
              hugepages-2Mi: 500Mi
      volumes:
        - name: model-volume
          emptyDir: {}
        - name: tmp
          emptyDir: {}
---
# Source: codegen/templates/deployment.yaml
# Copyright (C) 2024 Intel Corporation
# SPDX-License-Identifier: Apache-2.0

apiVersion: apps/v1
kind: Deployment
metadata:
  name: codegen
  labels:
    helm.sh/chart: codegen-1.0.0
    app.kubernetes.io/name: codegen
    app.kubernetes.io/instance: codegen
    app.kubernetes.io/version: "v1.0"
    app.kubernetes.io/managed-by: Helm
spec:
  replicas: 1
  selector:
    matchLabels:
      app.kubernetes.io/name: codegen
      app.kubernetes.io/instance: codegen
  template:
    metadata:
      labels:
        app.kubernetes.io/name: codegen
        app.kubernetes.io/instance: codegen
    spec:
      securityContext:
        null
      containers:
        - name: codegen
          env:
            - name: LLM_SERVICE_HOST_IP
              value: codegen-llm-uservice
            #- name: MEGA_SERVICE_PORT
            #  value: 7778
          securityContext:
            allowPrivilegeEscalation: false
            capabilities:
              drop:
              - ALL
            readOnlyRootFilesystem: true
            runAsNonRoot: true
            runAsUser: 1000
            seccompProfile:
              type: RuntimeDefault
          image: "opea/codegen:latest"
          imagePullPolicy: IfNotPresent
          volumeMounts:
            - mountPath: /tmp
              name: tmp
          ports:
            - name: codegen
              containerPort: 7778
              protocol: TCP
                #          startupProbe:
                #            httpGet:
                #              host: codegen-llm-uservice
                #              port: 9000
                #              path: /
                #            initialDelaySeconds: 5
                #            periodSeconds: 5
                #            failureThreshold: 120
                #          livenessProbe:
                #            httpGet:
                #              path: /
                #              port: 7778
                #          readinessProbe:
                #            httpGet:
                #              path: /
                #              port: 7778
          resources:
            null
      volumes:
        - name: tmp
          emptyDir: {}