refactor: adapt gguf library to project

- remove comments - remove argparse help text
2024-08-16 19:58:29 -07:00 · 2024-08-16 19:58:29 -07:00 · a7e8bf673e
parent f7f9a457ea
commit a7e8bf673e
3 changed files with 1007 additions and 909 deletions
--- a/src/convert_hf_to_gguf.py
+++ b/src/convert_hf_to_gguf.py
@ -4403,83 +4403,81 @@ def __torch_function__(cls, func, types, args=(), kwargs=None):


 def parse_args() -> argparse.Namespace:
-    parser = argparse.ArgumentParser(
-        description="Convert a huggingface model to a GGML compatible file"
-    )
+    parser = argparse.ArgumentParser(description="")
    parser.add_argument(
        "--vocab-only",
        action="store_true",
-        help="extract only the vocab",
+        help="",
    )
    parser.add_argument(
        "--outfile",
        type=Path,
-        help="path to write to; default: based on input. {ftype} will be replaced by the outtype.",
+        help="",
    )
    parser.add_argument(
        "--outtype",
        type=str,
        choices=["f32", "f16", "bf16", "q8_0", "auto"],
        default="f16",
-        help="output format - use f32 for float32, f16 for float16, bf16 for bfloat16, q8_0 for Q8_0, auto for the highest-fidelity 16-bit float type depending on the first loaded tensor type",
+        help="",
    )
    parser.add_argument(
        "--bigendian",
        action="store_true",
-        help="model is executed on big endian machine",
+        help="",
    )
    parser.add_argument(
        "model",
        type=Path,
-        help="directory containing model file",
+        help="",
    )
    parser.add_argument(
        "--use-temp-file",
        action="store_true",
-        help="use the tempfile library while processing (helpful when running out of memory, process killed)",
+        help="",
    )
    parser.add_argument(
        "--no-lazy",
        action="store_true",
-        help="use more RAM by computing all outputs before writing (use in case lazy evaluation is broken)",
+        help="",
    )
    parser.add_argument(
        "--model-name",
        type=str,
        default=None,
-        help="name of the model",
+        help="",
    )
    parser.add_argument(
        "--verbose",
        action="store_true",
-        help="increase output verbosity",
+        help="",
    )
    parser.add_argument(
        "--split-max-tensors",
        type=int,
        default=0,
-        help="max tensors in each split",
+        help="",
    )
    parser.add_argument(
        "--split-max-size",
        type=str,
        default="0",
-        help="max size per split N(M|G)",
+        help="",
    )
    parser.add_argument(
        "--dry-run",
        action="store_true",
-        help="only print out a split plan and exit, without writing any new files",
+        help="",
    )
    parser.add_argument(
        "--no-tensor-first-split",
        action="store_true",
-        help="do not add tensors to the first split (disabled by default)",
+        help="",
    )
    parser.add_argument(
        "--metadata",
        type=Path,
-        help="Specify the path for an authorship metadata override file",
+        help="",
    )

    return parser.parse_args()
--- a/src/gguf-py/gguf/constants.py
+++ b/src/gguf-py/gguf/constants.py
@ -3,19 +3,10 @@
 from enum import Enum, IntEnum, auto
 from typing import Any

-#
-# constants
-#
-
-GGUF_MAGIC = 0x46554747  # "GGUF"
+GGUF_MAGIC             = 0x46554747
 GGUF_VERSION           = 3
 GGUF_DEFAULT_ALIGNMENT = 32
-GGML_QUANT_VERSION = 2  # GGML_QNT_VERSION from ggml.h
-
-#
-# metadata keys
-#
-
+GGML_QUANT_VERSION     = 2

 class Keys:
    class General:
@ -25,7 +16,6 @@ class General:
        ALIGNMENT                  = "general.alignment"
        FILE_TYPE                  = "general.file_type"

-        # Authorship Metadata
        NAME                       = "general.name"
        AUTHOR                     = "general.author"
        VERSION                    = "general.version"
@ -39,39 +29,30 @@ class General:

        SIZE_LABEL                 = "general.size_label"

-        # Licensing details
        LICENSE                    = "general.license"
        LICENSE_NAME               = "general.license.name"
        LICENSE_LINK               = "general.license.link"

-        # Typically represents the converted GGUF repo (Unless native)
-        URL = "general.url"  # Model Website/Paper
+        URL                        = "general.url"
        DOI                        = "general.doi"
        UUID                       = "general.uuid"
-        REPO_URL = "general.repo_url"  # Model Source Repository (git/svn/etc...)
+        REPO_URL                   = "general.repo_url"

-        # Model Source during conversion
-        SOURCE_URL = "general.source.url"  # Model Website/Paper
+        SOURCE_URL                 = "general.source.url"
        SOURCE_DOI                 = "general.source.doi"
        SOURCE_UUID                = "general.source.uuid"
-        SOURCE_REPO_URL = (
-            "general.source.repo_url"  # Model Source Repository (git/svn/etc...)
-        )
+        SOURCE_REPO_URL            = "general.source.repo_url"

-        # Base Model Source. There can be more than one source if it's a merged
-        # model like with 'Mistral-7B-Merge-14-v0.1'. This will assist in
-        # tracing linage of models as it is finetuned or merged over time.
        BASE_MODEL_COUNT           = "general.base_model.count"
        BASE_MODEL_NAME            = "general.base_model.{id}.name"
        BASE_MODEL_AUTHOR          = "general.base_model.{id}.author"
        BASE_MODEL_VERSION         = "general.base_model.{id}.version"
        BASE_MODEL_ORGANIZATION    = "general.base_model.{id}.organization"
-        BASE_MODEL_URL = "general.base_model.{id}.url"  # Model Website/Paper
+        BASE_MODEL_URL             = "general.base_model.{id}.url"
        BASE_MODEL_DOI             = "general.base_model.{id}.doi"
        BASE_MODEL_UUID            = "general.base_model.{id}.uuid"
-        BASE_MODEL_REPO_URL = "general.base_model.{id}.repo_url"  # Model Source Repository (git/svn/etc...)
+        BASE_MODEL_REPO_URL        = "general.base_model.{id}.repo_url"

-        # Array based KV stores
        TAGS                       = "general.tags"
        LANGUAGES                  = "general.languages"
        DATASETS                   = "general.datasets"
@ -138,9 +119,7 @@ class Tokenizer:
        PRE                  = "tokenizer.ggml.pre"
        LIST                 = "tokenizer.ggml.tokens"
        TOKEN_TYPE           = "tokenizer.ggml.token_type"
-        TOKEN_TYPE_COUNT = (
-            "tokenizer.ggml.token_type_count"  # for BERT-style token types
-        )
+        TOKEN_TYPE_COUNT     = "tokenizer.ggml.token_type_count"
        SCORES               = "tokenizer.ggml.scores"
        MERGES               = "tokenizer.ggml.merges"
        BOS_ID               = "tokenizer.ggml.bos_token_id"
@ -160,27 +139,21 @@ class Tokenizer:
        CHAT_TEMPLATE        = "tokenizer.chat_template"
        CHAT_TEMPLATE_N      = "tokenizer.chat_template.{name}"
        CHAT_TEMPLATES       = "tokenizer.chat_templates"
-        # FIM/Infill special tokens constants
+
        PREFIX_ID            = "tokenizer.ggml.prefix_token_id"
        SUFFIX_ID            = "tokenizer.ggml.suffix_token_id"
        MIDDLE_ID            = "tokenizer.ggml.middle_token_id"
        EOT_ID               = "tokenizer.ggml.eot_token_id"
+        EOM_ID               = "tokenizer.ggml.eom_token_id"

    class Adapter:
        TYPE       = "adapter.type"
        LORA_ALPHA = "adapter.lora.alpha"

-
-#
-# recommended mapping of model tensor names for storage in gguf
-#
-
-
 class GGUFType:
    MODEL   = "model"
    ADAPTER = "adapter"

-
 class MODEL_ARCH(IntEnum):
    LLAMA        = auto()
    FALCON       = auto()
@ -221,8 +194,10 @@ class MODEL_ARCH(IntEnum):
    CHATGLM      = auto()
    BITNET       = auto()
    T5           = auto()
+    T5ENCODER    = auto()
    JAIS         = auto()
-
+    NEMOTRON     = auto()
+    EXAONE       = auto()

 class MODEL_TENSOR(IntEnum):
    TOKEN_EMBD           = auto()
@ -307,7 +282,6 @@ class MODEL_TENSOR(IntEnum):
    ENC_FFN_UP           = auto()
    ENC_OUTPUT_NORM      = auto()

-
 MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
    MODEL_ARCH.LLAMA:          "llama",
    MODEL_ARCH.FALCON:         "falcon",
@ -348,7 +322,10 @@ class MODEL_TENSOR(IntEnum):
    MODEL_ARCH.CHATGLM:        "chatglm",
    MODEL_ARCH.BITNET:         "bitnet",
    MODEL_ARCH.T5:             "t5",
+    MODEL_ARCH.T5ENCODER:      "t5encoder",
    MODEL_ARCH.JAIS:           "jais",
+    MODEL_ARCH.NEMOTRON:       "nemotron",
+    MODEL_ARCH.EXAONE:         "exaone",
 }

 TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
@ -1040,6 +1017,21 @@ class MODEL_TENSOR(IntEnum):
        MODEL_TENSOR.ENC_FFN_UP,
        MODEL_TENSOR.ENC_OUTPUT_NORM,
    ],
+    MODEL_ARCH.T5ENCODER: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ENC_ATTN_NORM,
+        MODEL_TENSOR.ENC_ATTN_Q,
+        MODEL_TENSOR.ENC_ATTN_K,
+        MODEL_TENSOR.ENC_ATTN_V,
+        MODEL_TENSOR.ENC_ATTN_OUT,
+        MODEL_TENSOR.ENC_ATTN_REL_B,
+        MODEL_TENSOR.ENC_FFN_NORM,
+        MODEL_TENSOR.ENC_FFN_GATE,
+        MODEL_TENSOR.ENC_FFN_DOWN,
+        MODEL_TENSOR.ENC_FFN_UP,
+        MODEL_TENSOR.ENC_OUTPUT_NORM,
+    ],
    MODEL_ARCH.JAIS: [
        MODEL_TENSOR.TOKEN_EMBD,
        MODEL_TENSOR.OUTPUT_NORM,
@ -1052,10 +1044,40 @@ class MODEL_TENSOR(IntEnum):
        MODEL_TENSOR.FFN_GATE,
        MODEL_TENSOR.FFN_UP,
    ],
-    # TODO
+    MODEL_ARCH.NEMOTRON: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ROPE_FREQS,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.ATTN_ROT_EMBD,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.FFN_UP,
+    ],
+    MODEL_ARCH.EXAONE: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ROPE_FREQS,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.ATTN_ROT_EMBD,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_GATE,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.FFN_UP,
+    ],
+
 }

-# tensors that will not be serialized
 MODEL_TENSOR_SKIP: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
    MODEL_ARCH.LLAMA: [
        MODEL_TENSOR.ROPE_FREQS,
@ -1092,13 +1114,12 @@ class MODEL_TENSOR(IntEnum):
    MODEL_ARCH.CHATGLM: [
        MODEL_TENSOR.ROPE_FREQS,
    ],
+    MODEL_ARCH.NEMOTRON: [
+        MODEL_TENSOR.ROPE_FREQS,
+        MODEL_TENSOR.ATTN_ROT_EMBD,
+    ],
 }

-#
-# types
-#
-
-
 class TokenType(IntEnum):
    NORMAL       = 1
    UNKNOWN      = 2
@ -1107,19 +1128,16 @@ class TokenType(IntEnum):
    UNUSED       = 5
    BYTE         = 6

-
 class RopeScalingType(Enum):
-    NONE = "none"
-    LINEAR = "linear"
-    YARN = "yarn"
-
+    NONE   = 'none'
+    LINEAR = 'linear'
+    YARN   = 'yarn'

 class PoolingType(IntEnum):
    NONE = 0
    MEAN = 1
    CLS  = 2

-
 class GGMLQuantizationType(IntEnum):
    F32     = 0
    F16     = 1
@ -1150,56 +1168,52 @@ class GGMLQuantizationType(IntEnum):
    F64     = 28
    IQ1_M   = 29
    BF16    = 30
+    Q4_0_4_4 = 31
+    Q4_0_4_8 = 32
+    Q4_0_8_8 = 33

-
-# TODO: add GGMLFileType from ggml_ftype in ggml.h
-
-
-# from llama_ftype in llama.h
-# ALL VALUES SHOULD BE THE SAME HERE AS THEY ARE OVER THERE.
 class LlamaFileType(IntEnum):
    ALL_F32              = 0
-    MOSTLY_F16 = 1  # except 1d tensors
-    MOSTLY_Q4_0 = 2  # except 1d tensors
-    MOSTLY_Q4_1 = 3  # except 1d tensors
-    MOSTLY_Q4_1_SOME_F16 = 4  # tok_embeddings.weight and output.weight are F16
-    # MOSTLY_Q4_2        = 5   # support has been removed
-    # MOSTLY_Q4_3        = 6   # support has been removed
-    MOSTLY_Q8_0 = 7  # except 1d tensors
-    MOSTLY_Q5_0 = 8  # except 1d tensors
-    MOSTLY_Q5_1 = 9  # except 1d tensors
-    MOSTLY_Q2_K = 10  # except 1d tensors
-    MOSTLY_Q3_K_S = 11  # except 1d tensors
-    MOSTLY_Q3_K_M = 12  # except 1d tensors
-    MOSTLY_Q3_K_L = 13  # except 1d tensors
-    MOSTLY_Q4_K_S = 14  # except 1d tensors
-    MOSTLY_Q4_K_M = 15  # except 1d tensors
-    MOSTLY_Q5_K_S = 16  # except 1d tensors
-    MOSTLY_Q5_K_M = 17  # except 1d tensors
-    MOSTLY_Q6_K = 18  # except 1d tensors
-    MOSTLY_IQ2_XXS = 19  # except 1d tensors
-    MOSTLY_IQ2_XS = 20  # except 1d tensors
-    MOSTLY_Q2_K_S = 21  # except 1d tensors
-    MOSTLY_IQ3_XS = 22  # except 1d tensors
-    MOSTLY_IQ3_XXS = 23  # except 1d tensors
-    MOSTLY_IQ1_S = 24  # except 1d tensors
-    MOSTLY_IQ4_NL = 25  # except 1d tensors
-    MOSTLY_IQ3_S = 26  # except 1d tensors
-    MOSTLY_IQ3_M = 27  # except 1d tensors
-    MOSTLY_IQ2_S = 28  # except 1d tensors
-    MOSTLY_IQ2_M = 29  # except 1d tensors
-    MOSTLY_IQ4_XS = 30  # except 1d tensors
-    MOSTLY_IQ1_M = 31  # except 1d tensors
-    MOSTLY_BF16 = 32  # except 1d tensors
+    MOSTLY_F16           = 1
+    MOSTLY_Q4_0          = 2
+    MOSTLY_Q4_1          = 3

-    GUESSED = 1024  # not specified in the model file
+    MOSTLY_Q8_0          = 7
+    MOSTLY_Q5_0          = 8
+    MOSTLY_Q5_1          = 9
+    MOSTLY_Q2_K          = 10
+    MOSTLY_Q3_K_S        = 11
+    MOSTLY_Q3_K_M        = 12
+    MOSTLY_Q3_K_L        = 13
+    MOSTLY_Q4_K_S        = 14
+    MOSTLY_Q4_K_M        = 15
+    MOSTLY_Q5_K_S        = 16
+    MOSTLY_Q5_K_M        = 17
+    MOSTLY_Q6_K          = 18
+    MOSTLY_IQ2_XXS       = 19
+    MOSTLY_IQ2_XS        = 20
+    MOSTLY_Q2_K_S        = 21
+    MOSTLY_IQ3_XS        = 22
+    MOSTLY_IQ3_XXS       = 23
+    MOSTLY_IQ1_S         = 24
+    MOSTLY_IQ4_NL        = 25
+    MOSTLY_IQ3_S         = 26
+    MOSTLY_IQ3_M         = 27
+    MOSTLY_IQ2_S         = 28
+    MOSTLY_IQ2_M         = 29
+    MOSTLY_IQ4_XS        = 30
+    MOSTLY_IQ1_M         = 31
+    MOSTLY_BF16          = 32
+    MOSTLY_Q4_0_4_4      = 33
+    MOSTLY_Q4_0_4_8      = 34
+    MOSTLY_Q4_0_8_8      = 35

+    GUESSED              = 1024

 class GGUFEndian(IntEnum):
    LITTLE = 0
    BIG = 1

-
 class GGUFValueType(IntEnum):
    UINT8   = 0
    INT8    = 1
@ -1227,12 +1241,10 @@ def get_type(val: Any) -> GGUFValueType:
            return GGUFValueType.BOOL
        elif isinstance(val, int):
            return GGUFValueType.INT32
-        # TODO: need help with 64-bit types in Python
+
        else:
            raise ValueError(f"Unknown type: {type(val)}")

-
-# Items here are (block size, type size)
 QK_K = 256
 GGML_QUANT_SIZES: dict[GGMLQuantizationType, tuple[int, int]] = {
    GGMLQuantizationType.F32:     (1, 4),
@ -1264,12 +1276,11 @@ def get_type(val: Any) -> GGUFValueType:
    GGMLQuantizationType.F64:     (1, 8),
    GGMLQuantizationType.IQ1_M:   (256, QK_K // 8 + QK_K // 16  + QK_K // 32),
    GGMLQuantizationType.BF16:    (1, 2),
+    GGMLQuantizationType.Q4_0_4_4:(32, 2 + 16),
+    GGMLQuantizationType.Q4_0_4_8:(32, 2 + 16),
+    GGMLQuantizationType.Q4_0_8_8:(32, 2 + 16),
 }

-
-# Aliases for backward compatibility.
-
-# general
 KEY_GENERAL_ARCHITECTURE         = Keys.General.ARCHITECTURE
 KEY_GENERAL_QUANTIZATION_VERSION = Keys.General.QUANTIZATION_VERSION
 KEY_GENERAL_ALIGNMENT            = Keys.General.ALIGNMENT
@ -1281,7 +1292,6 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_GENERAL_SOURCE_URL           = Keys.General.SOURCE_URL
 KEY_GENERAL_FILE_TYPE            = Keys.General.FILE_TYPE

-# LLM
 KEY_VOCAB_SIZE            = Keys.LLM.VOCAB_SIZE
 KEY_CONTEXT_LENGTH        = Keys.LLM.CONTEXT_LENGTH
 KEY_EMBEDDING_LENGTH      = Keys.LLM.EMBEDDING_LENGTH
@ -1290,7 +1300,6 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_USE_PARALLEL_RESIDUAL = Keys.LLM.USE_PARALLEL_RESIDUAL
 KEY_TENSOR_DATA_LAYOUT    = Keys.LLM.TENSOR_DATA_LAYOUT

-# attention
 KEY_ATTENTION_HEAD_COUNT        = Keys.Attention.HEAD_COUNT
 KEY_ATTENTION_HEAD_COUNT_KV     = Keys.Attention.HEAD_COUNT_KV
 KEY_ATTENTION_MAX_ALIBI_BIAS    = Keys.Attention.MAX_ALIBI_BIAS
@ -1298,7 +1307,6 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_ATTENTION_LAYERNORM_EPS     = Keys.Attention.LAYERNORM_EPS
 KEY_ATTENTION_LAYERNORM_RMS_EPS = Keys.Attention.LAYERNORM_RMS_EPS

-# RoPE
 KEY_ROPE_DIMENSION_COUNT      = Keys.Rope.DIMENSION_COUNT
 KEY_ROPE_FREQ_BASE            = Keys.Rope.FREQ_BASE
 KEY_ROPE_SCALING_TYPE         = Keys.Rope.SCALING_TYPE
@ -1306,13 +1314,11 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_ROPE_SCALING_ORIG_CTX_LEN = Keys.Rope.SCALING_ORIG_CTX_LEN
 KEY_ROPE_SCALING_FINETUNED    = Keys.Rope.SCALING_FINETUNED

-# SSM
 KEY_SSM_CONV_KERNEL    = Keys.SSM.CONV_KERNEL
 KEY_SSM_INNER_SIZE     = Keys.SSM.INNER_SIZE
 KEY_SSM_STATE_SIZE     = Keys.SSM.STATE_SIZE
 KEY_SSM_TIME_STEP_RANK = Keys.SSM.TIME_STEP_RANK

-# tokenization
 KEY_TOKENIZER_MODEL      = Keys.Tokenizer.MODEL
 KEY_TOKENIZER_PRE        = Keys.Tokenizer.PRE
 KEY_TOKENIZER_LIST       = Keys.Tokenizer.LIST
@ -1332,3 +1338,4 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_TOKENIZER_SUFFIX_ID  = Keys.Tokenizer.SUFFIX_ID
 KEY_TOKENIZER_MIDDLE_ID  = Keys.Tokenizer.MIDDLE_ID
 KEY_TOKENIZER_EOT_ID     = Keys.Tokenizer.EOT_ID
+KEY_TOKENIZER_EOM_ID     = Keys.Tokenizer.EOM_ID
--- a/src/gguf-py/gguf/tensor_mapping.py
+++ b/src/gguf-py/gguf/tensor_mapping.py
@ -4,471 +4,569 @@

 from .constants import MODEL_ARCH, MODEL_TENSOR, MODEL_TENSORS, TENSOR_NAMES

-
 class TensorNameMap:
    mappings_cfg: dict[MODEL_TENSOR, tuple[str, ...]] = {
-        # Token embeddings
+
        MODEL_TENSOR.TOKEN_EMBD: (
-            "gpt_neox.embed_in",  # gptneox
-            "transformer.wte",  # gpt2 gpt-j mpt refact qwen dbrx jais
-            "transformer.word_embeddings",  # falcon
-            "word_embeddings",  # bloom
-            "model.embed_tokens",  # llama-hf
-            "tok_embeddings",  # llama-pth
-            "embeddings.word_embeddings",  # bert nomic-bert
-            "language_model.embedding.word_embeddings",  # persimmon
-            "wte",  # gpt2
-            "transformer.embd.wte",  # phi2
-            "model.tok_embeddings",  # internlm2
-            "model.embedding",  # mamba-qbert
-            "backbone.embedding",  # mamba
-            "backbone.embeddings",  # mamba-hf
-            "transformer.in_out_embed",  # Grok
-            "embedding.word_embeddings",  # chatglm
-            "transformer.token_embeddings",  # openelm
-            "shared",  # t5
+            "gpt_neox.embed_in",
+            "transformer.wte",
+            "transformer.word_embeddings",
+            "word_embeddings",
+            "model.embed_tokens",
+            "tok_embeddings",
+            "embeddings.word_embeddings",
+            "language_model.embedding.word_embeddings",
+            "wte",
+            "transformer.embd.wte",
+            "model.tok_embeddings",
+            "model.embedding",
+            "backbone.embedding",
+            "backbone.embeddings",
+            "transformer.in_out_embed",
+            "embedding.word_embeddings",
+            "transformer.token_embeddings",
+            "shared",
        ),
-        # Token type embeddings
+
        MODEL_TENSOR.TOKEN_TYPES: (
-            "embeddings.token_type_embeddings",  # bert nomic-bert
+            "embeddings.token_type_embeddings",
        ),
-        # Normalization of token embeddings
+
        MODEL_TENSOR.TOKEN_EMBD_NORM: (
-            "word_embeddings_layernorm",  # bloom
-            "embeddings.LayerNorm",  # bert
-            "emb_ln",  # nomic-bert
-            "transformer.norm",  # openelm
+            "word_embeddings_layernorm",
+            "embeddings.LayerNorm",
+            "emb_ln",
+            "transformer.norm",
        ),
-        # Position embeddings
+
        MODEL_TENSOR.POS_EMBD: (
-            "transformer.wpe",  # gpt2
-            "embeddings.position_embeddings",  # bert
-            "wpe",  # gpt2
+            "transformer.wpe",
+            "embeddings.position_embeddings",
+            "wpe",
        ),
-        # Output
+
        MODEL_TENSOR.OUTPUT: (
-            "embed_out",  # gptneox
-            "lm_head",  # gpt2 mpt falcon llama-hf baichuan qwen mamba dbrx jais
-            "output",  # llama-pth bloom internlm2
-            "word_embeddings_for_head",  # persimmon
-            "lm_head.linear",  # phi2
-            "output_layer",  # chatglm
+            "embed_out",
+            "lm_head",
+            "output",
+            "word_embeddings_for_head",
+            "lm_head.linear",
+            "output_layer",
        ),
-        # Output norm
+
        MODEL_TENSOR.OUTPUT_NORM: (
-            "gpt_neox.final_layer_norm",  # gptneox
-            "transformer.ln_f",  # gpt2 gpt-j falcon jais
-            "model.norm",  # llama-hf baichuan internlm2
-            "norm",  # llama-pth
-            "transformer.norm_f",  # mpt dbrx
-            "ln_f",  # refact bloom qwen gpt2
-            "language_model.encoder.final_layernorm",  # persimmon
-            "model.final_layernorm",  # persimmon
-            "lm_head.ln",  # phi2
-            "model.norm_f",  # mamba-qbert
-            "backbone.norm_f",  # mamba
-            "transformer.rms_norm",  # Grok
-            "encoder.final_layernorm",  # chatglm
-            "transformer.norm",  # openelm
+            "gpt_neox.final_layer_norm",
+            "transformer.ln_f",
+            "model.norm",
+            "norm",
+            "transformer.norm_f",
+            "ln_f",
+            "language_model.encoder.final_layernorm",
+            "model.final_layernorm",
+            "lm_head.ln",
+            "model.norm_f",
+            "backbone.norm_f",
+            "transformer.rms_norm",
+            "encoder.final_layernorm",
+            "transformer.norm",
+            "model.norm",
        ),
-        # Rope frequencies
+
        MODEL_TENSOR.ROPE_FREQS: (
-            "rope.freqs",  # llama-pth
-            "rotary_pos_emb.inv_freq",  # chatglm
+            "rope.freqs",
+            "rotary_pos_emb.inv_freq",
        ),
    }

    block_mappings_cfg: dict[MODEL_TENSOR, tuple[str, ...]] = {
-        # Attention norm
+
        MODEL_TENSOR.ATTN_NORM: (
-            "gpt_neox.layers.{bid}.input_layernorm",  # gptneox
-            "transformer.h.{bid}.ln_1",  # gpt2 gpt-j refact qwen jais
-            "transformer.blocks.{bid}.norm_1",  # mpt
-            "transformer.h.{bid}.input_layernorm",  # falcon7b
-            "h.{bid}.input_layernorm",  # bloom
-            "transformer.h.{bid}.ln_mlp",  # falcon40b
-            "model.layers.{bid}.input_layernorm",  # llama-hf
-            "layers.{bid}.attention_norm",  # llama-pth
-            "language_model.encoder.layers.{bid}.input_layernorm",  # persimmon
-            "model.layers.{bid}.ln1",  # yi
-            "h.{bid}.ln_1",  # gpt2
-            "transformer.h.{bid}.ln",  # phi2
-            "model.layers.layers.{bid}.norm",  # plamo
-            "model.layers.{bid}.attention_norm",  # internlm2
-            "model.layers.{bid}.norm",  # mamba-qbert
-            "backbone.layers.{bid}.norm",  # mamba
-            "transformer.decoder_layer.{bid}.rms_norm",  # Grok
-            "transformer.blocks.{bid}.norm_attn_norm.norm_1",  # dbrx
-            "encoder.layers.{bid}.input_layernorm",  # chatglm
-            "transformer.layers.{bid}.attn_norm",  # openelm
+            "gpt_neox.layers.{bid}.input_layernorm",
+            "transformer.h.{bid}.ln_1",
+            "transformer.blocks.{bid}.norm_1",
+            "transformer.h.{bid}.input_layernorm",
+            "h.{bid}.input_layernorm",
+            "transformer.h.{bid}.ln_mlp",
+            "model.layers.{bid}.input_layernorm",
+            "layers.{bid}.attention_norm",
+            "language_model.encoder.layers.{bid}.input_layernorm",
+            "model.layers.{bid}.ln1",
+            "h.{bid}.ln_1",
+            "transformer.h.{bid}.ln",
+            "model.layers.layers.{bid}.norm",
+            "model.layers.{bid}.attention_norm",
+            "model.layers.{bid}.norm",
+            "backbone.layers.{bid}.norm",
+            "transformer.decoder_layer.{bid}.rms_norm",
+            "transformer.blocks.{bid}.norm_attn_norm.norm_1",
+            "encoder.layers.{bid}.input_layernorm",
+            "transformer.layers.{bid}.attn_norm",
        ),
-        # Attention norm 2
+
        MODEL_TENSOR.ATTN_NORM_2: (
-            "transformer.h.{bid}.ln_attn",  # falcon40b
-            "encoder.layer.{bid}.layer_norm_1",  # jina-v2-code
+            "transformer.h.{bid}.ln_attn",
+            "encoder.layer.{bid}.layer_norm_1",
        ),
-        # Attention query-key-value
+
        MODEL_TENSOR.ATTN_QKV: (
-            "gpt_neox.layers.{bid}.attention.query_key_value",  # gptneox
-            "transformer.h.{bid}.attn.c_attn",  # gpt2 qwen jais
-            "transformer.blocks.{bid}.attn.Wqkv",  # mpt
-            "transformer.blocks.{bid}.norm_attn_norm.attn.Wqkv",  # dbrx
-            "transformer.h.{bid}.self_attention.query_key_value",  # falcon
-            "h.{bid}.self_attention.query_key_value",  # bloom
-            "language_model.encoder.layers.{bid}.self_attention.query_key_value",  # persimmon
-            "model.layers.{bid}.self_attn.query_key_value",  # persimmon
-            "h.{bid}.attn.c_attn",  # gpt2
-            "transformer.h.{bid}.mixer.Wqkv",  # phi2
-            "encoder.layers.{bid}.attn.Wqkv",  # nomic-bert
-            "model.layers.{bid}.self_attn.qkv_proj",  # phi3
-            "encoder.layers.{bid}.self_attention.query_key_value",  # chatglm
-            "transformer.layers.{bid}.attn.qkv_proj",  # openelm
+            "gpt_neox.layers.{bid}.attention.query_key_value",
+            "transformer.h.{bid}.attn.c_attn",
+            "transformer.blocks.{bid}.attn.Wqkv",
+            "transformer.blocks.{bid}.norm_attn_norm.attn.Wqkv",
+            "transformer.h.{bid}.self_attention.query_key_value",
+            "h.{bid}.self_attention.query_key_value",
+            "language_model.encoder.layers.{bid}.self_attention.query_key_value",
+            "model.layers.{bid}.self_attn.query_key_value",
+            "h.{bid}.attn.c_attn",
+            "transformer.h.{bid}.mixer.Wqkv",
+            "encoder.layers.{bid}.attn.Wqkv",
+            "model.layers.{bid}.self_attn.qkv_proj",
+            "encoder.layers.{bid}.self_attention.query_key_value",
+            "transformer.layers.{bid}.attn.qkv_proj",
        ),
-        # Attention query
+
        MODEL_TENSOR.ATTN_Q: (
-            "model.layers.{bid}.self_attn.q_proj",  # llama-hf
-            "layers.{bid}.attention.wq",  # llama-pth
-            "encoder.layer.{bid}.attention.self.query",  # bert
-            "transformer.h.{bid}.attn.q_proj",  # gpt-j
-            "model.layers.layers.{bid}.self_attn.q_proj",  # plamo
-            "model.layers.{bid}.attention.wq",  # internlm2
-            "transformer.decoder_layer.{bid}.multi_head_attention.query",  # Grok
+            "model.layers.{bid}.self_attn.q_proj",
+            "layers.{bid}.attention.wq",
+            "encoder.layer.{bid}.attention.self.query",
+            "transformer.h.{bid}.attn.q_proj",
+            "model.layers.layers.{bid}.self_attn.q_proj",
+            "model.layers.{bid}.attention.wq",
+            "transformer.decoder_layer.{bid}.multi_head_attention.query",
+            "transformer.h.{bid}.attn.attention.q_proj",
        ),
-        # Attention key
+
        MODEL_TENSOR.ATTN_K: (
-            "model.layers.{bid}.self_attn.k_proj",  # llama-hf
-            "layers.{bid}.attention.wk",  # llama-pth
-            "encoder.layer.{bid}.attention.self.key",  # bert
-            "transformer.h.{bid}.attn.k_proj",  # gpt-j
-            "transformer.h.{bid}.attn.k",  # refact
-            "model.layers.layers.{bid}.self_attn.k_proj",  # plamo
-            "model.layers.{bid}.attention.wk",  # internlm2
-            "transformer.decoder_layer.{bid}.multi_head_attention.key",  # Grok
+            "model.layers.{bid}.self_attn.k_proj",
+            "layers.{bid}.attention.wk",
+            "encoder.layer.{bid}.attention.self.key",
+            "transformer.h.{bid}.attn.k_proj",
+            "transformer.h.{bid}.attn.k",
+            "model.layers.layers.{bid}.self_attn.k_proj",
+            "model.layers.{bid}.attention.wk",
+            "transformer.decoder_layer.{bid}.multi_head_attention.key",
+            "transformer.h.{bid}.attn.attention.k_proj",
        ),
-        # Attention value
+
        MODEL_TENSOR.ATTN_V: (
-            "model.layers.{bid}.self_attn.v_proj",  # llama-hf
-            "layers.{bid}.attention.wv",  # llama-pth
-            "encoder.layer.{bid}.attention.self.value",  # bert
-            "transformer.h.{bid}.attn.v_proj",  # gpt-j
-            "transformer.h.{bid}.attn.v",  # refact
-            "model.layers.layers.{bid}.self_attn.v_proj",  # plamo
-            "model.layers.{bid}.attention.wv",  # internlm2
-            "transformer.decoder_layer.{bid}.multi_head_attention.value",  # Grok
+            "model.layers.{bid}.self_attn.v_proj",
+            "layers.{bid}.attention.wv",
+            "encoder.layer.{bid}.attention.self.value",
+            "transformer.h.{bid}.attn.v_proj",
+            "transformer.h.{bid}.attn.v",
+            "model.layers.layers.{bid}.self_attn.v_proj",
+            "model.layers.{bid}.attention.wv",
+            "transformer.decoder_layer.{bid}.multi_head_attention.value",
+            "transformer.h.{bid}.attn.attention.v_proj",
        ),
-        # Attention output
+
        MODEL_TENSOR.ATTN_OUT: (
-            "gpt_neox.layers.{bid}.attention.dense",  # gptneox
-            "transformer.h.{bid}.attn.c_proj",  # gpt2 refact qwen jais
-            "transformer.blocks.{bid}.attn.out_proj",  # mpt
-            "transformer.h.{bid}.self_attention.dense",  # falcon
-            "h.{bid}.self_attention.dense",  # bloom
-            "model.layers.{bid}.self_attn.o_proj",  # llama-hf
-            "layers.{bid}.attention.wo",  # llama-pth
-            "encoder.layer.{bid}.attention.output.dense",  # bert
-            "transformer.h.{bid}.attn.out_proj",  # gpt-j
-            "language_model.encoder.layers.{bid}.self_attention.dense",  # persimmon
-            "model.layers.{bid}.self_attn.dense",  # persimmon
-            "h.{bid}.attn.c_proj",  # gpt2
-            "transformer.h.{bid}.mixer.out_proj",  # phi2
-            "model.layers.layers.{bid}.self_attn.o_proj",  # plamo
-            "model.layers.{bid}.attention.wo",  # internlm2
-            "encoder.layers.{bid}.attn.out_proj",  # nomic-bert
-            "transformer.decoder_layer.{bid}.multi_head_attention.linear",  # Grok
-            "transformer.blocks.{bid}.norm_attn_norm.attn.out_proj",  # dbrx
-            "encoder.layers.{bid}.self_attention.dense",  # chatglm
-            "transformer.layers.{bid}.attn.out_proj",  # openelm
+            "gpt_neox.layers.{bid}.attention.dense",
+            "transformer.h.{bid}.attn.c_proj",
+            "transformer.blocks.{bid}.attn.out_proj",
+            "transformer.h.{bid}.self_attention.dense",
+            "h.{bid}.self_attention.dense",
+            "model.layers.{bid}.self_attn.o_proj",
+            "layers.{bid}.attention.wo",
+            "encoder.layer.{bid}.attention.output.dense",
+            "transformer.h.{bid}.attn.out_proj",
+            "language_model.encoder.layers.{bid}.self_attention.dense",
+            "model.layers.{bid}.self_attn.dense",
+            "h.{bid}.attn.c_proj",
+            "transformer.h.{bid}.mixer.out_proj",
+            "model.layers.layers.{bid}.self_attn.o_proj",
+            "model.layers.{bid}.attention.wo",
+            "encoder.layers.{bid}.attn.out_proj",
+            "transformer.decoder_layer.{bid}.multi_head_attention.linear",
+            "transformer.blocks.{bid}.norm_attn_norm.attn.out_proj",
+            "encoder.layers.{bid}.self_attention.dense",
+            "transformer.layers.{bid}.attn.out_proj",
+            "transformer.h.{bid}.attn.attention.out_proj",
        ),
-        # Attention output norm
+
        MODEL_TENSOR.ATTN_OUT_NORM: (
-            "encoder.layer.{bid}.attention.output.LayerNorm",  # bert
-            "encoder.layers.{bid}.norm1",  # nomic-bert
-            "transformer.decoder_layer.{bid}.rms_norm_1",  # Grok
-            "transformer.blocks.{bid}.norm_attn_norm.norm_2",  # dbrx
+            "encoder.layer.{bid}.attention.output.LayerNorm",
+            "encoder.layers.{bid}.norm1",
+            "transformer.decoder_layer.{bid}.rms_norm_1",
+            "transformer.blocks.{bid}.norm_attn_norm.norm_2",
        ),
+
        MODEL_TENSOR.ATTN_POST_NORM: (
-            "model.layers.{bid}.post_attention_layernorm",  # gemma2
+            "model.layers.{bid}.post_attention_layernorm",
        ),
-        # Rotary embeddings
+
        MODEL_TENSOR.ATTN_ROT_EMBD: (
-            "model.layers.{bid}.self_attn.rotary_emb.inv_freq",  # llama-hf
-            "layers.{bid}.attention.inner_attention.rope.freqs",  # llama-pth
-            "model.layers.layers.{bid}.self_attn.rotary_emb.inv_freq",  # plamo
-            "transformer.h.{bid}.attn.rotary_emb.inv_freq",  # codeshell
+            "model.layers.{bid}.self_attn.rotary_emb.inv_freq",
+            "layers.{bid}.attention.inner_attention.rope.freqs",
+            "model.layers.layers.{bid}.self_attn.rotary_emb.inv_freq",
+            "transformer.h.{bid}.attn.rotary_emb.inv_freq",
        ),
-        # Feed-forward norm
+
        MODEL_TENSOR.FFN_NORM: (
-            "gpt_neox.layers.{bid}.post_attention_layernorm",  # gptneox
-            "transformer.h.{bid}.ln_2",  # gpt2 refact qwen jais
-            "h.{bid}.post_attention_layernorm",  # bloom
-            "transformer.blocks.{bid}.norm_2",  # mpt
-            "model.layers.{bid}.post_attention_layernorm",  # llama-hf
-            "layers.{bid}.ffn_norm",  # llama-pth
-            "language_model.encoder.layers.{bid}.post_attention_layernorm",  # persimmon
-            "model.layers.{bid}.ln2",  # yi
-            "h.{bid}.ln_2",  # gpt2
-            "model.layers.{bid}.ffn_norm",  # internlm2
-            "transformer.decoder_layer.{bid}.rms_norm_2",  # Grok
-            "encoder.layers.{bid}.post_attention_layernorm",  # chatglm
-            "transformer.layers.{bid}.ffn_norm",  # openelm
+            "gpt_neox.layers.{bid}.post_attention_layernorm",
+            "transformer.h.{bid}.ln_2",
+            "h.{bid}.post_attention_layernorm",
+            "transformer.blocks.{bid}.norm_2",
+            "model.layers.{bid}.post_attention_layernorm",
+            "layers.{bid}.ffn_norm",
+            "language_model.encoder.layers.{bid}.post_attention_layernorm",
+            "model.layers.{bid}.ln2",
+            "h.{bid}.ln_2",
+            "model.layers.{bid}.ffn_norm",
+            "transformer.decoder_layer.{bid}.rms_norm_2",
+            "encoder.layers.{bid}.post_attention_layernorm",
+            "transformer.layers.{bid}.ffn_norm",
        ),
-        # Post feed-forward norm
+
        MODEL_TENSOR.FFN_PRE_NORM: (
-            "model.layers.{bid}.pre_feedforward_layernorm",  # gemma2
+            "model.layers.{bid}.pre_feedforward_layernorm",
        ),
-        # Post feed-forward norm
+
        MODEL_TENSOR.FFN_POST_NORM: (
-            "model.layers.{bid}.post_feedforward_layernorm",  # gemma2
+            "model.layers.{bid}.post_feedforward_layernorm",
        ),
+
        MODEL_TENSOR.FFN_GATE_INP: (
-            "layers.{bid}.feed_forward.gate",  # mixtral
-            "model.layers.{bid}.block_sparse_moe.gate",  # mixtral
-            "model.layers.{bid}.mlp.gate",  # qwen2moe
-            "transformer.decoder_layer.{bid}.router",  # Grok
-            "transformer.blocks.{bid}.ffn.router.layer",  # dbrx
+            "layers.{bid}.feed_forward.gate",
+            "model.layers.{bid}.block_sparse_moe.gate",
+            "model.layers.{bid}.mlp.gate",
+            "transformer.decoder_layer.{bid}.router",
+            "transformer.blocks.{bid}.ffn.router.layer",
        ),
+
        MODEL_TENSOR.FFN_GATE_INP_SHEXP: (
-            "model.layers.{bid}.mlp.shared_expert_gate",  # qwen2moe
+            "model.layers.{bid}.mlp.shared_expert_gate",
        ),
-        # Feed-forward up
+
        MODEL_TENSOR.FFN_UP: (
-            "gpt_neox.layers.{bid}.mlp.dense_h_to_4h",  # gptneox
-            "transformer.h.{bid}.mlp.c_fc",  # gpt2 jais
-            "transformer.blocks.{bid}.ffn.up_proj",  # mpt
-            "transformer.h.{bid}.mlp.dense_h_to_4h",  # falcon
-            "h.{bid}.mlp.dense_h_to_4h",  # bloom
-            "model.layers.{bid}.mlp.up_proj",  # llama-hf refact
-            "layers.{bid}.feed_forward.w3",  # llama-pth
-            "encoder.layer.{bid}.intermediate.dense",  # bert
-            "transformer.h.{bid}.mlp.fc_in",  # gpt-j
-            "transformer.h.{bid}.mlp.linear_3",  # refact
-            "language_model.encoder.layers.{bid}.mlp.dense_h_to_4h",  # persimmon
-            "model.layers.{bid}.mlp.dense_h_to_4h",  # persimmon
-            "transformer.h.{bid}.mlp.w1",  # qwen
-            "h.{bid}.mlp.c_fc",  # gpt2
-            "transformer.h.{bid}.mlp.fc1",  # phi2
-            "model.layers.{bid}.mlp.fc1",  # phi2
-            "model.layers.{bid}.mlp.gate_up_proj",  # phi3
-            "model.layers.layers.{bid}.mlp.up_proj",  # plamo
-            "model.layers.{bid}.feed_forward.w3",  # internlm2
-            "encoder.layers.{bid}.mlp.fc11",  # nomic-bert
-            "model.layers.{bid}.mlp.c_fc",  # starcoder2
-            "encoder.layer.{bid}.mlp.gated_layers_v",  # jina-bert-v2
-            "model.layers.{bid}.residual_mlp.w3",  # arctic
-            "encoder.layers.{bid}.mlp.dense_h_to_4h",  # chatglm
+            "gpt_neox.layers.{bid}.mlp.dense_h_to_4h",
+            "transformer.h.{bid}.mlp.c_fc",
+            "transformer.blocks.{bid}.ffn.up_proj",
+            "transformer.h.{bid}.mlp.dense_h_to_4h",
+            "h.{bid}.mlp.dense_h_to_4h",
+            "model.layers.{bid}.mlp.up_proj",
+            "layers.{bid}.feed_forward.w3",
+            "encoder.layer.{bid}.intermediate.dense",
+            "transformer.h.{bid}.mlp.fc_in",
+            "transformer.h.{bid}.mlp.linear_3",
+            "language_model.encoder.layers.{bid}.mlp.dense_h_to_4h",
+            "model.layers.{bid}.mlp.dense_h_to_4h",
+            "transformer.h.{bid}.mlp.w1",
+            "h.{bid}.mlp.c_fc",
+            "transformer.h.{bid}.mlp.fc1",
+            "model.layers.{bid}.mlp.fc1",
+            "model.layers.{bid}.mlp.gate_up_proj",
+            "model.layers.layers.{bid}.mlp.up_proj",
+            "model.layers.{bid}.feed_forward.w3",
+            "encoder.layers.{bid}.mlp.fc11",
+            "model.layers.{bid}.mlp.c_fc",
+            "encoder.layer.{bid}.mlp.gated_layers_v",
+            "model.layers.{bid}.residual_mlp.w3",
+            "encoder.layers.{bid}.mlp.dense_h_to_4h",
+            "transformer.h.{bid}.mlp.c_fc_1",
        ),
+
        MODEL_TENSOR.FFN_UP_EXP: (
-            "layers.{bid}.feed_forward.experts.w3",  # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear_v",  # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.v1",  # dbrx
-            "model.layers.{bid}.mlp.experts.up_proj",  # qwen2moe (merged)
+            "layers.{bid}.feed_forward.experts.w3",
+            "transformer.decoder_layer.{bid}.moe.linear_v",
+            "transformer.blocks.{bid}.ffn.experts.mlp.v1",
+            "model.layers.{bid}.mlp.experts.up_proj",
        ),
+
        MODEL_TENSOR.FFN_UP_SHEXP: (
-            "model.layers.{bid}.mlp.shared_expert.up_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.up_proj",  # deepseek2
+            "model.layers.{bid}.mlp.shared_expert.up_proj",
+            "model.layers.{bid}.mlp.shared_experts.up_proj",
        ),
-        # AWQ-activation gate
-        MODEL_TENSOR.FFN_ACT: ("transformer.blocks.{bid}.ffn.act",),  # mpt
-        # Feed-forward gate
+
+        MODEL_TENSOR.FFN_ACT: (
+            "transformer.blocks.{bid}.ffn.act",
+        ),
+
        MODEL_TENSOR.FFN_GATE: (
-            "model.layers.{bid}.mlp.gate_proj",  # llama-hf refact
-            "layers.{bid}.feed_forward.w1",  # llama-pth
-            "transformer.h.{bid}.mlp.w2",  # qwen
-            "transformer.h.{bid}.mlp.c_fc2",  # jais
-            "model.layers.layers.{bid}.mlp.gate_proj",  # plamo
-            "model.layers.{bid}.feed_forward.w1",  # internlm2
-            "encoder.layers.{bid}.mlp.fc12",  # nomic-bert
-            "encoder.layer.{bid}.mlp.gated_layers_w",  # jina-bert-v2
-            "transformer.h.{bid}.mlp.linear_1",  # refact
-            "model.layers.{bid}.residual_mlp.w1",  # arctic
+            "model.layers.{bid}.mlp.gate_proj",
+            "layers.{bid}.feed_forward.w1",
+            "transformer.h.{bid}.mlp.w2",
+            "transformer.h.{bid}.mlp.c_fc2",
+            "model.layers.layers.{bid}.mlp.gate_proj",
+            "model.layers.{bid}.feed_forward.w1",
+            "encoder.layers.{bid}.mlp.fc12",
+            "encoder.layer.{bid}.mlp.gated_layers_w",
+            "transformer.h.{bid}.mlp.linear_1",
+            "model.layers.{bid}.residual_mlp.w1",
+            "transformer.h.{bid}.mlp.c_fc_0",
        ),
+
        MODEL_TENSOR.FFN_GATE_EXP: (
-            "layers.{bid}.feed_forward.experts.w1",  # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear",  # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.w1",  # dbrx
-            "model.layers.{bid}.mlp.experts.gate_proj",  # qwen2moe (merged)
+            "layers.{bid}.feed_forward.experts.w1",
+            "transformer.decoder_layer.{bid}.moe.linear",
+            "transformer.blocks.{bid}.ffn.experts.mlp.w1",
+            "model.layers.{bid}.mlp.experts.gate_proj",
        ),
+
        MODEL_TENSOR.FFN_GATE_SHEXP: (
-            "model.layers.{bid}.mlp.shared_expert.gate_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.gate_proj",  # deepseek2
+            "model.layers.{bid}.mlp.shared_expert.gate_proj",
+            "model.layers.{bid}.mlp.shared_experts.gate_proj",
        ),
-        # Feed-forward down
+
        MODEL_TENSOR.FFN_DOWN: (
-            "gpt_neox.layers.{bid}.mlp.dense_4h_to_h",  # gptneox
-            "transformer.h.{bid}.mlp.c_proj",  # gpt2 refact qwen jais
-            "transformer.blocks.{bid}.ffn.down_proj",  # mpt
-            "transformer.h.{bid}.mlp.dense_4h_to_h",  # falcon
-            "h.{bid}.mlp.dense_4h_to_h",  # bloom
-            "model.layers.{bid}.mlp.down_proj",  # llama-hf
-            "layers.{bid}.feed_forward.w2",  # llama-pth
-            "encoder.layer.{bid}.output.dense",  # bert
-            "transformer.h.{bid}.mlp.fc_out",  # gpt-j
-            "language_model.encoder.layers.{bid}.mlp.dense_4h_to_h",  # persimmon
-            "model.layers.{bid}.mlp.dense_4h_to_h",  # persimmon
-            "h.{bid}.mlp.c_proj",  # gpt2
-            "transformer.h.{bid}.mlp.fc2",  # phi2
-            "model.layers.{bid}.mlp.fc2",  # phi2
-            "model.layers.layers.{bid}.mlp.down_proj",  # plamo
-            "model.layers.{bid}.feed_forward.w2",  # internlm2
-            "encoder.layers.{bid}.mlp.fc2",  # nomic-bert
-            "model.layers.{bid}.mlp.c_proj",  # starcoder2
-            "encoder.layer.{bid}.mlp.wo",  # jina-bert-v2
-            "transformer.layers.{bid}.ffn.proj_2",  # openelm
-            "model.layers.{bid}.residual_mlp.w2",  # arctic
-            "encoder.layer.{bid}.mlp.down_layer",  # jina-bert-v2
-            "encoder.layers.{bid}.mlp.dense_4h_to_h",  # chatglm
+            "gpt_neox.layers.{bid}.mlp.dense_4h_to_h",
+            "transformer.h.{bid}.mlp.c_proj",
+            "transformer.blocks.{bid}.ffn.down_proj",
+            "transformer.h.{bid}.mlp.dense_4h_to_h",
+            "h.{bid}.mlp.dense_4h_to_h",
+            "model.layers.{bid}.mlp.down_proj",
+            "layers.{bid}.feed_forward.w2",
+            "encoder.layer.{bid}.output.dense",
+            "transformer.h.{bid}.mlp.fc_out",
+            "language_model.encoder.layers.{bid}.mlp.dense_4h_to_h",
+            "model.layers.{bid}.mlp.dense_4h_to_h",
+            "h.{bid}.mlp.c_proj",
+            "transformer.h.{bid}.mlp.fc2",
+            "model.layers.{bid}.mlp.fc2",
+            "model.layers.layers.{bid}.mlp.down_proj",
+            "model.layers.{bid}.feed_forward.w2",
+            "encoder.layers.{bid}.mlp.fc2",
+            "model.layers.{bid}.mlp.c_proj",
+            "encoder.layer.{bid}.mlp.wo",
+            "transformer.layers.{bid}.ffn.proj_2",
+            "model.layers.{bid}.residual_mlp.w2",
+            "encoder.layer.{bid}.mlp.down_layer",
+            "encoder.layers.{bid}.mlp.dense_4h_to_h",
+            "model.layers.h.{bid}.mlp.c_proj",
        ),
+
        MODEL_TENSOR.FFN_DOWN_EXP: (
-            "layers.{bid}.feed_forward.experts.w2",  # mixtral (merged)
-            "transformer.decoder_layer.{bid}.moe.linear_1",  # Grok (merged)
-            "transformer.blocks.{bid}.ffn.experts.mlp.w2",  # dbrx
-            "model.layers.{bid}.mlp.experts.down_proj",  # qwen2moe (merged)
+            "layers.{bid}.feed_forward.experts.w2",
+            "transformer.decoder_layer.{bid}.moe.linear_1",
+            "transformer.blocks.{bid}.ffn.experts.mlp.w2",
+            "model.layers.{bid}.mlp.experts.down_proj",
        ),
+
        MODEL_TENSOR.FFN_DOWN_SHEXP: (
-            "model.layers.{bid}.mlp.shared_expert.down_proj",  # qwen2moe
-            "model.layers.{bid}.mlp.shared_experts.down_proj",  # deepseek2
+            "model.layers.{bid}.mlp.shared_expert.down_proj",
+            "model.layers.{bid}.mlp.shared_experts.down_proj",
        ),
+
        MODEL_TENSOR.ATTN_Q_NORM: (
            "language_model.encoder.layers.{bid}.self_attention.q_layernorm",
-            "model.layers.{bid}.self_attn.q_layernorm",  # persimmon
-            "model.layers.{bid}.self_attn.q_norm",  # cohere
-            "transformer.blocks.{bid}.attn.q_ln",  # sea-lion
-            "encoder.layer.{bid}.attention.self.layer_norm_q",  # jina-bert-v2
-            "transformer.layers.{bid}.attn.q_norm",  # openelm
+            "model.layers.{bid}.self_attn.q_layernorm",
+            "model.layers.{bid}.self_attn.q_norm",
+            "transformer.blocks.{bid}.attn.q_ln",
+            "encoder.layer.{bid}.attention.self.layer_norm_q",
+            "transformer.layers.{bid}.attn.q_norm",
        ),
+
        MODEL_TENSOR.ATTN_K_NORM: (
            "language_model.encoder.layers.{bid}.self_attention.k_layernorm",
-            "model.layers.{bid}.self_attn.k_layernorm",  # persimmon
-            "model.layers.{bid}.self_attn.k_norm",  # cohere
-            "transformer.blocks.{bid}.attn.k_ln",  # sea-lion
-            "encoder.layer.{bid}.attention.self.layer_norm_k",  # jina-bert-v2
-            "transformer.layers.{bid}.attn.k_norm",  # openelm
+            "model.layers.{bid}.self_attn.k_layernorm",
+            "model.layers.{bid}.self_attn.k_norm",
+            "transformer.blocks.{bid}.attn.k_ln",
+            "encoder.layer.{bid}.attention.self.layer_norm_k",
+            "transformer.layers.{bid}.attn.k_norm",
        ),
+
        MODEL_TENSOR.ROPE_FREQS: (
-            "language_model.encoder.layers.{bid}.self_attention.rotary_emb.inv_freq",  # persimmon
+            "language_model.encoder.layers.{bid}.self_attention.rotary_emb.inv_freq",
        ),
+
        MODEL_TENSOR.LAYER_OUT_NORM: (
-            "encoder.layer.{bid}.output.LayerNorm",  # bert
-            "encoder.layers.{bid}.norm2",  # nomic-bert
-            "transformer.decoder_layer.{bid}.rms_norm_3",  # Grok
-            "encoder.layer.{bid}.mlp.layernorm",  # jina-bert-v2
-            "encoder.layer.{bid}.layer_norm_2",  # jina-v2-code
+            "encoder.layer.{bid}.output.LayerNorm",
+            "encoder.layers.{bid}.norm2",
+            "transformer.decoder_layer.{bid}.rms_norm_3",
+            "encoder.layer.{bid}.mlp.layernorm",
+            "encoder.layer.{bid}.layer_norm_2"
        ),
+
        MODEL_TENSOR.SSM_IN: (
            "model.layers.{bid}.in_proj",
            "backbone.layers.{bid}.mixer.in_proj",
        ),
+
        MODEL_TENSOR.SSM_CONV1D: (
            "model.layers.{bid}.conv1d",
            "backbone.layers.{bid}.mixer.conv1d",
        ),
+
        MODEL_TENSOR.SSM_X: (
            "model.layers.{bid}.x_proj",
            "backbone.layers.{bid}.mixer.x_proj",
        ),
+
        MODEL_TENSOR.SSM_DT: (
            "model.layers.{bid}.dt_proj",
            "backbone.layers.{bid}.mixer.dt_proj",
        ),
+
        MODEL_TENSOR.SSM_A: (
            "model.layers.{bid}.A_log",
            "backbone.layers.{bid}.mixer.A_log",
        ),
+
        MODEL_TENSOR.SSM_D: (
            "model.layers.{bid}.D",
            "backbone.layers.{bid}.mixer.D",
        ),
+
        MODEL_TENSOR.SSM_OUT: (
            "model.layers.{bid}.out_proj",
            "backbone.layers.{bid}.mixer.out_proj",
        ),
-        MODEL_TENSOR.ATTN_Q_A: ("model.layers.{bid}.self_attn.q_a_proj",),  # deepseek2
-        MODEL_TENSOR.ATTN_Q_B: ("model.layers.{bid}.self_attn.q_b_proj",),  # deepseek2
+
+        MODEL_TENSOR.ATTN_Q_A: (
+            "model.layers.{bid}.self_attn.q_a_proj",
+        ),
+
+        MODEL_TENSOR.ATTN_Q_B: (
+            "model.layers.{bid}.self_attn.q_b_proj",
+        ),
+
        MODEL_TENSOR.ATTN_KV_A_MQA: (
-            "model.layers.{bid}.self_attn.kv_a_proj_with_mqa",  # deepseek2
+            "model.layers.{bid}.self_attn.kv_a_proj_with_mqa",
        ),
+
        MODEL_TENSOR.ATTN_KV_B: (
-            "model.layers.{bid}.self_attn.kv_b_proj",  # deepseek2
+            "model.layers.{bid}.self_attn.kv_b_proj",
        ),
+
        MODEL_TENSOR.ATTN_Q_A_NORM: (
-            "model.layers.{bid}.self_attn.q_a_layernorm",  # deepseek2
+            "model.layers.{bid}.self_attn.q_a_layernorm",
        ),
+
        MODEL_TENSOR.ATTN_KV_A_NORM: (
-            "model.layers.{bid}.self_attn.kv_a_layernorm",  # deepseek2
+            "model.layers.{bid}.self_attn.kv_a_layernorm",
        ),
+
        MODEL_TENSOR.ATTN_SUB_NORM: (
-            "model.layers.{bid}.self_attn.inner_attn_ln",  # bitnet
+            "model.layers.{bid}.self_attn.inner_attn_ln",
        ),
-        MODEL_TENSOR.FFN_SUB_NORM: ("model.layers.{bid}.mlp.ffn_layernorm",),  # bitnet
-        MODEL_TENSOR.DEC_ATTN_NORM: ("decoder.block.{bid}.layer.0.layer_norm",),  # t5
-        MODEL_TENSOR.DEC_ATTN_Q: ("decoder.block.{bid}.layer.0.SelfAttention.q",),  # t5
-        MODEL_TENSOR.DEC_ATTN_K: ("decoder.block.{bid}.layer.0.SelfAttention.k",),  # t5
-        MODEL_TENSOR.DEC_ATTN_V: ("decoder.block.{bid}.layer.0.SelfAttention.v",),  # t5
+
+        MODEL_TENSOR.FFN_SUB_NORM: (
+            "model.layers.{bid}.mlp.ffn_layernorm",
+        ),
+
+        MODEL_TENSOR.DEC_ATTN_NORM: (
+            "decoder.block.{bid}.layer.0.layer_norm",
+        ),
+
+        MODEL_TENSOR.DEC_ATTN_Q: (
+            "decoder.block.{bid}.layer.0.SelfAttention.q",
+        ),
+
+        MODEL_TENSOR.DEC_ATTN_K: (
+            "decoder.block.{bid}.layer.0.SelfAttention.k",
+        ),
+
+        MODEL_TENSOR.DEC_ATTN_V: (
+            "decoder.block.{bid}.layer.0.SelfAttention.v",
+        ),
+
        MODEL_TENSOR.DEC_ATTN_OUT: (
-            "decoder.block.{bid}.layer.0.SelfAttention.o",  # t5
+            "decoder.block.{bid}.layer.0.SelfAttention.o",
        ),
+
        MODEL_TENSOR.DEC_ATTN_REL_B: (
-            "decoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias",  # t5
+            "decoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_NORM: (
-            "decoder.block.{bid}.layer.1.layer_norm",  # t5
+            "decoder.block.{bid}.layer.1.layer_norm",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_Q: (
-            "decoder.block.{bid}.layer.1.EncDecAttention.q",  # t5
+            "decoder.block.{bid}.layer.1.EncDecAttention.q",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_K: (
-            "decoder.block.{bid}.layer.1.EncDecAttention.k",  # t5
+            "decoder.block.{bid}.layer.1.EncDecAttention.k",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_V: (
-            "decoder.block.{bid}.layer.1.EncDecAttention.v",  # t5
+            "decoder.block.{bid}.layer.1.EncDecAttention.v",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_OUT: (
-            "decoder.block.{bid}.layer.1.EncDecAttention.o",  # t5
+            "decoder.block.{bid}.layer.1.EncDecAttention.o",
        ),
+
        MODEL_TENSOR.DEC_CROSS_ATTN_REL_B: (
-            "decoder.block.{bid}.layer.1.EncDecAttention.relative_attention_bias",  # t5
+            "decoder.block.{bid}.layer.1.EncDecAttention.relative_attention_bias",
        ),
-        MODEL_TENSOR.DEC_FFN_NORM: ("decoder.block.{bid}.layer.2.layer_norm",),  # t5
+
+        MODEL_TENSOR.DEC_FFN_NORM: (
+            "decoder.block.{bid}.layer.2.layer_norm",
+        ),
+
        MODEL_TENSOR.DEC_FFN_GATE: (
-            "decoder.block.{bid}.layer.2.DenseReluDense.wi_0",  # flan-t5
+            "decoder.block.{bid}.layer.2.DenseReluDense.wi_0",
        ),
+
        MODEL_TENSOR.DEC_FFN_UP: (
-            "decoder.block.{bid}.layer.2.DenseReluDense.wi",  # t5
-            "decoder.block.{bid}.layer.2.DenseReluDense.wi_1",  # flan-t5
+            "decoder.block.{bid}.layer.2.DenseReluDense.wi",
+            "decoder.block.{bid}.layer.2.DenseReluDense.wi_1",
        ),
+
        MODEL_TENSOR.DEC_FFN_DOWN: (
-            "decoder.block.{bid}.layer.2.DenseReluDense.wo",  # t5
+            "decoder.block.{bid}.layer.2.DenseReluDense.wo",
        ),
-        MODEL_TENSOR.DEC_OUTPUT_NORM: ("decoder.final_layer_norm",),  # t5
-        MODEL_TENSOR.ENC_ATTN_NORM: ("encoder.block.{bid}.layer.0.layer_norm",),  # t5
-        MODEL_TENSOR.ENC_ATTN_Q: ("encoder.block.{bid}.layer.0.SelfAttention.q",),  # t5
-        MODEL_TENSOR.ENC_ATTN_K: ("encoder.block.{bid}.layer.0.SelfAttention.k",),  # t5
-        MODEL_TENSOR.ENC_ATTN_V: ("encoder.block.{bid}.layer.0.SelfAttention.v",),  # t5
+
+        MODEL_TENSOR.DEC_OUTPUT_NORM: (
+            "decoder.final_layer_norm",
+        ),
+
+        MODEL_TENSOR.ENC_ATTN_NORM: (
+            "encoder.block.{bid}.layer.0.layer_norm",
+        ),
+
+        MODEL_TENSOR.ENC_ATTN_Q: (
+            "encoder.block.{bid}.layer.0.SelfAttention.q",
+        ),
+
+        MODEL_TENSOR.ENC_ATTN_K: (
+            "encoder.block.{bid}.layer.0.SelfAttention.k",
+        ),
+
+        MODEL_TENSOR.ENC_ATTN_V: (
+            "encoder.block.{bid}.layer.0.SelfAttention.v",
+        ),
+
        MODEL_TENSOR.ENC_ATTN_OUT: (
-            "encoder.block.{bid}.layer.0.SelfAttention.o",  # t5
+            "encoder.block.{bid}.layer.0.SelfAttention.o",
        ),
+
        MODEL_TENSOR.ENC_ATTN_REL_B: (
-            "encoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias",  # t5
+            "encoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias",
        ),
-        MODEL_TENSOR.ENC_FFN_NORM: ("encoder.block.{bid}.layer.1.layer_norm",),  # t5
+
+        MODEL_TENSOR.ENC_FFN_NORM: (
+            "encoder.block.{bid}.layer.1.layer_norm",
+        ),
+
        MODEL_TENSOR.ENC_FFN_GATE: (
-            "encoder.block.{bid}.layer.1.DenseReluDense.wi_0",  # flan-t5
+            "encoder.block.{bid}.layer.1.DenseReluDense.wi_0",
        ),
+
        MODEL_TENSOR.ENC_FFN_UP: (
-            "encoder.block.{bid}.layer.1.DenseReluDense.wi",  # t5
-            "encoder.block.{bid}.layer.1.DenseReluDense.wi_1",  # flan-t5
+            "encoder.block.{bid}.layer.1.DenseReluDense.wi",
+            "encoder.block.{bid}.layer.1.DenseReluDense.wi_1",
        ),
+
        MODEL_TENSOR.ENC_FFN_DOWN: (
-            "encoder.block.{bid}.layer.1.DenseReluDense.wo",  # t5
+            "encoder.block.{bid}.layer.1.DenseReluDense.wo",
+        ),
+
+        MODEL_TENSOR.ENC_OUTPUT_NORM: (
+            "encoder.final_layer_norm",
        ),
-        MODEL_TENSOR.ENC_OUTPUT_NORM: ("encoder.final_layer_norm",),  # t5
    }

-    # architecture-specific block mappings
    arch_block_mappings_cfg: dict[MODEL_ARCH, dict[MODEL_TENSOR, tuple[str, ...]]] = {
        MODEL_ARCH.ARCTIC: {
-            MODEL_TENSOR.FFN_NORM: ("model.layers.{bid}.residual_layernorm",),
-            MODEL_TENSOR.FFN_NORM_EXP: ("model.layers.{bid}.post_attention_layernorm",),
+            MODEL_TENSOR.FFN_NORM: (
+                "model.layers.{bid}.residual_layernorm",
+            ),
+            MODEL_TENSOR.FFN_NORM_EXP: (
+                "model.layers.{bid}.post_attention_layernorm",
+            ),
        },
    }

@ -496,9 +594,7 @@ def __init__(self, arch: MODEL_ARCH, n_blocks: int):
                    key = key.format(bid = bid)
                    self.mapping[key] = (tensor, tensor_name)

-    def get_type_and_name(
-        self, key: str, try_suffixes: Sequence[str] = ()
-    ) -> tuple[MODEL_TENSOR, str] | None:
+    def get_type_and_name(self, key: str, try_suffixes: Sequence[str] = ()) -> tuple[MODEL_TENSOR, str] | None:
        result = self.mapping.get(key)
        if result is not None:
            return result
@ -515,9 +611,7 @@ def get_name(self, key: str, try_suffixes: Sequence[str] = ()) -> str | None:
            return None
        return result[1]

-    def get_type(
-        self, key: str, try_suffixes: Sequence[str] = ()
-    ) -> MODEL_TENSOR | None:
+    def get_type(self, key: str, try_suffixes: Sequence[str] = ()) -> MODEL_TENSOR | None:
        result = self.get_type_and_name(key, try_suffixes = try_suffixes)
        if result is None:
            return None
@ -535,6 +629,5 @@ def __contains__(self, key: str) -> bool:
    def __repr__(self) -> str:
        return repr(self.mapping)

-
 def get_tensor_name_map(arch: MODEL_ARCH, n_blocks: int) -> TensorNameMap:
    return TensorNameMap(arch, n_blocks)