Remove unnecessary check from WavLM (refs #1977)

a2d8a4v · a2d8a4v · commit 4ed5c2c4679b · 2026-01-13T14:22:26.000+08:00
diff --git a/include/ctranslate2/layers/wavlm.h b/include/ctranslate2/layers/wavlm.h
@@ -0,0 +1,101 @@
+#pragma once
+
+#include <optional>
+#include "ctranslate2/layers/transformer.h"
+
+namespace ctranslate2 {
+  namespace layers {
+
+    class WavLMLayerNormConvLayer : public Layer {
+    public:
+      WavLMLayerNormConvLayer(const models::Model& model,
+                                 const std::string& scope,
+                                 dim_t stride,
+                                 dim_t padding);
+
+      void operator()(const StorageView& input, StorageView& output) const;
+
+      DataType output_type() const override {
+        return _conv.output_type();
+      }
+
+      dim_t output_size() const override {
+        return _conv.output_size();
+      }
+
+    private:
+      dim_t _stride;
+      dim_t _padding;
+      const Conv1D _conv;
+      const LayerNorm _output_norm;
+      const ops::Transpose _transpose;
+      const ops::GELU _gelu;
+    };
+
+    class WavLMPosConvLayer : public Layer {
+    public:
+      WavLMPosConvLayer(const models::Model& model, const std::string& scope);
+
+      void operator()(const StorageView& input, StorageView& output) const;
+
+      DataType output_type() const override {
+        return _conv.output_type();
+      }
+
+      dim_t output_size() const override {
+        return _conv.output_size();
+      }
+
+    private:
+      const Conv1D _conv;
+      const ops::Transpose _transpose;
+      const ops::GELU _gelu;
+    };
+
+    class WavLMEncoder : public Layer {
+    public:
+      WavLMEncoder(const models::Model& model, const std::string& scope);
+
+      void operator()(const StorageView& features, StorageView& output);
+
+      DataType output_type() const override {
+        if (_lm_head) {
+          return (*_lm_head).output_type();
+        }
+        else {
+          return _output_norm.output_type();
+        }
+      }
+
+      dim_t output_size() const override {
+        if (_lm_head) {
+          return (*_lm_head).output_size();
+        }
+        else {
+          return _output_norm.output_size();
+        }
+      }
+
+      dim_t input_size() const {
+        return 1024;
+      }
+
+      const StorageView* _upgraded_model;
+
+    private:
+      const StorageView* _return_logits;
+      std::optional<WavLMLayerNormConvLayer> _feat_layer0;
+      std::optional<std::vector<std::unique_ptr<const WavLMLayerNormConvLayer>>> _feat_layers;
+      std::optional<LayerNorm> _fp_norm;
+      std::optional<Dense> _fp_ff;
+      std::optional<WavLMPosConvLayer> _pos_conv_embed;
+      const ops::Transpose _transpose;
+      const ops::GELU _gelu;
+      const dim_t _num_heads;
+      const std::vector<std::unique_ptr<const TransformerEncoderLayer>> _layers;
+      const LayerNorm _output_norm;
+      std::optional<Dense> _lm_head;
+    };
+
+  }
+}
diff --git a/include/ctranslate2/models/wavlm.h b/include/ctranslate2/models/wavlm.h
@@ -0,0 +1,66 @@
+#pragma once
+
+//#include "ctranslate2/generation.h"
+#include "ctranslate2/layers/wavlm.h"
+#include "ctranslate2/models/model.h"
+#include "ctranslate2/replica_pool.h"
+
+namespace ctranslate2 {
+  namespace models {
+
+    struct WavLMOptions {
+      // Maximum generation length.
+      size_t max_length = 448;
+
+      // Randomly sample from the top K candidates (set 0 to sample from the full distribution).
+      size_t sampling_topk = 1;
+
+      // Maximum index of the first predicted timestamp.
+      size_t max_initial_timestamp_index = 50;
+
+      // Suppress blank outputs at the beginning of the sampling.
+      bool suppress_blank = true;
+
+      // List of token IDs to suppress.
+      // -1 will suppress a default set of symbols as defined in the model config.json file.
+      std::vector<int> suppress_tokens = {-1};
+    };
+
+
+    class WavLMModel : public Model {
+    public:
+      const Vocabulary& get_vocabulary() const;
+      size_t current_spec_revision() const override;
+      bool is_quantizable(const std::string& variable_name) const override;
+      bool is_linear_weight(const std::string& variable_name) const override;
+      std::unique_ptr<Model> clone() const override;
+
+      bool use_global_int16_scale() const override {
+        return false;
+      }
+
+    protected:
+      void initialize(ModelReader& model_reader) override;
+    private:
+      std::shared_ptr<const Vocabulary> _vocabulary;
+    };
+
+    class WavLMReplica : public ModelReplica {
+    public:
+      static std::unique_ptr<WavLMReplica> create_from_model(const Model& model);
+
+      WavLMReplica(const std::shared_ptr<const WavLMModel>& model);
+      StorageView encode(StorageView features, const bool to_cpu);
+    private:
+      const std::shared_ptr<const WavLMModel> _model;
+      const std::unique_ptr<layers::WavLMEncoder> _encoder;
+    };
+
+    class WavLM : public ReplicaPool<WavLMReplica> {
+    public:
+      using ReplicaPool::ReplicaPool;
+      std::future<StorageView> encode(const StorageView& features, const bool to_cpu);
+    };
+
+  }
+}
diff --git a/src/models/wavlm.cc b/src/models/wavlm.cc
@@ -0,0 +1,103 @@
+#include "ctranslate2/models/wavlm.h"
+
+#include <algorithm>
+
+#include "ctranslate2/decoding.h"
+
+#include "dispatch.h"
+#include "dtw.h"
+
+#ifdef CT2_WITH_CUDA
+#  include "cuda/utils.h"
+#endif
+
+
+namespace ctranslate2 {
+  namespace models {
+
+    const Vocabulary& WavLMModel::get_vocabulary() const {
+      return *_vocabulary;
+    }
+
+    size_t WavLMModel::current_spec_revision() const {
+      return 3;
+    }
+
+    void WavLMModel::initialize(ModelReader& model_reader) {
+      VocabularyInfo vocab_info;
+      vocab_info.unk_token = "[UNK]";
+      vocab_info.bos_token = "<s>";
+      vocab_info.eos_token = "</s>";
+
+      _vocabulary = load_vocabulary(model_reader, "vocabulary", std::move(vocab_info));
+      if (!_vocabulary)
+        throw std::runtime_error("Cannot load the vocabulary from the model directory");
+    }
+
+    bool WavLMModel::is_quantizable(const std::string& variable_name) const {
+      return Model::is_quantizable(variable_name);
+    }
+
+    bool WavLMModel::is_linear_weight(const std::string& variable_name) const {
+      return is_quantizable(variable_name) && variable_name.find("embeddings") == std::string::npos;
+    }
+
+    std::unique_ptr<Model> WavLMModel::clone() const {
+      return std::make_unique<WavLMModel>(*this);
+    }
+
+
+    std::unique_ptr<WavLMReplica> WavLMReplica::create_from_model(const Model& model) {
+      if (!dynamic_cast<const WavLMModel*>(&model))
+        throw std::invalid_argument("The model is not a WavLM model");
+
+      const auto scoped_device_setter = model.get_scoped_device_setter();
+      const auto model_ptr = model.shared_from_this();
+      const auto concrete_model = std::static_pointer_cast<const WavLMModel>(model_ptr);
+      return std::make_unique<WavLMReplica>(concrete_model);
+    }
+
+    WavLMReplica::WavLMReplica(const std::shared_ptr<const WavLMModel>& model)
+      : ModelReplica(model)
+      , _model(model)
+      , _encoder(std::make_unique<layers::WavLMEncoder>(*model, "encoder"))
+    {
+    }
+
+    StorageView WavLMReplica::encode(StorageView features, const bool to_cpu) {
+      PROFILE("WavLMReplica::encode");
+
+#ifdef CT2_WITH_CUDA
+      const cuda::UseTrueFp16GemmInScope use_true_fp16_gemm(false);
+#endif
+
+      const auto scoped_device_setter = _model->get_scoped_device_setter();
+      const Device device = _model->device();
+      const DataType dtype = _encoder->output_type();
+      features.move_to(device, dtype);
+
+      StorageView encoder_output(dtype, device);
+      (*_encoder)(features, encoder_output);
+
+      if (to_cpu) {
+        if (device != Device::CPU)
+          encoder_output = encoder_output.to(Device::CPU);
+
+        return encoder_output;
+      }
+
+      // Ensure all operations are finished before returning the output.
+      synchronize_stream(device);
+
+      return encoder_output;
+    }
+
+    std::future<StorageView> WavLM::encode(const StorageView& features, const bool to_cpu) {
+      return post<StorageView>(
+        [features = features.sync_copy(), to_cpu](WavLMReplica& replica) mutable {
+          return replica.encode(std::move(features), to_cpu);
+        });
+    }
+
+  }
+}