最多100种语言的联合语音和文字机器翻译

2025-06-22 16:23来源:本站

  开发有效的多语言和多模式翻译系统(例如SeamlessM4T)需要跨语言和方式的大量资源。一些人标签的翻译资源是免费的,但通常仅限于一小部分语言或非常特定的域。众所周知的例子是平行的文本集,例如Europarl45和联合国Corpus46。一些由人类创建的收藏也涉及语音模式,例如Covost47,48和Medx49。然而,目前尚无开放数据集与诸如Whisper20或USM50之类的计划中使用的数据集匹配,该计划被证明可以解锁前所未有的性能。

  在语言覆盖范围和语料库的大小方面,并行数据挖掘是使用封闭数据的替代方法。今天的主要方法是将各种语言和模式的句子编码为固定尺寸的嵌入空间,并根据相似度度量找到并行实例。然后,通过对大规模单语语料库进行成对比较来进行采矿,其中相似性高于一定阈值的句子被认为是相互翻译的51,52。这种方法首先是使用多语言激光空间引入的。53。然后,使用教师研究培训将这种方法扩展到200种语言6,16,随后是语音模式为54,55。

  我们从400万小时的原始音频开始,源自一个公开可用的爬行网络数据存储库,我们在该数据上应用了多个清洁和过滤操作。为了最大程度地提高采矿的回忆,所有片段都具有相似的粒度,这一点很重要。对于文本域,句子通常定义明确。对于原始语音而言,这不太明显,因为暂停不一定在句子边界上使用。首先,我们使用开放的语音活动检测模型56将音频文件分为较短的段。其次,将新开发的语音盖模型应用于每个段。我们的模型遵循ECAPA-TDNN Architection13,并扩展了在Voxlingua10714上训练的开源模型,通过15种新语言。最后,我们采用了一种过度分割的方法,该方法同时提出了多种,可能重叠的语音分割。我们依靠采矿方法来对齐最有可能的方法。补充图1显示了该管道。

  声纳文本和语音编码器是在参考文献中开发的。8使用两步方法(补充图2)。首先,仅针对文本模式学习了大量的多语言表示。然后,使用教师研究的培训将嵌入空间扩展到语音方式。文本嵌入空间通过使用多个目标的组合使用编码器 - 数字化方法训练:翻译,剥夺自动编码和均方误差(MSE)损失目标中的句子嵌入空间中的损失目标。培训数据与用于训练NLLB Model6的数据相同,即从200到200种语言翻译的数据并行数据。语音编码者仅在ASR数据上进行培训,并通过将语言分组为语言族谱群。16,例如,斜体,共同的突厥语或印度 - 伊朗语言。为了获得最佳性能,我们分别确定了每种语言的最佳收敛性(即何时停止培训)。这产生了每种语言的单独的语音编码器。补充表8中提供了每种语言的可用ASR数据的数量。语音编码器以W3V-最初的2.0语音前端初始化。前面的工作是在语音前端的输出状态的最大池或平均汇总,以获得语音信号的固定尺寸嵌入57。一项消融研究表明,可以使用三层变压器解码器8获得更好的结果。教师研究的培训包括最大程度地减少MSE的损失,相对于ASR文本抄录的嵌入。这些嵌入是由声纳文本编码器获得的,该文字保持恒定。没有使用翻译(英文)。

  我们首先计算了所有过度分段的语音段的嵌入。对于文本域,我们使用了与NLLB Project6完全相同的文本,并将它们与声纳编码器嵌入。详尽的成对比较可以通过Faiss Toolkit58有效地进行。与Ref中首次引入的边缘标准一起测量相似性。52:

  其中x和y是源句子和目标句子,而nnk(x)表示另一种语言的k最近邻居。我们将K设置为16。

  例如,这相当于比较一十万小时的讲话与超过2.0亿英语的句子,这产生了约八千个小时的阿拉伯语演讲。

  SeamlessM4T模型依赖于我们的多任务统一体系结构。我们提出的统一翻译模型建立在Vanilla Unity59上,这是一个两通解码框架,首先生成文本,然后通过预测离散的声学单元来生成语音(请参阅“多语言离散的声学单元”部分)。与Vanilla Unity Model59相比,(1)核心S2TT模型(从头开始初始初始化)被X2T模型替换为支持文本作为输入的X2T模型,并预估计以共同优化ASR,S2TT和T2TT的任务Ref 59中的解码器被基于更深的变压器编码器模型取代,其六个变压器层是在ASR数据上仔细预测的(请参阅“ S2ST微调”部分)。改进的统一版本被称为Unity2,用新的非自动进取(NAR)T2U解码器代替自回归T2U。该NAR T2U模型的精度具有更强的准确性,因为其从子词到字符再到单位的层次结构上采样。

  X2T的预处理产生了更强的语音编码器和更高质量的第一通道文本解码器,而T2U模型的缩放和预处理使我们能够更好地处理多语言单位生成而不会干扰。此外,转移到非自动回忆T2U解码的转换提高了S2ST推理速度3次。

  最近的作品通过使用自我监督的离散声学单元作为建立直接语音翻译模型的目标5,60来实现最先进的翻译性能。这包括将S2ST问题分解为语音到单元的翻译步骤和单位到语音转换步骤。我们使用XLS-R61提取了连续的语音表示,并将这些表示形式映射到离散令牌。通过将K-均值算法应用于一组多语言音频样本,可以从一组离散令牌(也称为单位词汇)中学习。K-均值的质心类似于代码手册,该代码手册用于将XLS-R语音表示序列映射到一系列质心指数或声学单元中。我们使用了单位词汇尺寸k = 10,000,其中XLS-R-1B的功能具有来自35个支持的目标语言的功能。

  对于单位到语音转换步骤,我们遵循参考。62并从学习的多语言单元中构建了用于语音综合的多语言声码器。该模型负责从SeamlessM4T模型可以预测的一系列单元中综合音频。

  使用未标记的语音音频数据进行自我监督的预处理是利用未标记数据的实际方法。有了预处理,我们可以引导翻译模型的质量,并充分利用我们监督的配对数据。在改进的W2V-BERT 2.0之后,我们仔细研究了语音编码器。它遵循W2V-BERT63将对比度学习与掩盖的预测学习结合在一起。W2V-BERT 2.0使用更多的代码簿和一个额外的蒙版预测任务,使用随机投影量化64(RPQ)。我们的W2V-bert 2.0型号首先在100万小时的开放语音音频数据中进行了培训,该数据涵盖了143多种语言。它遵循W2V-BERT XL Architection63,该体系结构有24个构象异构体65和约6亿型型号参数。对于V2版本,我们将未标记数据的数量从100万小时的音频扩展到了450万小时。MMS23是最新的和公开的多语言语音预测模型。它仅经过50万小时的培训,涵盖了1,400多种语言。规模最大的最大模型是USM50。这是一个专有的多语言概括的模型,具有1200万小时的数据和300多种语言的覆盖范围。

  我们SeamlessM4T模型的文本处理组件是根据文本到文本翻译的任务进行了预估计的,这比语音翻译更具资源的任务。例如,考虑英语 - 意大利的方向,T2TT中资源丰富的一对具有超过1.28亿个平行句子 - 只有200万对英语文本与意大利音频配对,可用于S2TT。

  培训多语言文本到文本翻译模型的关键步骤是学习具有文本令牌的共享词汇。以下参考。6,为此,我们使用了带有BPE算法的句子66。NLLB-2006中使用的代币器由于抽样的文物而遭受了缺少的汉字。这种采样不喜欢具有大量唯一符号的徽标图写作系统。为了解决此问题,我们强迫包含这些字符。我们的新令牌剂将MTSU最高汉字的覆盖范围从54%提高到84%。

  为了培训我们的多语言文本对文本模型,我们在参考文献中遵循相同的数据准备和培训管道。6使用stopes68。具有较小的语言覆盖范围使我们能够将模型的大小显着降低到1.3B参数,并且仅在95个SeamlessM4T语言中使用NLLB-200训练数据。

  与任何顺序到序列任务一样,语音翻译性能取决于高质量培训数据的可用性。但是,与其T2TT或ASR对应物相比,人体标记的数据量稀缺。为了解决此标记数据的短缺,我们诉诸伪标签69,70 ASR数据具有多语言T2TT模型(例如,NLLB模型),以生成伪标记的S2TT数据。

  为了增加S2ST数据,使用TTS模型将文本从语音到文本数据集转换为合成语音4,5是普遍的做法。反过来,这种综合语音转换为离散单位进行培训。这个两步的单元提取过程是一个缓慢的过程,并且对于TTS模型的依赖性,很难扩展。我们规避了在所有36种目标语言上的综合语音和经过训练的多语言文本对单位(T2U)模型的需求。这些模型可以直接将文本转换为目标离散单元,并且可以在容易获得的ASR数据集上进行培训。

  我们的多任务统一框架的第一个关键部分是X2T模型,X2T模型是一种基于构型的Encoder65的多模型序列到序列模型,用于语音输入,另一个基于变形金刚的Encoder71用于文本输入。将两个编码器与相同的文本解码器连接在一起,并进行微调,以优化ASR,S2TT和T2TT的任务。

  我们的X2T模型包括从M2加入语音编码器,W2V-BERT 2.0,并用长度适配器固定到下样本的长音频序列,并与M3的文本编码器– Decoder一起(补充图4)。对于长度适配器,我们使用了M-Adapter72的修改版本,其中我们用共享的合并模块替换了Q,K和V的三个独立合并模块以提高效率。

  X2T在S2TT数据三重态上进行了微调,并用语言语言语言语言(Xspeech)与目标语言配对,并与其转录(XTEXT)和文本翻译(YTEXT)配对。为了使含义跨模态转移,对X2T模型进行了微调以共同优化以下目标函数:

  我们还以令牌级知识蒸馏()形式优化了辅助目标函数,以将知识从强大的MT模型转移到学生语音翻译任务(S2TT)。

  最终损失是所有三个损失的加权总和:其中α,β和γ是对开发数据中调节的标量超参数。

  在微调多任务统一的最后阶段,我们使用验证的X2T模型(请参阅“ X2T微调”部分)和预处理的T2U模型初始化了该模型,类似于M4中使用伪标签S2ST数据的模型。用于伪标记的T2U模型称为具有12个变压器层编码器– Decoder的教师T2U模型。为了初始化,我们使用了一个较小的学生T2U模型,它仅具有六层层来优化推理并提炼更强的T2U的标签。在第二版的SeamlessM4T中,Unity2与NAR单元解码器统一替换了第二通通自动回归单元解码器。我们采用了FastSpeech273的解码器体系结构,并将其扩展到离散的单位生成。UNITY2从层次上提取T2U编码器从子字长度到字符长度,然后再到单位长度。单位持续时间预测指标是层次上升采样的关键,是由基于RAD-TTS74的多语言对准器在训练期间监督的。该体系结构在补充信息第IV.8节中详细显示。

  我们通过X-Eng和Eng-X S2ST翻译数据的组合对S2ST任务进行了微调,总计121,000 h。我们冻结了与X2T模型相对应的模型权重,并且仅对T2U组件进行了微调。这是为了确保模型在以前的微调阶段的任务上的性能保持不变。

  Blaser 2.0(参考文献24)是Blaser75的新版本,它既可以符合语音和文本方式,又是模态 - 敏捷。像第一个版本一样,我们的方法利用了输入和输出句子嵌入之间的相似性。新版本使用Sonar Embeddings补充信息部分III.3.1,支持57种语言和202种文本(在本文提交时Sonar覆盖语言的覆盖),并且可以扩展到将来的编码者的新语言或模态共享相同嵌入空间的新语言或模式。为了评估语音输出(与基于ASR的指标不同),Blaser 2.0提供了不含文本的优势。

  更具体地说,在Blaser 2.0中,我们采用源输入,任何S2ST,S2TT或T2TT模型的翻译输出以及参考语音段或文本,然后将它们转换为Sonar嵌入向量。对于Blaser 2.0的监督版,将这些嵌入式组合在一起并馈入一个小的密集神经网络,该网络可预测每个翻译输出的XSTS分数。

  Apart from automatic metrics such as (ASR) BLEU and BLASER 2.0, we used human metrics such as XSTS26, which measures semantic similarity between a source and target translation, and a standard Mean Opinion Score (as standardized in Recommendation ITU-T P.800, henceforth MOS), which measures (1) naturalness, (2) sound quality and (3) clarity of audio generations to evaluate our models.为了获得更健壮的语言级别得分,我们还结合了校准集和校准方法,用于评估NLLB模型6。除XST外,我们还获得了MOS评估,以了解目标语音中音频质量的其他方面。有关人类评估方案和分析的其他信息,请参见补充信息部分第1节。

  我们建立了基于Fleurs(嘈杂的Fleurs)的可复制噪声评估基准,该基准涵盖了102种语言,两种语音任务(S2TT和ASR)以及各种噪音类型(自然噪音和音乐)。为了创建模拟嘈杂的音频,我们在“噪声”和“音乐”类别上从Musan76中抽样了音频剪辑,并将它们与原始的fle fle fle fle flehers在不同的信噪比(SNR)下(SNR):10,5,5,0,-5,-5,-10,-10,-15,-15和-20。我们通过BLEU-SNR曲线(对于S2TT)或WER-SNR曲线(对于ASR)进行了比较模型,这说明了当语音输入的噪声水平增加时(即SNR降低时)时模型性能降解程度。对于低资源语言,干净的演讲设置已经具有挑战性,更不用说一种嘈杂的语言了。因此,我们专注于四种属于三种不同语言家族的高资源语言(法语,西班牙语,现代标准阿拉伯语和俄语),以进行我们的噪音分析。

  我们跟随裁判。47通过使用语音级质量度量计算平均副组平均得分和副组变异系数来评估对说话者变化的模型鲁棒性。我们使用的是CHRF,而不是将BLEU用作质量指标,它在话语层面上具有更好的稳定性。两个鲁棒性指标的计算不需要明确的扬声器子组标签。我们按内容(成绩单)对评估样本和相应的话语级CHRF分数进行了分组,然后计算了平均二苯二的平均得分CHRFMS和平均变异系数的平均副组系数,定义如下:

  其中g是由内容(成绩单)和。这两个指标是互补的:CHRFMS提供了标准化的质量指标,与传统的语料库级别不同,它考虑了扬声器的变化,而Coefvarms则提供了在扬声器变化下的标准化质量方差的标准衡量。为了进行鲁棒性分析,我们对所有在测试集中至少有40个内容组的语言进行了远程评估。

  受ASR-BLEU的启发,这项工作建议将ASR-Etox用作新的指标来检测语音中的添加毒性,并评估S2ST SeamlessM4T能力的添加毒性。本质上,该度量通过先部署标准ASR模块(即补充表2中定义的ASR-BLEU相同),然后使用毒性检测模块,ETOX27,使用毒性-200 Word列表6。对于S2TT,可以用ETOX直接评估翻译的输出。在这两种情况下(S2ST和S2TT),我们在话语或句子水平上测量了添加的毒性。我们首先计算了评估数据集和相应输出中每个输入的毒性检测。然后,我们比较它们,并将一个案例计算为仅当输出值超过输入值时,含有添加的毒性。此外,我们使用了最近提出的MUTOX度量标准,可以应用于文本或语音输出而无需ASR。该分类器已在语音和文本毒性上接受了30种语言的数据的培训。由于Mutox依赖于声纳嵌入29,Mutox通过零拍的属性使用相同数量的语言。但是,考虑到经过验证的质量,我们仅报告Mutox的基准测试的语言29。同样,在这两种情况下(S2ST和S2TT),我们在话语或句子水平上测量了添加的毒性。在这种情况下,如果输出中的Mutox得分> 0.9,输入中的句子含义为0.9,则句子包含毒性。我们已经用人类双语扬声器的几种语言对几种语言进行了实验验证这些阈值。对于S2TT,我们在抄录的语音和目标文本中计算了mutox。对于S2ST,我们在源和目标语音中计算了Mutox。

  为了减轻毒性,我们实施了两种减轻毒性的技术。在训练之前,我们过滤毒性不平衡的训练对。此外,我们在推理时使用Mintox11。特别是,主工作流以不受约束的搜索生成翻译假设。然后,在该假设上运行毒性分类器。如果未检测到毒性,我们将提供翻译假设。但是,如果在输出中检测到毒性,我们将在输入上运行分类器。如果毒性是不平衡的(也就是说,在输入中未检测到毒性),我们会用缓解措施重新运行翻译,这是横梁滤波步骤。该横梁滤光器包括作为输入的多型表达式,这些表达式不应出现在输出中,并将其排除在梁搜索假设之外。请注意,在输入中存在毒性的情况下,我们不会采用缓解措施(换句话说,我们不处理输入中毒性的情况,而在产出中毒性更大)。

  我们使用两个数据集分析了添加的毒性。首先,我们部署了逃亡,以更好地与人类评估工作和这项工作的其他评估组成部分保持一致。此外,我们使用了仅英语的整体框架77,该框架已被证明会触发以前的研究中的真正添加毒性27。在这项工作中,我们通过应用MMS23的默认英语TTS模型扩展了整​​体比亚。

  为了比较跨模态的表现(S2ST和S2TT),我们将多语言整体比亚斯扩展到Speech23(https://github.com/facebookercearch/fairseearch/fairseq/fairseq/tree/main/main/main/examples/mms#tts-1)。我们将此生成的TTS数据用作S2TT和S2ST的输入,并将其作为S2ST的参考。我们向两个方向进行了翻译:Eng – X和X – Eng。具体而言,在X – Eng中,我们翻译了演讲的男性和女性版本。值得注意的是,某些目标语言在SeamlessM4T S2ST模型中不可用,因此我们仅对ENG –X方向上的S2ST任务进行了17种语言的翻译。对于ENG – X中的S2TT,我们在多语言整体数据集中包含所有语言(n = 25)。作为参考,可以在补充表26中找到我们实验中使用的完整语言列表。

  在S2TT的评估指标方面,我们使用了CHRF。对于S2ST,我们使用了ASRCHRF(转录是通过Whisper-Large和Whisper-Medium20用于Eng – X和X-Eng的,并且CHRF的计算方式与S2TT相同的方法,除S2ST外,预测和参考的文本都均已归一化)和Blaser 2.0。值得注意的是,在对Blaser 2.0进行评估时,我们仅包含14种语言(ARB,CAT,DEU,ENG,FRA,NLD,NLD,POR,RON,RON,RUS,SPA,SPA,SPA,SWE,THA,THA,UKR和URD)用于ENG -X方向(从我们的S2ST模型中可用的TTS数据以及可用的语言中重叠的语言)。

左文资讯声明:未经许可,不得转载。