首页专栏 python 文章详情

文字工作者福音：四行代码实现翻译，支持50种语言，开源代码，附性能实测

Chris 发布于 3 月 19 日

最近（确切地说是昨天），有人发布了使用深度学习技术进行文本翻译的 Python 库，调用起来非常方便，基于 Facebook AI 提出的多语种翻译模型，支持 50 种语言，简直是文字工作者的福音，我立马上去查看了一下，写了篇文章，来帮助大家使用。

注意：使用它可能不需要对深度学习有所了解，但是需要了解基础的 Python 知识。

使用方式

安装

安装它非常简单，只需要执行这行代码：

pip install dl-translate

但是建议新建一个环境安装，该库基于最新版的 PyTorch，没有在别的版本上测试。为了不扰乱系统内的环境（懂的都懂），还是新建一个环境比较好。

conda create -n torch1.8 python=3.8 conda activate torch1.8 pip install dl-translate

使用

官方指南中给出的使用代码，只有四行，就能完成翻译，非常的方便：

import dl_translate as dlt mt = dlt.TranslationModel() # 定义模型 text_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है" mt.translate(text_hi, source=dlt.lang.HINDI, target=dlt.lang.ENGLISH)

注意第一次使用需要下载模型，可能会比较慢，因为模型支持翻译 50 种语言，所以模型非常大，有 2.3G 。如果需要的话，我可以帮助大家下载下来传到百度网盘。

查看模型支持的语言：

对于比较长的一段话，翻译起来可能非常慢，所以建议先将它分为句子的形式，然后再一句一句翻译，对于英文，可以使用 nltk 包进行分句，然后将各个句子的翻译结果合并起来。

import nltk nltk.download("punkt") text = "Mr. Smith went to his favorite cafe. There, he met his friend Dr. Doe." sents = nltk.tokenize.sent_tokenize(text, "english") # don't use dlt.lang.ENGLISH " ".join(mt.translate(sents, source=dlt.lang.ENGLISH, target=dlt.lang.FRENCH))

批量翻译

在翻译过程中，我们可以利用 GPU 并行计算的优势进行翻译，调整 batch\_size，当然前提是你的 GPU 能放得下这么多句子。

... mt = dlt.TranslationModel() mt.translate(text, source, target, batch_size=32, verbose=True)

这里的输入 text ，既可以是一个字符串列表，也可以是一个单独的字符串，都会给出对应的结果。

性能测试

因为这个模型非常大，我所用的 GPU （2080ti）放不下这么大的模型，所以以下测试基于 CPU，有条件使用 GPU 的话速度按理说会快不少。在测试中，我将这句话翻译了100遍，来统计所用时间：

Many technical approaches have been proposed for ensuring that decisions made by AI systems are fair, but few of these methods have been applied in real-world settings.

它对应的谷歌翻译的效果：

已经提出了许多技术方法来确保AI系统做出的决策是公平的，但是这些方法中很少有在现实环境中应用的。

测试所用代码：

import dl_translate as dlt import time from tqdm import tqdm time_s = time.time() mt = dlt.TranslationModel(model_options=dict(cache_dir="./")) # Slow when you load it for the first time time_e = time.time() time_takes = time_e - time_s print("Loading model takes {:.2f} seconds".format(time_e - time_s)) text_english = "Many technical approaches have been proposed for ensuring that decisions made by AI systems are fair, but few of these methods have been applied in real-world settings." text_chinese = mt.translate(text_english, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE) print(text_chinese) time_s = time.time() texts = [text_english for i in range(100)] for t in tqdm(texts): mt.translate(t, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE) time_e = time.time() print("It takes {:.2f} seconds to translate 100 sentences, with an average of {:.2f} seconds each.".format(t ime_e - time_s, (time_e - time_s) / 100))

测试结果：

可以看到，加载模型花费了将近一分半的时间，翻译一句有 27 个词的英文，要花费约 4 秒的时间，这个时间很大程度上依赖于句子的长度。虽然翻译的结果和谷歌翻译的比起来，不够自然，但是对于一个能够离线使用的翻译器来说已经够好了。

参考链接

dl-translate：https://github.com/xhlulu/dl-translate 使用指南：https://xinghanlu.com/dl-translate/ mBART50 模型：https://huggingface.co/facebook/mbart-large-50-many-to-many-mmt 背后的论文：Multilingual Translation with Extensible Multilingual Pretraining and Finetuning

写在最后：如果觉得这篇文章对您有帮助，欢迎点赞收藏评论支持我，谢谢！

我的公众号：算法小哥克里斯，欢迎来撩！

算法 python 自然语言处理深度学习神经网络

阅读 95 更新于 3 月 19 日

赞收藏

本作品系原创，采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议

Chris

声望

0 粉丝

关注作者

0 条评论

得票数最新

提交评论

你知道吗？

注册登录

Chris

声望

0 粉丝

关注作者

宣传栏

使用方式

安装

安装它非常简单，只需要执行这行代码：

pip install dl-translate

但是建议新建一个环境安装，该库基于最新版的 PyTorch，没有在别的版本上测试。为了不扰乱系统内的环境（懂的都懂），还是新建一个环境比较好。

conda create -n torch1.8 python=3.8 conda activate torch1.8 pip install dl-translate

使用

官方指南中给出的使用代码，只有四行，就能完成翻译，非常的方便：

import dl_translate as dlt mt = dlt.TranslationModel() # 定义模型 text_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है" mt.translate(text_hi, source=dlt.lang.HINDI, target=dlt.lang.ENGLISH)

查看模型支持的语言：

import nltk nltk.download("punkt") text = "Mr. Smith went to his favorite cafe. There, he met his friend Dr. Doe." sents = nltk.tokenize.sent_tokenize(text, "english") # don't use dlt.lang.ENGLISH " ".join(mt.translate(sents, source=dlt.lang.ENGLISH, target=dlt.lang.FRENCH))

批量翻译

在翻译过程中，我们可以利用 GPU 并行计算的优势进行翻译，调整 batch\_size，当然前提是你的 GPU 能放得下这么多句子。

... mt = dlt.TranslationModel() mt.translate(text, source, target, batch_size=32, verbose=True)

这里的输入 text ，既可以是一个字符串列表，也可以是一个单独的字符串，都会给出对应的结果。

性能测试

Many technical approaches have been proposed for ensuring that decisions made by AI systems are fair, but few of these methods have been applied in real-world settings.

它对应的谷歌翻译的效果：

已经提出了许多技术方法来确保AI系统做出的决策是公平的，但是这些方法中很少有在现实环境中应用的。

测试所用代码：

import dl_translate as dlt import time from tqdm import tqdm time_s = time.time() mt = dlt.TranslationModel(model_options=dict(cache_dir="./")) # Slow when you load it for the first time time_e = time.time() time_takes = time_e - time_s print("Loading model takes {:.2f} seconds".format(time_e - time_s)) text_english = "Many technical approaches have been proposed for ensuring that decisions made by AI systems are fair, but few of these methods have been applied in real-world settings." text_chinese = mt.translate(text_english, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE) print(text_chinese) time_s = time.time() texts = [text_english for i in range(100)] for t in tqdm(texts): mt.translate(t, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE) time_e = time.time() print("It takes {:.2f} seconds to translate 100 sentences, with an average of {:.2f} seconds each.".format(t ime_e - time_s, (time_e - time_s) / 100))

测试结果：

参考链接

写在最后：如果觉得这篇文章对您有帮助，欢迎点赞收藏评论支持我，谢谢！

我的公众号：算法小哥克里斯，欢迎来撩！

人工智能自动驾驶神经网络机器学习数据挖掘 tensorflow

文字工作者福音：四行代码实现翻译，支持50种语言，开源代码，附性能实测

使用方式

安装

使用

批量翻译

性能测试

参考链接

Chris

0 条评论

Chris

宣传栏

目录

使用方式

安装

使用

批量翻译

性能测试

参考链接

相关推荐