当用户有跨语种交流或内容翻译的需求时,应用需要能自动检测文本的语种再进行翻译。
HMS Core 机器学习服务的语种检测服务提供在线语种检测和离线语种检测,既支持检测单语种文本,也支持检测混合语种文本,涵盖南非荷兰语、阿拉伯语等百种语言。接入语种检测服务,App 可以轻松实现翻译语种检测、网页语种检测,混合语种场景中语种检测等,帮助 App 提升用户体验。
语种检测流程
输入文本,机器学习服务语种对该文本自动进行语种进行检测,然后返回对应语种编码和相应的置信度,或者返回一个置信度最高的语种编码给开发者的应用。最终在开发 app 页面呈现出翻译出的文本。
![up-762a1ec8d5d19520b9cea379863f682768d.png up-762a1ec8d5d19520b9cea379863f682768d.png](https://static.assets-stash.eet-china.com/forum/202206/21/111723wvlxa999z4glvg09.png)
效果演示
![up-bffa6cb263aa6cc9a13760c78612fe9334f.gif up-bffa6cb263aa6cc9a13760c78612fe9334f.gif](https://static.assets-stash.eet-china.com/forum/202206/21/111723hrrfrmt0cmkmmiju.gif)
1. 开发准备
在进行开发前需要配置 HMS Core SDK 的 Maven 仓地址
repositories { maven { url'https://cmc.centralrepo.rnd.huawei.com/artifactory/product_maven/' } }
复制代码dependencies{ implementation 'com.huawei.hms:ml-computer-language-detection:3.4.0.301' }
复制代码2. 编辑工程集成
2.1 设置应用的鉴权信息
可以通过api_key或者Access Token来设置应用鉴权信息。通过setAccessToken方法设置Access Token,在应用启动时初始化设置一次即可,无需多次设置。 MLApplication.getInstance().setAccessToken("your access token"); 通过setApiKey方法设置api_key,在应用启动时初始化设置一次即可,无需多次设置。 MLApplication.getInstance().setApiKey("your ApiKey");
复制代码// 方式一:使用默认的参数配置创建语种检测器。MLRemoteLangDetector mlRemoteLangDetector = MLLangDetectorFactory.getInstance() .getRemoteLangDetector(); // 方式二:使用自定义的参数配置创建语种检测器。 MLRemoteLangDetectorSetting setting = new MLRemoteLangDetectorSetting.Factory() // 设置语种检测的最低置信度阈值。 .setTrustedThreshold(0.01f) .create(); MLRemoteLangDetector mlRemoteLangDetector = MLLangDetectorFactory.getInstance() .getRemoteLangDetector(setting);
复制代码异步方法示例代码
// 方式一:返回多个语种检测结果,包括语种编码以及置信度,sourceText表示待检测的文本,长度需小于5000个字符。Task<List<MLDetectedLang>> probabilityDetectTask = mlRemoteLangDetector.probabilityDetect(sourceText); probabilityDetectTask.addOnSuccessListener(new OnSuccessListener<List<MLDetectedLang>>() { @Override public void onSuccess(List<MLDetectedLang> result) { // 成功的处理逻辑。 } }).addOnFailureListener(new OnFailureListener() { @Override public void onFailure(Exception e) { // 失败的处理逻辑。 // Recognition failure. try { MLException mlException = (MLException)e; // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。 int errorCode = mlException.getErrCode(); // 获取报错信息,开发者可以结合错误码,快速定位问题。 String errorMessage = mlException.getMessage(); } catch (Exception error) { // 转换错误处理。 } } }); // 方式二:返回置信度最高的语种编码,sourceText表示待检测的文本,长度需小于5000个字符。 Task<String> firstBestDetectTask = mlRemoteLangDetector.firstBestDetect(sourceText); firstBestDetectTask.addOnSuccessListener(new OnSuccessListener<String>() { @Override public void onSuccess(String s) { // 成功的处理逻辑。 } }).addOnFailureListener(new OnFailureListener() { @Override public void onFailure(Exception e) { // 失败的处理逻辑。 // Recognition failure. try { MLException mlException = (MLException)e; // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。 int errorCode = mlException.getErrCode(); // 获取报错信息,开发者可以结合错误码,快速定位问题。 String errorMessage = mlException.getMessage(); } catch (Exception error) { // 转换错误处理。 } } });
复制代码// 方式一:返回多个语种检测结果,包括语种编码以及置信度,sourceText表示待检测的文本,长度需小于5000个字符。try { List<MLDetectedLang> result= mlRemoteLangDetector.syncProbabilityDetect(sourceText); } catch (MLException mlException) { // 失败的处理逻辑。 // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。 int errorCode = mlException.getErrCode(); // 获取报错信息,开发者可以结合错误码,快速定位问题。 String errorMessage = mlException.getMessage(); } // 方式二:返回置信度最高的语种编码,sourceText表示待检测的文本,长度需小于5000个字符。 try { String language = mlRemoteLangDetector.syncFirstBestDetect(sourceText); } catch (MLException mlException) { // 失败的处理逻辑。 // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。 int errorCode = mlException.getErrCode(); // 获取报错信息,开发者可以结合错误码,快速定位问题。 String errorMessage = mlException.getMessage(); }
复制代码if (mlRemoteLangDetector != null) { mlRemoteLangDetector.stop(); }
复制代码来源:HMS Core