文档首页/ 语音交互服务 SIS/ SDK参考/ Java SDK/ 实时语音识别

更新时间：2025-09-11 GMT+08:00

查看PDF

实时语音识别

前提条件

确保已按照配置Java环境配置完毕。
确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。
请参考SDK（websocket）获取最新版本SDK包。

初始化Client

初始化RasrClient，其参数包括AuthInfo、RasrListener、SisConfig。

RasrListener需要用户自定义实现监听逻辑，请参见表1和表2。

表1 AuthInfo
参数名称	是否必选	参数类型	描述
ak	是	String	用户的ak，可参考AK/SK认证。
sk	是	String	用户的sk，可参考AK/SK认证。
region	是	String	区域，如cn-north-4，参考终端节点。
projectId	是	String	项目ID，同region一一对应，参考获取项目ID。
endpoint	否	String	终端节点，参考地区和终端节点。一般使用默认即可。

表2 SisConfig
参数名称	是否必选	参数类型	描述
connectionTimeout	否	Integer	连接超时，默认10000，单位ms。
readTimeout	否	Integer	读取超时，默认10000，单位ms。

请求参数

请求类为RasrRequest，详见表3。

表3 RasrRequest
参数名称	是否必选	参数类型	描述
audioFormat	是	String	音频格式，支持pcm，alaw，ulaw等，如pcm8k16bit，参见《API参考》中开始识别章节。
property	是	String	属性字符串，language_sampleRate_domain，如chinese_16k_general，参见《API参考》中开始识别章节。
punc	否	String	表示是否在识别结果中添加标点，取值为yes 、 no，默认no。
digitNorm	否	String	表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。
vadHead	否	Integer	头部最大静音时间，[0, 60000]，默认10000ms。
vadTail	否	Integer	尾部最大静音时间，[0, 3000]，默认500ms。
maxSeconds	否	Integer	音频最长持续时间， [1, 60]，默认30s。
intermediateResult	否	String	是否显示中间结果，yes 或 no，默认no。例如分3次发送音频，选择no结果一次性返回，选择yes分三次返回。
vocabularyId	否	String	热词表id，若没有则不填。
needWordInfo	否	String	表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为“no”。

响应参数

状态响应类为StateResponse，详见表4。

结果响应类为RasrResponse，详见表5。

调用失败处理方法请参见错误码。

表4 StateResponse
参数名称	是否必选	参数类型	描述
state	是	String	识别状态，包括start、end、fail。
traceId	是	String	用于日志问题追溯。
description	是	String	状态描述。

表5 RasrResponse
参数名	参数类型	说明
resp_type	String	参数值为RESULT，表示识别结果响应。
trace_id	String	服务内部的令牌，可用于在日志中追溯具体流程。
segments	Array of objects	多句结果。请参考表6。

表6 Segment
参数名	参数类型	说明
start_time	Integer	一句的起始时间戳，单位为ms。
end_time	Integer	一句的结束时间戳，单位为ms。
is_final	Boolen	true表示是最终结果， false表示为中间临时结果。
result	Object	调用成功表示识别结果，调用失败时无此字段。请参考表7。

表7 Result
参数名	参数类型	说明
text	String	识别结果。
score	Float	识别结果的置信度，取值范围：0~1。此值仅会在最终结果时被赋值，在中间结果时统一置为“0.0”。说明：目前置信度作用不是太大，请勿过多依赖此值。
word_info	Array of Object	分词输出列表。

表8 Word_info 数据结构
参数名	是否必选	参数类型	说明
start_time	否	Integer	起始时间
end_time	否	Integer	结束时间
word	否	String	分词

示例代码

如下示例仅供参考，最新代码请前往SDK（websocket）章节获取并运行。

import com.huawei.sis.bean.AuthInfo;
import com.huawei.sis.bean.SisConfig;
import com.huawei.sis.bean.SisConstant;
import com.huawei.sis.bean.request.RasrRequest;
import com.huawei.sis.bean.response.RasrResponse;
import com.huawei.sis.bean.response.StateResponse;
import com.huawei.sis.client.RasrClient;
import com.huawei.sis.bean.RasrListener;
import com.huawei.sis.util.JsonUtils;

/**
 * 实时语音识别demo
 *
 * Copyright 2021 Huawei Technologies Co.,Ltd.
 */
public class RasrDemo {
  private static final int DEFAULT_HEAD_SILENCE_TIME = 1000;
  private static final int DEFAULT_TAIL_SILENCE_TIME = 500;
  private static final int DEFAULT_CONTINUE_SECONDS = 30;

  // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全；
  // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
  private String ak = System.getenv("HUAWEICLOUD_SDK_AK");
  private String sk = System.getenv("HUAWEICLOUD_SDK_SK");


  private String region = "";         // 区域，如cn-north-1、cn-north-4
  private String projectId = "";      // 项目id。登录管理控制台，鼠标移动到右上角的用户名上，在下拉列表中选择我的凭证，在项目列表中查看项目id。多项目时，展开“所属区域”，从“项目ID”列获取子项目ID。

  private String path = "";           // 本地音频路径，如D:/test.wav, 也可将音频文件、音频流转换为byte数组后进行传送。

  private String audioFormat = "";    // 音频格式，如pcm16k16bit
  private String property = "chinese_16k_general";       // 属性字符串，language_sampleRate_domain，16模型推荐使用chinese_16k_general

  /**
   * 实时语音识别参数设置，所有参数设置均为可选，均有默认值。用户根据需求设置参数。
   *
   * @param request request请求，包含各种参数
   */
  private void setParameters(RasrRequest request) {

    // 1. 设置是否添加标点符号，yes 或 no， 默认"no"
    request.setAddPunc("yes");
    // 2. 设置头部的最大静音时间，[0,60000], 默认10000ms
    request.setVadHead(DEFAULT_HEAD_SILENCE_TIME);
    // 3. 设置尾部最大静音时间，[0, 3000], 默认500ms，
    request.setVadTail(DEFAULT_TAIL_SILENCE_TIME);
    // 4. 设置最长持续时间，仅在continue-stream，sentence-stream模式下起作用，[1, 60], 默认30s
    request.setMaxSeconds(DEFAULT_CONTINUE_SECONDS);
    // 5. 设置是否显示中间结果，yes或no，默认“no”。例如分3次发送音频，选择no结果一次性返回，选择yes分三次返回。
    request.setIntermediateResult("no");
    // 6. 设置热词表id, 若没有则设置，否则会报错。
    // request.setVocabularyId("");
    // 7. 设置是否将音频中数字转写为阿拉伯数字，yes or no，默认yes
    request.setDigitNorm("no");
    // 8. 设置是否需要word_info，yes or no, 默认no
    request.setNeedWordInfo("no");
  }

  /**
   * 定义config，所有参数可选，设置超时时间等。
   *
   * @return SisConfig
   */
  private SisConfig getConfig() {
    SisConfig config = new SisConfig();
    // 设置连接超时，默认10000ms
    config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT);
    // 设置读取超时，默认10000ms
    config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT);
    // 设置pingInterval，默认5000ms，当并发较大时，建议把此值设置大一些。如果不需要ping，可设置为-1
    // config.setPingInterval(-1);
    // 设置代理, 一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理，new ProxyHostInfo(host, port);
    // ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password);
    // config.setProxy(proxy);
    return config;
  }


  /**
   * 获取监听器，监听器的监听函数。
   *
   * @return RasrListener，用于监听实时语音识别的开始、识别结果、结束以及失败响应
   */
  private RasrListener getRasrListener() {
    RasrListener rasrListener = new RasrListener() {
      @Override
      /**
       * 连接成功回调
       */
      public void onTranscriptionConnect() {
        System.out.println("websocket connected");
      }

      @Override
      /**
       * 断开连接回调
       */
      public void onTranscriptionClose() {
        System.out.println("websocket closed");
      }

      @Override
      /**
       * 响应结果回调
       */
      public void onTranscriptionResponse(RasrResponse response) {
        printResponse(response);
      }

      @Override
      /**
       * 识别开始回调
       */
      public void onTranscriptionBegin(StateResponse response) {
        printResponse(response);
      }

      @Override
      /**
       * 识别结束回调
       */
      public void onSTranscriptionEnd(StateResponse response) {
        printResponse(response);
      }

      @Override
      /**
       * 识别出错回调
       */
      public void onTranscriptionFail(StateResponse response) {
        printResponse(response);
      }

      @Override
      public void onVoiceStart() {
        log.info("voice start event");
      }

      @Override
      public void onVoiceEnd() {
        log.info("voice end event");
      }

      @Override
      public void onExcceededSilence() {
        log.error("exceeded silence event");
      }

      @Override
      public void onExceededAudio() {
        log.error("exceeded audio event");
      }

      @Override
      public void onEvent(String event) {
        log.warn("receive event {}", event);
      }
    };
    return rasrListener;
  }


  private void printResponse(Object response) {
    try {
      System.out.println(JsonUtils.obj2Str(response, true));
    } catch (Exception e) {
      e.printStackTrace();
    }
  }

  /**
   * 实时语音识别SDK的工作流程
   */
  private void process() {
    // 1. 实现监听器接口RasrListener，用户自定义收到响应的处理逻辑。
    RasrListener rasrListener = getRasrListener();

    // 2. 初始化RasrClient
    AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId);
    RasrClient rasrClient = new RasrClient(authInfo, rasrListener, getConfig());
    try {


      // 3. 配置参数
      // audioFormat为支持格式、property为属性字符串
      RasrRequest request = new RasrRequest(audioFormat, property);
      setParameters(request);

      // 4 选择连接模式，目前实时语音识别提供三种接口，流式一句话、实时语音识别连续模式、实时语音识别单句模式
      // 选择1 流式一句话连接
      // rasrClient.shortStreamConnect(request);

      // 选择2，实时语音识别单句模式
      // rasrClient.sentenceStreamConnect(request);

      // 选择3，实时语音识别连续模式
      rasrClient.continueStreamConnect(request);
      // 设置企业id, 可选
      // Map<String, String> headers = OKHttpClientUtils.getJsonHeaders();
      // headers.put(SisConstant.ENTERPRISE_PROJECT_ID_KEY, "your enterprise_id");
      // rasrClient.continueStreamConnect(headers, request);

      // 5. 发送开始请求、发送音频、发送end请求
      // 发送开始请求，即将开始请求连带配置发送至服务端
      rasrClient.sendStart();

      // 发送数据，在实时语音连续模式下可多次发送。识别结果可以通过监听器获取
      // 可以自己控制发送速率.byteLen为每次发送大小，sleepTime为每次发送后睡眠时间(ms)，一些非持续获取音频场景不需要睡眠，可设置为0.
      rasrClient.sendAudio(path, 3200, 200);
      // rasrClient.sendAudio(path);
      // 可直接发送byte流,即byte数组
      // byte[] data = IOUtils.getFileData(path);
      // rasrClient.sendByte(data);
      // rasrClient.sendByte(data, byteLen, sleepTime);

      // 发送结尾请求
      rasrClient.sendEnd();




    } catch (Exception e) {
      e.printStackTrace();
    
    } finally {
      // 6. 关闭客户端。发送完毕后，此步一定要实施，否则服务端因为20s没有接收任何消息而报异常。
      rasrClient.close();
    }

  }

  public static void main(String[] args) {
    RasrDemo rasrDemo = new RasrDemo();
    rasrDemo.process();
  }
}

父主题： Java SDK

上一篇：录音文件识别

下一篇：语音合成

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问