功能介绍

为开发者提供精准的语音识别服务,支持多种音频格式包括mp3、wav、pcm等。主要应用于字幕生成、语音质检、会议记录等场景,能快速准确的将录音文件转化成文字,节省成本,提高效率。

使用方式背景图

产品体验

识别结果:

请点击右侧按钮上传音频

请输入16KHz 单通道 的wav/pcm格式的普通话音频文件进行体验:

上传音频

技术特色

  • 91%以上的准确率

    先进的识别技术,融入声智高水平的声源定位、多麦降噪、回声消除技术。

  • 支持多语言和方言

    支持中、英两种语言识别,还支持粤语、四川话、东北话等方言。

  • 个性化热词识别

    针对当前使用场景中的专有名词支持上传热词,提高识别准确性。

  • 上下文纠错

    针对上下文进行语义理解并将中间结果智能纠错,提供智能断句和标点的预测,确保准确性。

应用场景

  • 庭审音频录入

    将庭审记录的音频文件,转化成文字形式,记录到数据库中

  • 会议记录总结

    将会议的音频转化成文字,为后期人工筛选总结、录入提供方便。

  • 字幕生成

    转写视频中的音频文件,轻松生成与视频对应的字幕

  • 音频质检

    将音频文件转写成文字,并通过关键字搜索的方式,进行检测,鉴别出黄暴、涉证的内容。

  • 立即试用
    常见问题
    • 问:方言和采样率都支持,为什么返回是不支持的文件类型?

      答:
      不同的采样率支持不同的方言、语种的识别,可能存在一些采样率和方言、语种的搭配是不识别的,具体信息详见录音识别文档。
    • 问:识别准确率低,相比原文差距大?

      答:
      请检查音频请求头是否设置正确,包括音频频率等,音频格式是否与上传的音频相符合,上传音频的速度是否过快。
    • 问:识别的输入数据的时间间隔?

      答:
      每发送2048字节,建议间隔64ms,上传音频速度过快会导致音频转译不及时而返回空结果。