语音识别改进

语音识别程序现在可以在 iOS 或 macOS 设备本地使用，无需接入网络。了解如何在您的 app 中整合文字语音转换支持，同时保护隐私并消除基于服务器的处理的各种限制。语音识别 API 也得到了增强，可提供语速、停顿时长和语音质量等更加丰富的分析功能。

资源

大家好我是 Neha Agrawal 是一名语音识别软件工程师

2016 年我们推出了语音识别框架供开发者使用以满足他们的语音识别需求如果你对这一框架还不了解我强烈建议你观看这场关于语音识别 API 的会议主讲人是我的同事 Henry Mason

本视频中我们会探讨这些 API 取得的新进展我们现在开始

语音识别现已支持 macOS 既支持 AppKit 也支持 Mac 上的 iPad App

而且和 iOS 一样支持五十多种语言

你需要用户授权访问麦克风从而录制语音用户还需要启用 Siri

除了在 macOS 上支持语音识别外我们现在还允许开发者为重视隐私的 App 在设备本地运行语音识别支持设备本地运行用户的数据就不会传到 Apple 的服务器

你的 App 不再需要依赖网络连接也不会消耗流量

但同时要权衡许多因素在设备本地运行时识别很准确在服务器上运行效果更好因为可以连续学习但服务器上的语音识别会受请求数量和语音时长的限制而在设备本地识别则不会受到这些限制

服务器支持的语言种类远大于设备本地识别

而且如果服务器不可用且支持设备本地识别服务模式会自动变为设备本地识别所有配备 A9 或更新处理器的 iPhone 和 iPad 以及所有的 Mac 均支持此功能

设备本地识别现支持超过 10 种语言接下来我们来看看如何用代码实现设备本地语音识别要识别预先录制的音频我们首先创建 SFSpeechRecognizer 对象并检查语音识别能否用于这一对象

如果语音识别可用我们就可以使用音频文件 URL 创建识别请求并开始识别

要使用设备本地识别首先要检查设备是否支持本地识别然后设置请求对象的 requiresOnDeviceRecognition 属性

我们看过了这部分代码接下来看看得到的结果从 iOS 10 开始识别结果中提供了语音转写不同版本的识别文本置信水平和时间信息

现在我们要进一步扩充语音识别结果

语音速率按每分钟词数衡量一个人说话的快慢程度

平均停顿时长衡量词与词之间停顿的平均长度语音分析特征包含语音特征的不同参数

语音分析可以帮助理解四种特征基频微扰衡量语音中音高的变化你可以借助语音分析用百分比的形式理解语音中基频微扰的程度

振幅微扰衡量语音中音量大小的变化你可以借助语音分析以分贝为单位理解语音中振幅微扰的程度我们来听一些音频样本来理解高基频微扰和高振幅微扰音频是什么样的首先我们来听一段正常语音 Apple

现在来听一段修改过的语音 00:04:25.956 --> 00:04:26.846 A:middle Apple

下一项特征是音高音高衡量的是音调的高低一般来说女性和儿童的音高更高

发音则用来衡量语音中发音的位置语音分析特征因人而异也随时间和场合变化例如如果讲话人较为疲惫那么语音分析特征便与不疲惫时有所不同而且随着讲话人的说话对象发生变化这些特征也会随之改变

这些新的结果是 SFTranscription 对象的一部分而且会定期提供我们会在最后也就是在 isFinal 标志发送后提供但也可以在此之前看到你可以如幻灯片所示访问 speakingRate 和 averagePauseDuration

要访问语音分析你要先访问 SFTranscription 的 segment 对象之后如幻灯片所示进行访问

总而言之我们有三项重大进展你现在可以在 macOS 中编写使用语音识别 API 的 App

语音识别可以在设备本地运行更好地保护隐私最后你可以访问语音分析特征从而更好地理解语音特征

若要了解更多信息请访问本会议的网站感谢观看