定义

语音识别

什么是语音识别?

语音识别,或语音到文本,是一种能力的机器或程序识别大声说出的单词,并将它们转换成可读的文本。基本的语音识别软件词汇量有限,只能清楚地说出单词和短语。更复杂的软件可以处理自然语音,不同的口音和各种语言。

语音识别利用了计算机科学、语言学和计算机工程的广泛研究。许多现代设备和文本程序都有语音识别功能,使设备的使用更容易或免提。

语音识别和语音识别是两种不同的技术和不应该混淆

  • 语音识别用来识别口语中的单词。
  • 语音识别是一种用来识别个人声音的生物识别技术。

语音识别是如何工作的?

语音识别系统使用计算机算法处理和解释口语并把它们转换成文本。一个软件程序将麦克风记录的声音转换成计算机和人类都能理解的书面语言,遵循以下四个步骤:

  1. 分析了音频;
  2. 把它分成几部分;
  3. 把它数字化成电脑可读的格式;和
  4. 使用算法将其匹配到最合适的文本表示。

语音识别软件必须适应人类语言高度可变和上下文特定的特性。将音频处理和组织成文本的软件算法经过不同的语音模式、说话风格、语言、方言、口音和短语的训练。该软件还能将语音和通常伴随信号的背景噪音分离开来。

为了满足这些要求,语音识别系统使用两种类型的模型:

  • 声学模型。这些代表了言语单位和音频信号之间的关系。
  • 语言模型。在这里,发音与单词序列相匹配,以区分发音相似的单词。

语音识别的用途是什么?

语音识别系统有相当多的应用。以下是其中的一些例子。

移动设备。智能手机使用语音命令进行呼叫路由、语音到文本处理、语音拨号和语音搜索。用户可以不看设备就回复短信。在苹果(Apple) iphone上,语音识别为键盘和虚拟助手Siri提供了动力。功能在第二语言中也可用。语音识别也可以在word等文字处理应用程序中找到,用户可以口述单词并将其转换成文本。

虚拟助理任务表
虚拟助手使用语音识别与用户交流,并执行由语音命令触发的各种任务。

教育。语言教学使用语音识别软件。该软件可以听到用户的语音,并提供发音帮助。

客户服务。自动语音助手倾听客户的查询,并提供有用的资源。

医疗应用程序。医生可以使用语音识别软件将笔记实时转录到医疗记录中。

残疾的援助。语音识别软件可以将口头文字翻译成文本使用关闭字幕使听力受损的人能够理解别人在说什么。语音识别还可以让那些双手使用能力有限的人使用语音命令而不是打字来操作电脑。

法院报告。软件可以用来转录法庭程序,排除了人类转录员的需要。

情感识别。这项技术可以分析特定的声音特征,以确定说话人的情绪。结合情感分析,它可以揭示某人对产品或服务的感觉。

免提通信。司机使用语音控制进行免提通信,控制电话、收音机和全球定位系统为例。

人工智能语音识别应用程序列表
语音识别技术与其他人工智能技术的应用比较。

语音识别系统的特点是什么?

好的语音识别程序可以让用户根据自己的需要进行定制。支持此功能的特性包括:

  • 语言的权重。这个特性告诉算法要特别注意特定的词,比如那些经常说的词,或者那些对话或主题所特有的词。例如,可以对软件进行培训,以了解具体的产品参考。
  • 声学培训。该软件可以屏蔽干扰语音的环境噪音。经过声学训练的软件程序可以在办公室里许多人说话的嘈杂声中分辨出说话的风格、节奏和音量。
  • 演讲者标签。该功能使程序能够标记单个参与者,并确定他们对对话的具体贡献。
  • 亵渎过滤。在这里,软件会过滤掉不受欢迎的词汇和语言。

有哪些不同的语音识别算法?

语音识别功能背后的强大力量来自一套算法和技术。它们包括:

  • 隐马尔科夫模型。摘要当一个状态是部分可观察到的,或者当传感器不能立即获得做出决定所需的所有信息时(在语音识别的情况下,是一个麦克风),自动系统中使用。这方面的一个例子是声学建模,其中程序必须使用统计概率将语言单元与音频信号匹配。
  • 自然语言处理。NLP减轻和加速语音识别过程。
  • 字格。这种语言模型的简单方法为序列创建了一个概率分布。例如,一种算法会查看人们最后说出的几个单词,模拟语音样本的历史,并以此来确定下一个单词或短语被说出的概率。
  • 人工智能。人工智能机器学习深度学习和神经网络等方法在高级语音识别软件中很常见。这些系统使用语法、结构、语法和音频和语音信号的组成来处理语音。机器学习系统通过每次使用获得知识,使它们非常适合口音等细微差别。

语音识别的优点是什么?

使用语音识别软件有以下几个优点:

  • Machine-to-human沟通。这项技术使电子设备能够用自然语言或会话式语音与人类交流。
  • 容易访问。这种软件经常安装在电脑和移动设备上,使其易于使用。
  • 易于使用。设计良好的软件操作简单,通常在后台运行。
  • 连续、自动改进。随着时间的推移,包含人工智能的语音识别系统会变得更有效、更容易使用。当系统完成语音识别任务时,它们会生成更多关于人类语音的数据,并在它们所做的事情上做得更好。

语音识别的缺点是什么?

语音识别技术虽然方便,但仍有一些问题需要解决。限制包括:

  • 不一致的性能。由于发音的差异、缺乏对某些语言的支持以及无法对背景噪音进行分类,这些系统可能无法准确地捕捉单词。环境噪声尤其具有挑战性。声学训练可以帮助过滤,但这些程序并不完美。有时候是不可能隔离人类的声音的。
  • 速度。一些语音识别程序需要时间来部署和掌握。语音处理可能会感觉相对缓慢
  • 源文件的问题。语音识别的成功与否不仅取决于软件,还取决于所使用的录音设备。

的外卖

语音识别是一项不断发展的技术。这是人们不需要或很少打字就能与电脑交流的许多方式之一。多种基于通信的业务应用程序利用了这种技术所带来的方便和速度的语音通信。

经过60多年的发展,语音识别程序已经取得了长足的进步。它们仍在改进,特别是在人工智能的推动下。

了解更多有关人工智能商业转录软件在这个问答环节中威尔弗里德·沙夫纳,语音处理解决方案的首席技术官。

这是最近更新的2021年9月

继续阅读关于语音识别

深入了解呼叫中心的软件和应用

搜索内容管理
搜索统一通信
搜索数据管理
搜索企业人工智能
搜索ERP
关闭
Baidu