Compare Plans

什么是语音识别

语音识别定义

语音或说话人识别是机器或程序接收和解释听写或理解和执行语音命令的能力。随着人工智能(AI)和智能助手(如亚马逊的Alexa和苹果的Siri)的兴起,语音识别获得了突出和使用。语音识别系统让消费者只需与技术交谈即可与技术进行交互,从而实现免提请求、提醒和其他简单任务。
语音识别可以使用自动语音识别(ASR)软件程序识别和区分语音。某些ASR程序要求用户首先训练程序识别其语音,以实现更准确的语音到文本转换。语音识别系统评估语音的频率、口音和语音流。
尽管语音识别和语音识别可以互换使用,但它们并不相同,必须进行关键的区分。语音识别识别说话人,而语音识别评估所说的话。

语音识别的工作原理

计算机上的语音识别软件需要将模拟音频转换为数字信号,称为模数转换(A/D)。对于破译信号的计算机,它必须有一个单词或音节的数字数据库,以及将这些数据与信号进行比较的快速过程。语音模式存储在硬盘驱动器上,并在程序运行时加载到内存中。比较器根据A/D转换器的输出检查这些存储的模式-这种操作称为模式识别。
显示语音识别如何工作
 
语音识别将模拟音频转换为数字信号,然后由模式识别和语音识别软件进行解释。
实际上,语音识别程序的有效词汇量的大小与安装它的计算机的RAM容量直接相关。与在硬盘驱动器中搜索某些匹配项相比,如果可以将整个词汇加载到RAM中,则语音识别程序的运行速度要快很多倍。处理速度至关重要,因为它会影响计算机在RAM中搜索匹配项的速度。
 
为了清晰起见,还必须处理音频,因此某些设备可能会过滤掉背景噪音。在某些语音识别系统中,音频中的某些频率被强调,以便设备可以更好地识别语音。
语音识别系统通过两种模型之一分析语音:隐马尔可夫模型和神经网络。隐马尔可夫模型将口语单词分解为音素,而递归神经网络使用前面步骤的输出来影响当前步骤的输入。
随着语音识别技术用途的增长和越来越多的用户与之交互,实施语音识别软件的组织将有更多的数据和信息输入语音识别系统的神经网络。这提高了语音识别产品的功能和准确性。
 
智能手机的普及为将语音识别技术添加到消费者口袋中提供了机会,而家用设备(如GoogleHome和AmazonEcho)则将语音识别技术带入了客厅和厨房。

语音识别用途

随着人工智能、机器学习和消费者接受度的成熟,语音识别的使用迅速增长。如何使用语音识别的示例包括:
  • 虚拟助手。Siri,Alexa和Google虚拟助手都实现了语音识别软件来与用户进行交互。消费者使用语音识别技术的方式因产品而异。但他们可以使用它来将语音转录为文本,设置提醒,搜索互联网并回答简单的问题和请求,例如播放音乐或共享天气或交通信息。
  • 智能设备。用户可以使用语音识别软件控制他们的智能家居,包括智能恒温器和智能扬声器。
  • 自动电话系统。组织在其电话系统中使用语音识别,通过说出特定号码将呼叫者定向到相应的部门。
  • 会议。语音识别用于为说话者提供实时字幕,以便其他人可以实时跟随所说的文本。
  • 蓝牙。现代汽车中的蓝牙系统支持语音识别,以帮助驾驶员将视线集中在道路上。驾驶员可以使用语音识别来执行命令,例如“呼叫我的办公室”。
  • 听写和语音识别软件。这些工具可以帮助用户听写和转录文档,而无需使用物理键盘或鼠标输入文本。
  • 政府。国家安全局使用可追溯到2006年的语音识别系统来识别恐怖分子和间谍或验证任何说话者的音频。

语音识别优缺点

语音识别提供了许多好处:
  • 消费者可以通过直接与语音助手或其他语音识别技术交谈来进行多任务处理。
  • 视力有问题的用户仍然可以与其设备进行交互。
  • 机器学习和复杂的算法帮助语音识别技术快速将口语转换为书面文本。
  • 这项技术可以比某些用户打字更快地捕获语音。这使得记笔记或设置提醒等任务更快、更方便。
但是,该技术的一些缺点包括:
  • 背景噪音会产生错误输入。
  • 虽然准确率正在提高,但所有语音识别系统和程序都会出错。
  • 听起来相似但拼写不同且含义不同的单词存在问题-例如,听到和这里。使用存储的上下文信息可以在很大程度上解决此问题。但是,这需要更多的RAM和更快的处理器。

语音识别的历史

语音识别技术在过去五十年中呈指数级增长。追溯到1976年,计算机只能理解略多于1个单词。随着IBM继续开发语音识别技术,这一总数在000年代跃升至约20,000。
1952年,贝尔实验室发明了AUDREY——自动数字识别器——它只能理解数字1970到1。在011年代早期至中期,美国国防部开始为语音识别系统的开发做出贡献,资助国防高级研究计划局语音理解研究。由卡内基梅隆大学开发的Harpy是当时的另一个语音识别系统,可以识别多达<>,<>个单词。
Dragon公司于1990年推出了第一款面向消费者的扬声器识别产品DragonDictate。这后来被NuanceCommunications的DragonNaturalPeak所取代。1997年,IBM推出了IBMViaVoice,这是第一款可以识别连续语音的语音识别产品。
苹果在2011年推出了Siri,它仍然是一个突出的语音识别助手。2016年,谷歌推出了手机谷歌助手。语音识别系统可以在手机,智能扬声器,笔记本电脑,台式机和平板电脑等设备以及DragonProfessional和PhilipsSpeechLive等软件中找到。
在过去的十年中,其他几家技术领导者开发了更复杂的语音识别软件,例如亚马逊Alexa。亚马逊Alexa于2014年发布,还充当响应语音命令的个人助理。目前,语音识别软件可用于Windows,Mac,Android,iOS和Windows手机设备。

声明:优质内容贵在与大家共享,部分文章来源于网络,如有侵权请告知,我们会在第一时间处理。合作交流请加微信。

下一篇

什么是数据中心(数据中心的主要功能和作用)

通信百科

什么是数据中心(数据中心的主要功能和作用)

数据中心是一个物理机房、建筑物或设施,它容纳用于构建、运行和交付应用程序和服务的IT基础设施,以及存储和管理与这些应用程序和服务相关的数据。 近年来,数据中心已经从私有的、严格控制的本地设施(包含一家公司专用的传统IT基础设施)发展到云服务提供商拥有的远程设施或设施网络,这些设施包含虚拟化IT基础设施,供多家公司和客户共享使用。数据中心的类型有不同类型的数据中心设施,一家公司可能会 ...

相关内容

什么是FreePBX?部署FreePBX系统需要考虑哪些因素等?

什么是FreePBX?部署FreePBX系统需要考虑哪些因素等?

FreePBX是一个基于Asterisk软交换平台的企业级通信解决方案,它提供了......

通信百科

2024-09-08

什么是CBSS?详解中国联通的业务支持系统!

什么是CBSS?详解中国联通的业务支持系统!

CBSS系统,全称为集中业务支撑系统(Central Business Supp......

通信百科

2024-09-08

什么是Asterisk及其常见协议、用途、功能有哪些?

什么是Asterisk及其常见协议、用途、功能有哪些?

Asterisk是一个开源的电话应用平台,它可以将普通计算机转变为功能强大的电话......

通信百科

2024-09-07