跳转到主要内容

【前方视野】世界广播日的思考:当AI模仿人声,人类“声音”的独特价值何在?

人工智能正在彻底改变智能手机行业。
版权所有
人工智能正在彻底改变智能手机行业。
2月13日是世界广播日。今年,教科文组织将主题定为——“AI是一种工具,而不是声音”。在人工智能快速进入新闻播报、语音合成和内容分发的当下,这一命题直指广播与音频传播的核心命题。在中国,播客与数字音频正在经历高速发展,从车载空间到智能终端,声音正在以一种新的方式嵌入人们的日常生活。本期访谈中,我们将对话复旦大学新闻学院教授、传播与数据科学实验室主任孙少晶,深入探讨在AI深度介入的时代,声音如何继续承载情感、共鸣与公共价值,以及人类创作者的不可替代性。

问: 孙教授,您如何定义播客?

孙少晶: 播客这个概念一直在演化。播客早期是ipod和broadcast这两者之间的结合,它更多的是一种基于订阅模式的数字收听节目。

但是这两年学界对播客的理解正在发生变化,认为它以音频叙事为核心,慢慢地建立起一种新的关系纽带,播客不再单纯地基于下载到本地这种形式,而更多的是基于流媒体和交互体验。

所以播客已经超越了原来的那种所谓的订阅内容,变成了一种技术赋能的新的传播形态。

问:可以把播客理解成广播的延伸吗?

孙少晶:传统的广播是一种从广播台到听众的、线性的信息传递,但是播客不一样,播客把自主权还给了听众。尤其是现在的播客体现出更强的交互性和AI驱动,营造了一种更加具有沉浸感的收听环境。

它跟传统广播线性的信息传递是不一样的,播客可以反覆去听,收听环境更加多元、更加立体,不能把简单地认为它是传统的线性广播的延伸。

在灰色背景下穿着黑色西装,白色衫和图案带领.
复旦大学新闻学院教授、传播与数据科学实验室主任孙少晶。

问: 在中国,播客在传媒市场上占据一个什么样的份额呢?

孙少晶: 播客在中国听众一直是呈上升的趋势,在2025年听众人数已经达到1.5亿,预测明年就可以突破 1.7亿。它的市场规模大概在50亿(人民币)左右,跟其他媒体类型相比,它的市场规模还不见得那么庞大,但是它的增长速度确实非常可观,尤其是在中青年这个群体里面,而且已经形成了一种播客经济,也有人把它称为耳朵经济。

问: 博客的增长速度非常快,原因是什么?

孙少晶: 我觉得几方面原因。第一,主要是跟汽车在中国的普及有关系。汽车尤其是电动汽车的快速发展,催生了大量的汽车驾驶人,在驾驶汽车的同时,驾驶人员也可以收听节目,这是一个非常强的场景动力。第二,是博客融入智能终端之后,为播客的传播提供了强大的技术推动力。

播客在某种意义上是一种收听经济,也是一种慢经济,大家在收听的过程当中可以去享受这种慢的节奏,它可以给你提供更多的自主选择,可以很便捷地、按照你的生活节奏嵌入信息消费,这就给播客的快速增长提供了强大的用户驱动力。

问: 受众现在在收听播客的时候,有了更大的自主权,可以选择听什么、可以选择什么时候听。那么对于创作者来讲,又发生了什么样的变化呢?

孙少晶: 简单地讲,播客节目的创作者都希望有更广泛的听众。而当听众具有更多的自主选择权,“听众” 的内涵和指涉也在发生变化。播客时代的听众更加多元、更加分化、更加群体化, 创作者在制作内容的时候,理念上需要突破笼统的、同质化的听众概念,深入思考自己的内容指向哪个垂直领域、面向哪一个群体,需要去发现这样的潜在听众群体,甚至去培育这样的群体。

技术在改变,传播生态也在改变,信息的生产者和乐听者的关系也在改变。

电动车充电智能导航软件。
电动车充电智能导航软件。

问: 现在短视频非常盛行,有非常多的短视频平台,上面各种各样的视频吸引着人们的眼球。在这种环境下面,您怎么看待播客作为一种非视觉媒介的生命力呢?

孙少晶: 声音在人类生活当中,占有一个非常独特的地位,它是能够从某种角度体现人类本质的很独特的东西。不容否认,现在视觉文化,所谓的视觉经济,确实很发达。视觉性的东西通常有很强的冲击力,容易直接进行感官刺激。

但是这种冲击力通常是短暂的,很难让我们沉淀下来静静地去思考。相较而言,声音则具有它独特的价值。播客以声音营建沉浸式的收听环境,让我们更可能去专注于内容信息本身,更多地去思考内容的意义,声音刺激跟我们所接受的视觉刺激是共存和互补的。人本来就是一个多方位的存在,通过视觉的冲击和听觉的沉淀,我们人的生活变得更加立体、丰富和多元。

问: 我们看到很多的视频里面都会用AI模拟的声音来配音,您觉得这种现象会不会延伸到播客?

孙少晶: AI的声音进入播客是不容置疑的。我们已经看到了AI在模拟图像、模拟视频这方面发展很快,SORA的视频模拟技术升级非常快,AI模拟声音进步也会很快,准确度方面会有极大的提升,这意味着我们将会面临一种AI模拟声音与人类真实声音的共存环境, 而这将会是一种非常有趣、非常值得去研究的传播样态。

但是另外一方面,我们要思考,在这个过程当中,人类真实的声音,它的价值到底在哪里,现实中如何让其价值得以充分体现?这里面有非常深层次的哲学含义和对人性的思考。

问: 联合国教科文组织把今年世界广播日的主题定为“AI是一种工具,而不是声音“。您认同教科文组织的这种提法吗?

孙少晶:人类和AI的关系定位,是学界一直在热烈讨论的一个话题, AI能否成为一种声音,取决于我们怎么定义声音。我觉得它是一种声音,但不是我们所讲的人文意义上的声音。

随着AI技术的发展,AI模仿声音会越来越准确,人们也许会潜移默化中接受它作为自然声音。当需要注意的是,现实中人的声音交往不可能是百分之百的准确。我们有时候在日常对话、发出声音的过程当中会无意识地出现差错,比如口误、偶尔的舌头不听使唤,而这种不完美正好是人类声音的一种魅力。

media:entermedia_image:68c445ff-141b-4bae-a407-1a1b57021f1b

比如说股市信息播报,一个基本要求就是发音要标准、准确,在这种情况下,用AI来播报信息比较容易达到听众预期——当下数字新闻播报人日益流行,在客观事实播报语境里面区分人类真实声音和AI 模拟声音可能没那么重要。

但是在其它语境里,比如说突然发生了重大的灾难事件,你去报道当时这个灾难的场景、受到影响的居民、他们所经历的痛苦磨难、以及他们所需要的帮助,如果完全依靠AI来播报这个灾难,它的播报可能达不到深层次的感染力和共鸣力,因为AI缺失人类才具有的基于当下语境的同理心、同情心,这种深层次的共情能力是通过人的生物进化、生活体验、学习教育等慢慢培育起来,不是机器能够简单模拟的。

问: 在播客的创作过程当中,除了声音的使用之外,AI作为工具还能在哪些方面赋能于创作者,而不是取代他们呢?

孙少晶: 有了AI工具之后,在前期对于主题的构思、创意这方面,AI会发挥很大的作用。 AI工具可以为播客生产者提供更加丰富的素材,提供一些不同的角度来挑战你的既有想法,这可以帮助创作者扩展思路,批判辩证地分析问题。

AI也可以赋能播客节目的营销分发。AI可以帮助创作者描绘目标听众画像,甚至帮助他们寻找潜在的听众群体,动态调整营销和分发策略。

还有多语种问题,这在以前是很难想象的,创作者用一个语种创作的播客,现在能够通过AI快速翻译为不同的语种触达多个国家。

数十亿人使用社交媒体。

问: Ai时代现在才刚刚开始。展望未来,您觉得数字听觉文化还会演化出什么样的新形态呢?

孙少晶: AI的发展将会催生新型的传播生态和经济形态。AI的应用会推动“听觉媒介”向“听觉环境”、甚至“听觉存在”的转换。换句话讲,数字听觉文化将会带来新型的生活方式、社会交往、集体意识、生命体验,声音不再是虚无缥缈的存在,而是会跟人、物、环境、技术等深度结合。

早期的播客常常被视为一种媒介节目,听众基于个人兴趣和需求寻找播客,建立了播客与听众的二元互动关系。随着AI 深度嵌入复杂的生活场域,比如嵌入汽车驾驶环境,嵌入家居环境,不同的听觉氛围得以产生。在这个意义上,播客就不单纯是听觉媒介,已经成为一种立体、动态、充满张力(封闭与开放)的氛围环境,融入人、物、自然信息(比如收听环境的温度、湿度)、生活信息(比如汽车内的装饰美观)等,更加具有氛围沉浸性、多感冲击性和即时生成性。可以想象,将来当你走在陌生城市的街道,或者参与热烈的集体讨论时,AI会实时采集环境数据,将其转化为只有你能听见的“认知旁白”。这种形态将打破传播延迟,信息不再是视听后的消化,而是以声音的形式直接诉诸人的感知器官,形成一种人机共驱动的“辅助听觉”。

以上是复旦大学新闻学院教授、传播与数据科学实验室主任孙少晶在世界广播日接受联合国新闻《前方视野》的采访。

本期节目内容仅代表嘉宾观点。

本节目音频不得用于人工智能训练和应用。