【前方视野】世界广播日的思考：当AI模仿人声，人类“声音”的独特价值何在？

2026年 02月 11日

人工智能正在彻底改变智能手机行业。

2月13日是世界广播日。今年，教科文组织将主题定为——“AI是一种工具，而不是声音”。在人工智能快速进入新闻播报、语音合成和内容分发的当下，这一命题直指广播与音频传播的核心命题。在中国，播客与数字音频正在经历高速发展，从车载空间到智能终端，声音正在以一种新的方式嵌入人们的日常生活。本期访谈中，我们将对话复旦大学新闻学院教授、传播与数据科学实验室主任孙少晶，深入探讨在AI深度介入的时代，声音如何继续承载情感、共鸣与公共价值，以及人类创作者的不可替代性。

问：孙教授，您如何定义播客？

孙少晶：播客这个概念一直在演化。播客早期是ipod和broadcast这两者之间的结合，它更多的是一种基于订阅模式的数字收听节目。

但是这两年学界对播客的理解正在发生变化，认为它以音频叙事为核心，慢慢地建立起一种新的关系纽带，播客不再单纯地基于下载到本地这种形式，而更多的是基于流媒体和交互体验。

所以播客已经超越了原来的那种所谓的订阅内容，变成了一种技术赋能的新的传播形态。

问：可以把播客理解成广播的延伸吗？

孙少晶：传统的广播是一种从广播台到听众的、线性的信息传递，但是播客不一样，播客把自主权还给了听众。尤其是现在的播客体现出更强的交互性和AI驱动，营造了一种更加具有沉浸感的收听环境。

它跟传统广播线性的信息传递是不一样的，播客可以反覆去听，收听环境更加多元、更加立体，不能把简单地认为它是传统的线性广播的延伸。

复旦大学新闻学院教授、传播与数据科学实验室主任孙少晶。

问：在中国，播客在传媒市场上占据一个什么样的份额呢？

孙少晶：播客在中国听众一直是呈上升的趋势，在2025年听众人数已经达到1.5亿，预测明年就可以突破 1.7亿。它的市场规模大概在50亿（人民币）左右，跟其他媒体类型相比，它的市场规模还不见得那么庞大，但是它的增长速度确实非常可观，尤其是在中青年这个群体里面，而且已经形成了一种播客经济，也有人把它称为耳朵经济。

问：博客的增长速度非常快，原因是什么？

孙少晶：我觉得几方面原因。第一，主要是跟汽车在中国的普及有关系。汽车尤其是电动汽车的快速发展，催生了大量的汽车驾驶人，在驾驶汽车的同时，驾驶人员也可以收听节目，这是一个非常强的场景动力。第二，是博客融入智能终端之后，为播客的传播提供了强大的技术推动力。

播客在某种意义上是一种收听经济，也是一种慢经济，大家在收听的过程当中可以去享受这种慢的节奏，它可以给你提供更多的自主选择，可以很便捷地、按照你的生活节奏嵌入信息消费，这就给播客的快速增长提供了强大的用户驱动力。

问：受众现在在收听播客的时候，有了更大的自主权，可以选择听什么、可以选择什么时候听。那么对于创作者来讲，又发生了什么样的变化呢？

孙少晶：简单地讲，播客节目的创作者都希望有更广泛的听众。而当听众具有更多的自主选择权，“听众” 的内涵和指涉也在发生变化。播客时代的听众更加多元、更加分化、更加群体化，创作者在制作内容的时候，理念上需要突破笼统的、同质化的听众概念，深入思考自己的内容指向哪个垂直领域、面向哪一个群体，需要去发现这样的潜在听众群体，甚至去培育这样的群体。

技术在改变，传播生态也在改变，信息的生产者和乐听者的关系也在改变。

电动车充电智能导航软件。

问：现在短视频非常盛行，有非常多的短视频平台，上面各种各样的视频吸引着人们的眼球。在这种环境下面，您怎么看待播客作为一种非视觉媒介的生命力呢？

孙少晶：声音在人类生活当中，占有一个非常独特的地位，它是能够从某种角度体现人类本质的很独特的东西。不容否认，现在视觉文化，所谓的视觉经济，确实很发达。视觉性的东西通常有很强的冲击力，容易直接进行感官刺激。

但是这种冲击力通常是短暂的，很难让我们沉淀下来静静地去思考。相较而言，声音则具有它独特的价值。播客以声音营建沉浸式的收听环境，让我们更可能去专注于内容信息本身，更多地去思考内容的意义，声音刺激跟我们所接受的视觉刺激是共存和互补的。人本来就是一个多方位的存在，通过视觉的冲击和听觉的沉淀，我们人的生活变得更加立体、丰富和多元。

问：我们看到很多的视频里面都会用AI模拟的声音来配音，您觉得这种现象会不会延伸到播客？

孙少晶： AI的声音进入播客是不容置疑的。我们已经看到了AI在模拟图像、模拟视频这方面发展很快，SORA的视频模拟技术升级非常快，AI模拟声音进步也会很快，准确度方面会有极大的提升，这意味着我们将会面临一种AI模拟声音与人类真实声音的共存环境，而这将会是一种非常有趣、非常值得去研究的传播样态。

但是另外一方面，我们要思考，在这个过程当中，人类真实的声音，它的价值到底在哪里，现实中如何让其价值得以充分体现？这里面有非常深层次的哲学含义和对人性的思考。

问：联合国教科文组织把今年世界广播日的主题定为“AI是一种工具，而不是声音“。您认同教科文组织的这种提法吗？

孙少晶：人类和AI的关系定位，是学界一直在热烈讨论的一个话题， AI能否成为一种声音，取决于我们怎么定义声音。我觉得它是一种声音，但不是我们所讲的人文意义上的声音。

随着AI技术的发展，AI模仿声音会越来越准确，人们也许会潜移默化中接受它作为自然声音。当需要注意的是，现实中人的声音交往不可能是百分之百的准确。我们有时候在日常对话、发出声音的过程当中会无意识地出现差错，比如口误、偶尔的舌头不听使唤，而这种不完美正好是人类声音的一种魅力。

media:entermedia_image:68c445ff-141b-4bae-a407-1a1b57021f1b

比如说股市信息播报，一个基本要求就是发音要标准、准确，在这种情况下，用AI来播报信息比较容易达到听众预期——当下数字新闻播报人日益流行，在客观事实播报语境里面区分人类真实声音和AI 模拟声音可能没那么重要。

但是在其它语境里，比如说突然发生了重大的灾难事件，你去报道当时这个灾难的场景、受到影响的居民、他们所经历的痛苦磨难、以及他们所需要的帮助，如果完全依靠AI来播报这个灾难，它的播报可能达不到深层次的感染力和共鸣力，因为AI缺失人类才具有的基于当下语境的同理心、同情心，这种深层次的共情能力是通过人的生物进化、生活体验、学习教育等慢慢培育起来，不是机器能够简单模拟的。

问：在播客的创作过程当中，除了声音的使用之外，AI作为工具还能在哪些方面赋能于创作者，而不是取代他们呢？

孙少晶：有了AI工具之后，在前期对于主题的构思、创意这方面，AI会发挥很大的作用。 AI工具可以为播客生产者提供更加丰富的素材，提供一些不同的角度来挑战你的既有想法，这可以帮助创作者扩展思路，批判辩证地分析问题。

AI也可以赋能播客节目的营销分发。AI可以帮助创作者描绘目标听众画像，甚至帮助他们寻找潜在的听众群体，动态调整营销和分发策略。

还有多语种问题，这在以前是很难想象的，创作者用一个语种创作的播客，现在能够通过AI快速翻译为不同的语种触达多个国家。

问： Ai时代现在才刚刚开始。展望未来，您觉得数字听觉文化还会演化出什么样的新形态呢？

孙少晶： AI的发展将会催生新型的传播生态和经济形态。AI的应用会推动“听觉媒介”向“听觉环境”、甚至“听觉存在”的转换。换句话讲，数字听觉文化将会带来新型的生活方式、社会交往、集体意识、生命体验，声音不再是虚无缥缈的存在，而是会跟人、物、环境、技术等深度结合。

早期的播客常常被视为一种媒介节目，听众基于个人兴趣和需求寻找播客，建立了播客与听众的二元互动关系。随着AI 深度嵌入复杂的生活场域，比如嵌入汽车驾驶环境，嵌入家居环境，不同的听觉氛围得以产生。在这个意义上，播客就不单纯是听觉媒介，已经成为一种立体、动态、充满张力（封闭与开放）的氛围环境，融入人、物、自然信息（比如收听环境的温度、湿度）、生活信息（比如汽车内的装饰美观）等，更加具有氛围沉浸性、多感冲击性和即时生成性。可以想象，将来当你走在陌生城市的街道，或者参与热烈的集体讨论时，AI会实时采集环境数据，将其转化为只有你能听见的“认知旁白”。这种形态将打破传播延迟，信息不再是视听后的消化，而是以声音的形式直接诉诸人的感知器官，形成一种人机共驱动的“辅助听觉”。