کیفیت موسیقی را از دو منظر میتوان نگریست:
۱- موسیقی فاخر، که توسط اساتید ساز و آواز تولید شده؛
۲- موسیقی ضبط شده با کیفیت بالا، یا به اصطلاح فایل صوتی باکیفیت.
در اینجا منظور من از باکیفیت، نوع دوم است.
در این نوشته، من بعنوان یک غیرحرفهای از کیفیت موسیقی و اصطلاحات عمق بیت (Bit Depth) و نرخ نمونهبرداری (Sampling Frequency) و فرمتهای موسیقی mp3, aac, flac و... خواهم گفت.
علی حسینزاده | ایده این مطلب از آنجا شروع شد که یکی از آشنایان که دنبال خرید اسپیکر بلوتوثی برای تقویت صدای لپتاپ برای آموزش مجازی فرزندش بود از من راهنمایی خواست تا مدلی که از دیجیکالا انتخاب کرده را بررسی کنم. نظرات کاربران روی کالا را دیدم و چون مطلع بودم قصدش از خرید چیست و نمیخواهد زیاد هزینه کند گفتم همین خوب است. حالا نظرات چه بود؟ برای نمونه، این بود:
من چون بعدا صدای بلندگو را شنیدم، از دیدن چنین نظراتی از سمت برخی کاربران تعجب کردم. با خودم فکر کردم چطور ممکن است فردی کیفیت صدای خروجی از یک دستگاه ناشناخته چینی با بلندگوی مونوی کوچک حداکثر ۴ اینچی را عالی و بدون حرف توصیف کند؟
یادم آمد سال ۱۳۸۶ برای اولین بار Mp3 پلیر خریدم. تا قبل از آن موسیقی را از روی نوار کاست و با یک رادیو پخش ساده گوش میدادم. خلاصه، وقتی ترانههایی که با کاست گوش داده بودم را با Mp3 پلیر گوش دادم انگار بُعد تازهای از جهان مقابل من پدیدار شد...
بایدی وجود ندارد، اما اگر شما از تصاویر با کیفیت بالا لذت میبرید و تصویر با رزولوشن بالا برایتان خوشایندتر از تصاویر با رزولوشن پایین است، موسیقی باکیفیت هم نسبت به همنوع کم کیفیت خود همین تاثیر را روی مغز شما خواهد داشت و مطمئنا خوشایندتر خواهد بود.
به تصویر بالا نگاه کنید، همه در اولین نگاه متوجه تفاوت آنها میشوند. همه میفهمند کدام بهتر است اما:
سوال: چه چیزی تفاوت ایجاد کرده است؟
جواب: رزولوشن.
سوال: رزولوشن پایین چه چیزی را از تصویر کم میکند؟
جواب: دقت.
سوال: دقت یعنی چه؟
جواب: یعنی اطلاعات.
بعبارت دیگر رزولوشن پایین باعث از دست رفتن بخشی از اطلاعات شده است. این از دست رفتن اطلاعات در یک عکس به معنای محو شدن جزئیات تصویر است و اتفاقا در یک موسیقی یا فایل صوتی هم همان معنا را دارد.
به دیگر سخن شما با یک فایل صوتی بیکیفیت بخشی از طنین صدا و زیر و بمهای آن و قسمتی از جزئیات آهنگ را از دست داده و نخواهید شنید. به نظرم تشبیه کیفیت موسیقی به رزولوشن تصویر بسیار کارآمد است چون بحث را ملموستر و ذهن را آماده پذیرفتن موضوع میکند (آنقدر به هم شبیهند که موسیقی باکیفیت را هم Hi-Res مینامند).
ولی همانطور که در مقدمه ذکر کردم اکثر مردم اهمیتی به کیفیت موسیقی نمیدهند. در واقع بر پایه یک بررسی در امریکا، اغلب مردم در زمان انتخاب یا خرید موسیقی کیفیت آن را در اولویت خود قرار نمیدهند و تنها برای ۲۵٪ از آنها کیفیت در اولویت است. اما بر اساس تجربه شخصی من که در بالا بطور خلاصه ذکر کردم، عدم اهمیت به کیفیت به دلیل ناآشنایی با آن چیزی است که کیفیت مینامیمش. در واقع اگر کسی فایلهای موسیقی با کیفیت بالا گوش دهد بعد از مدت کوتاهی دیگر شنیدن یک موسیقی با کیفیت پایین برای او غیر قابل تحمل خواهد بود.
نمونه یک قطعه موسیقی با کیفیت پایین (64kbps):
همان قطعه موسیقی با کیفیت بالاتر (256kbps):
قبلا باید توصیح بدهم که من در اینجا در مورد فرمتهای دیجیتال موسیقی (منظورم موسیقی الکترونیک نیست!) صحبت میکنم. فرمتهای آنالوگ موسیقی (موسیقی ضبط شده روی نوار کاست یا صفحه گرامافون) هم دارای پارامترهای کیفیت مخصوص خود هست اما اینجا وارد آن بحث نمیشوم.
بعد از این توضیح کوتاه، باید بحثم را با یک جمله کلیشهای دنبال کنم:
ما در دوران دیجیتال زندگی میکنیم.
عجب، نمیدانستیم!!!
دوران دیجیتال یعنی دوران صفر و یک. صفر و یک یعنی گسسته. در طبیعت سیگنال صوتی یا موج نور پیوسته هستند (وارد بحث کوانتوم نمیشوم). بنابراین وقتی از صحنهای با دوربین دیجیتال خود عکاسی میکنید، طیف پیوسته نور را به طیف گسسته دیجیتال تبدیل و ثبت میکنید (برعکس دوربینهای قدیمی آنالوگ که فیلم عکاسی داشتند).
همینطور وقتی شما به یک قطعه mp3 که دیجیتال است گوش میدهید در واقع دارید کپی گسستهای از یک موج صوتی واقعا پیوسته را میشنوید. و اینجاست که نرخ نمونهبرداری و عمق بیت اهمیت پیدا میکنند:
دوباره از مثال عکس شروع میکنم. فرض کنید به شما یک دوربین عکاسی (نه فیلمبرداری) دادهاند تا با آن صحنه پنالتی یک مسابقه فوتبال را ثبت کنید. شما میتوانید ۲ عدد عکس بگیرید، یکی زمان راه افتادن مهاجم، و دومی زمانی که توپ به تور دروازه میرسد. اما میتوانید با سرعت عمل بیشتر ۴ تا عکس بگیرید: اولی زمان راه افتادن مهاجم، دومی درست قبل از ضربه، سومی درست بعد از ضربه، چهارمی زمانی که توپ به دروازه میرسد. با اینکار شما از یک واقعه پیوسته (حرکت بازیکنان و توپ)، بصورت گسسته (۴ تا فریم عکس) رونوشت گرفتهاید و اطلاعات را ثبت کردهاید و البته اطلاعات بیشتری را نسبت به زمانی که تنها ۲ عکس گرفتید ثبت کردهاید و واقعه را کاملتر بازسازی خواهید کرد.
نرخ نمونهبرداری Sampling Frequency یا Sample Rate موسیقی هم دقیقا مانند مثال بالا بیانگر تعداد نمونههای گسستهی گرفته شده از موج پیوسته صوت در یک ثانیه است (معمولا ۴۴۱۰۰ نمونه در ثانیه). هرچه این تعداد بیشتر باشد (مثلا ۴۸۰۰۰ یا ۹۶۰۰۰ نمونه در ثانیه) موج صدا به صورت دقیقتری ثبت میشود و کیفیت صدا به آنچه واقعا بوده است نزدیکتر خواهد بود. به عکس زیر نگاه کنید:
این اصطلاح هم هم در موسیقی و هم در تصویربرداری کاربرد دارد (دلیل این شباهتهای زیاد بین پارامترهای صوتی و تصویری احتمالا به این دلیل است که در هر دو مورد ما در حال تبدیل یک موج پیوسته به یک موج یا بهتر بگویم مجموعه نقطههای گسسته هستیم). در تصویربرداری و صفحات نمایشگر اگر جستجو کنید با عبارت فیلم یا عکس ۱۰ بیت روبرو شدهاید. تقریبا اکثر قریب به اتفاق فیلمهایی که ما میبینم ۸ بیت هستند به این معنا که در این فیلمها هر سابپیکسل حداکثر ۲ به توان ۸ (=۲۵۶) سایه را نمایش میدهد (و چون هر پیکسل از سه سابپیکسل تشکیل شده، پس نهایتا هر پیکسل ۲ به توان ۸ به توان ۳ رنگ که برابر با ۱۶۷۷۷۲۱۷ رنگ است را میتواند نمایش دهد) اما اگر فیلم ۱۰ بیت باشد برای هر سابپیکسل ۲ به توان ۱۰ (=۱۰۲۴) سایه قابلیت ثبت و نمایش خواهد بود که به معنای بیش از یک میلیارد رنگ برای هر پیکسل است (۲ به توان ۱۰ به توان ۳).
سوال: چرا ۲؟ چرا ۲ به توان ۸ یا ۱۰؟
پاسخ: چون ما در دوران دیجیتال (صفر و یک، دستگاه اعداد دو دویی یا باینری) در حال زندگی هستیم.
دفعه بعد که خواستید فیلمی را بخرید یا دانلود کنید سعی کنید نسخه ۱۰ بیتی آن را بیابید و تماشا کنید و آنرا مقایسه نمایید با نسخه ۸ بیت همان فیلم*.
حالا، در مورد موسیقی قطعات صوتی میتوانند ۱۶ بیت یا ۲۴ بیت یا حتی ۳۲ بیت یا بیشتر باشند. حد معمول آنها ۱۶ بیت است. بدین معنا که هر سمپل یا نمونه که در کسری از ثانیه از موج صوتی گرفته میشود میتواند ۲ به توان ۱۶ (حدود ۶۵ هزار) جایگاه را تصاحب کند. یعنی در یک قطعه ۲۴ بیت، آن سمپل بر روی یک طیف ۱۷ میلیون نقطه، در یک نقطه میایستد در حالی که در یک قطعه ۱۶ بیتی این طیف تنها ۶۵ هزار نقطه دارد و گاه سمپل یا نمونه باید بین این نقطه و نقطه بعدی یکی را انتخاب نماید و این یعنی عدم امکان ثبت دقیق اطلاعات و لذا ایجاد تفاوت در فایل دیجیتال صوتی نسبت به آنچه واقعا خوانده و تولید شده.
اگر متوجه نشدهاید اشکالی ندارد. راستش برای خودم هم خیلی طول کشید تا بفهمم. پس بگذارید همه را با هم دوباره توضیح دهم.
همانطور که گفتم نرخ نمونهبرداری در فایل دیجیتال صوتی معمولا ۴۴۱۰۰ نمونه در ثانیه است. حالا شما یکی از این ۴۴۱۰۰ نمونه را در نظر بگیرید (یعنی کسر یک به ۴۴۱۰۰ یک ثانیه). در این لحظه موج صوتی در یک نقطه خاص از فرکانس صدا قرار دارد. حالا شما میخواهید این نقطه خاص را بیاورید روی توزیع گسستهای شامل ۱۷ میلیون نقطه (عمق بیت ۲۴). در این حالت ممکن است برحسب تصادف موج صوتی دقیقا روی یکی از ۱۷ میلیون نقطه ترسیمی شما قرار بگیرد که خوشبحالتان. اما به احتمال خیلی بیشتر موج صوتی جایی بین دو نقطه از ۱۷ میلیون نقطه قرار میگیرد و روی هیچکدام منطبق نمیشود. اینجاست که الگوریتم و ماشین باید تصمیم بگیرند کدام نقطه را برای این لحظه از فرکانس موسیقی انتخاب کنند. و هر کدام را که انتخاب کنند بالاخره با آنچه فرکانس واقعی موج صوتی بوده است تفاوت خواهد داشت. تنها کاری که میتوان انجام داد این است که تعداد نمونهها و تعداد نقطهها در هر نمونه را آنقدر زیاد کرد تا موج صوت با دقت بیشتری ثبت و بازسازی شود.
پس امیدوارم از توضیحات دریافته باشید که چرا یک فایل دیجیتال موسیقی هرچه دارای نرخ نمونهبرداری یا سمپلریت بالاتر و همینطور عمق بیت بیشتر داشته باشد با کیفیتتر است و نهایتا آن چیزی که میشنوید به آن چیزی که تولید شده نزدیکتر خواهد بود. اما لازم است یادآوری کنم که گرچه دانستن اینها مشکل اکثریت مردم را حل میکند و برایشان راهگشا خواهد بود اما برای ریزبینان و عشاق واقعی موسیقی باکیفیت (Audiophileها)** این هنوز همه واقعیت نیست!
در قسمت بعدی این نوشته اگر عمری بود به فرمتهای صوتی، روش شناسایی کیفیت موسیقی، فریبهای رایج برخی فروشندگان موسیقی، نقش اکولایزر و... خواهم پرداخت. اگر سوال یا پیشنهادی در خصوص محتوا دارید لطفا در نظرات مطرح کنید تا برای بخش بعد مدنظر قرار دهم.
* همینطور باید دانست که فایل با کیفیت نیمی از ماجراست، شما باید دستگاه مناسب برای شنیدن آن را هم داشته باشید.
** An audiophile is a person who is enthusiastic about high-fidelity sound reproduction.