原创 ACM采样频率转换

 2008-3-19 12:19  6390 16 16 分类: 软件与OS

原作者姓名陆其明
文章原始出处 http://hqtech.nease.net

在音频的处理中，采样频率的转换是经常碰到的问题，比如输入44.1k，要求输出48k，或者相反从48k转换到44.1k。表面上看来，只是增加或减少采样点而已。其实不然。如果只是简单地从时间域上进行采样点的增减，必然导致原有波形的改变，从而声音失真，严重的时候更是不堪入耳。
正确的方法，应该是对输入的数据进行FFT变换到频域，然后再进行转化。这是一个比较繁琐的过程。那么，有没有更简单一点的方法呢？答案是肯定的。微软提供了一套ACM的API函数可以帮我们的忙。熟悉DirectShow Filter的朋友更加知道，在SDK中提供的Filter中就有一个叫ACM Wrapper的，其实它就是微软对ACM API函数的包装。可以说，ACM Wrapper Filter是ACM API在DirectShow环境中应用形式。
美中不足的是，经过ACM Wrapper Filter进行采样频率转化后，由于浮点运算的误差，有可能会导致数据的丢失。每次转化的一点点丢失，如果再经过时间上的累加，音频数据会丢得越来越多。由于微软的DirectShow是基于Playback模式的一套架构，时间戳上显示的数据丢失对于人耳根本微不足道。所以仅从播放的角度上来说，这个“问题”是很难被察觉的。如果你要使用经过ACM Wrapper Filter转化后的数据跟视频流合成，那么，你生成的文件很有可能在半个小时或更长的一段时间后出现音视频的不同步现象。
解决的办法有两种，一种是自己开发一个In-place-transform的Filter。这个Filter紧跟着接到ACM Wrapper Filter的后面，对进来的每一个Sample检查时间戳，如果累加的音频丢失“时间”超过一个采样点的时间，则马上补上一个采样点的数据。另外一种解决方法，就是干脆使用ACM API函数写一个自己的ACM Wrapper Filter。这样，就可以直接在ACM Wrapper内部监视数据的丢失。
下面我们就来看一下ACM API的使用。请先确认包含了以下头文件：mmreg.h, mmsytem.h, msacm.h；以及连接了以下库文件：msacm32.lib, winmm.lib。在进行采样频率转换之前，首先要使用acmStreamOpen函数打开一个转化流，以及对输入输出数据类型的设置。示例代码如下：
bool CConversionStream::OpenStream(void)
{
    DWORD maxSize = 0;
    MMRESULT mmr = acmMetrics(NULL, ACM_METRIC_MAX_SIZE_FORMAT, &maxSize);
    bool pass = (mmr == MMSYSERR_NOERROR);
    if (pass)
    {
        LPWAVEFORMATEX sourceFormat = (LPWAVEFORMATEX) new char [maxSize];
        LPWAVEFORMATEX destFormat   = (LPWAVEFORMATEX) new char [maxSize];
        memset(sourceFormat, 0, maxSize);
        memset(destFormat, 0, maxSize);
        sourceFormat->wFormatTag = WAVE_FORMAT_PCM;
        sourceFormat->nChannels  = 2;
        sourceFormat->nSamplesPerSec = 44100;
        sourceFormat->wBitsPerSample = 16;
        sourceFormat->cbSize = 0;
        sourceFormat->nBlockAlign     = 4;
        sourceFormat->nAvgBytesPerSec = 44100 * 4;

        destFormat->wFormatTag = WAVE_FORMAT_PCM;
        destFormat->nChannels  = 2;
        destFormat->nSamplesPerSec = 48000;
        destFormat->wBitsPerSample = 16;
        destFormat->cbSize = 0;
        destFormat->nBlockAlign     = 4;
        destFormat->nAvgBytesPerSec = 48000 * 4;

        mmr = acmStreamOpen(&mStreamHandler, NULL, sourceFormat, destFormat, NULL, 0, 0, 0);
        pass = (mmr == MMSYSERR_NOERROR);
        delete[] sourceFormat;
        delete[] destFormat;
    }
    return pass;
}
实际的数据转化也很简单。首先要建立一个ACM header，并对其进行设置，如果输入数据的缓冲及数据长度，输出数据的缓冲及缓冲大小。之后务必调用acmStreamPrepareHeader函数对这个ACM header进行初始化。然后就调用acmStreamConvert进行数据转换。最后不要忘记调用acmStreamUnprepareHeader。
bool CConversionStream::DoConverting(unsigned char * inSourceBuffer, long inSourceLength,
                                     unsigned char * outDestBuffer, long * ioDestLength)
{
    memset(mAcmheader, 0, sizeof(ACMSTREAMHEADER));
    DWORD suggestedDestSize = 0;
    acmStreamSize(mStreamHandler, inSourceLength, &suggestedDestSize, ACM_STREAMSIZEF_SOURCE);
    ASSERT(suggestedDestSize <= *ioDestLength);

    // Build ACM header on buffer
    mAcmheader->cbStruct    = sizeof(ACMSTREAMHEADER);
    mAcmheader->cbSrcLength = inSourceLength;
    mAcmheader->pbSrc       = inSourceBuffer;
    mAcmheader->cbDstLength = *ioDestLength;
    mAcmheader->pbDst       = outDestBuffer;

    // Prepare the buffer for ACM
    MMRESULT mmr = acmStreamPrepareHeader(mStreamHandler, mAcmheader, 0);
    bool pass = (mmr == MMSYSERR_NOERROR);
    if (pass)
    {
        mmr  = acmStreamConvert(mStreamHandler, mAcmheader, ACM_STREAMCONVERTF_BLOCKALIGN);
        pass = (mmr == MMSYSERR_NOERROR);
    }
    *ioDestLength = mAcmheader->cbDstLengthUsed;
    ASSERT(mAcmheader->cbSrcLengthUsed == mAcmheader->cbSrcLength);
    // Unprepare ACM header
    acmStreamUnprepareHeader(mStreamHandler, mAcmheader,0);
    return pass;
}
就这么简单！轻轻松松，实现了音频的采样频率转换。最后，当所有数据都已经转换完毕，不要忘了调用acmStreamClose函数关闭转化流。