WO2005117366A1 - 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 - Google Patents

音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 Download PDF

Info

Publication number
WO2005117366A1
WO2005117366A1 PCT/JP2005/009569 JP2005009569W WO2005117366A1 WO 2005117366 A1 WO2005117366 A1 WO 2005117366A1 JP 2005009569 W JP2005009569 W JP 2005009569W WO 2005117366 A1 WO2005117366 A1 WO 2005117366A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
section
packets
data sequence
waveform
Prior art date
Application number
PCT/JP2005/009569
Other languages
English (en)
French (fr)
Inventor
Hitoshi Ohmuro
Takeshi Mori
Yusuke Hiwasaki
Akitoshi Kataoka
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to JP2006513918A priority Critical patent/JP4146489B2/ja
Priority to EP05743805A priority patent/EP1750397A4/en
Priority to CN2005800063936A priority patent/CN1926824B/zh
Priority to US10/591,183 priority patent/US7710982B2/en
Publication of WO2005117366A1 publication Critical patent/WO2005117366A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]

Definitions

  • Audio packet reproduction method audio packet reproduction device, audio packet reproduction program, recording medium
  • the present invention relates to an audio signal such as digitized voice or music (hereinafter referred to collectively as an audio signal).
  • a packet communication network such as the Internet.
  • the present invention relates to an audio packet reproducing method, an audio packet reproducing apparatus, an audio packet reproducing program, and a recording medium on which the program is recorded for reproducing an audio signal with stable quality.
  • Figure 1 shows the outline.
  • the input voice signal is converted into a voice packet by the voice signal transmitting device 5 and transmitted to the packet communication network 6.
  • the audio signal receiving device 7 identifies and receives the audio packet sent to itself, decodes the audio packet, and outputs the audio.
  • FIG. 2A shows an audio data stream to be transmitted.
  • the audio data stream to be transmitted is generally composed of a PCM digital sample stream. This digital audio data sequence is divided into fixed time units called frames (generally about 10 to 20 milliseconds), and the audio code is encoded, and a time stamp indicating the transmission time is added to the audio code. Transmitted as a voice packet.
  • the voice packet is an intermittent signal compressed in the time axis direction as shown in Fig. 2B, and the idle time of the intermittent signal is used for other packet communication.
  • the time interval of the transmission of the voice packet transmitted from the voice signal transmitting device 5 corresponds to the frame length of the voice data sequence, and is transmitted to the packet communication network 6 at a time interval corresponding to the frame length.
  • the voice signal receiving device 7 receives voice packets arriving at time intervals corresponding to the frame length, and decodes the voice packets to form a voice data stream having a length of one frame as shown in FIG. 2C. Audio packets at time intervals equivalent to one frame length. By receiving, the audio signal receiving device 7 can reproduce continuous audio. By the way, depending on the state of the communication network, a large fluctuation occurs in the arrival time of the packet. As a result, a phenomenon occurs in which the packet is reachable within the time limit (within the time corresponding to the frame length), and the sound to be reproduced is interrupted. There is a problem.
  • a method has been known in which a reception buffer, also called a fluctuation absorption buffer, is provided, and a fixed amount of packets is always stored in the reception buffer.
  • a reception buffer also called a fluctuation absorption buffer
  • the delay in the arrival delay of the packets is strong, but the delay until the power is received and the voice is reproduced, that is, the delay of the call is also reduced.
  • the amount of packets stored in the reception buffer is reduced, the communication delay is reduced, but there is a problem that the sound is easily interrupted when fluctuations in packet arrival delay occur. That is, there is a trade-off between the delay of the call and the easiness of the voice interruption.
  • a method of dynamically controlling the amount of packets stored in a reception buffer is known. This means that at the start of a call, the amount of packets stored in the reception buffer is reduced to reduce the communication delay, but if the packets stored in the buffer expire during the call, the voice reproduction process is stopped during the call. The amount of packets stored in the receive buffer is increased by a certain amount, and then the call voice will be interrupted.
  • the non-speech section in the decoded speech signal is expanded, and Delay fluctuations can be dealt with by delaying the point of access to the next packet for audio playback in the buffer.
  • the frequency of non-speech sections becomes extremely low, or if the non-speech sections become incapacitated for a long time, adjustment using the reception buffer becomes impossible.
  • Non-Patent Document 1 describes that by inserting or deleting, it is possible to expand or contract the time length without causing almost any auditory quality deterioration.
  • an interpolated voice waveform with a pitch length is added in the voice section when the amount of packets stored in the receive buffer falls below the lower limit.
  • Patent Literature 1 discloses that a voice waveform having a pitch length is thinned out in a voice section when the upper limit value is exceeded.
  • the insertion or thinning out of the pitch length waveforms causes the amount of packets stored in the buffer to fall between the upper threshold and the lower threshold. Since the processing is performed on a series of frames until the interval, the reproduced sound may be degraded to an undesirable degree. Further, since the lower limit and the upper limit are fixed, it is not possible to cope with a rapid change in delay fluctuation, and packet loss may occur.
  • Patent Document 1 Japanese Patent Application Publication No. 2003-050598
  • Non-Patent Document 1 Morita and Itakura, "Expansion compression and evaluation of speech using time-based overlap addition method (PICOLA) with pointer movement control and its evaluation", Proceedings of the Acoustical Society of Japan, 1-4-1 4 . October 1986
  • An object of the present invention is to propose a higher performance voice packet reproducing method and apparatus by applying insertion and deletion processing in units of pitch waveforms.
  • an audio packet reproducing method for receiving and reproducing a series of audio packets transmitted while accommodating an audio code generated by encoding for each frame of an audio data sequence includes: Including the following steps:
  • the reception buffer capacity also extracts the packet corresponding to the current frame, decodes the audio code in the packet to obtain a decoded audio data sequence of the current frame,
  • an audio packet reproducing apparatus that receives and reproduces a series of audio packets transmitted by containing audio codes generated by encoding for each frame of an audio data sequence
  • a voice packet playback device that receives and plays back a series of voice packets transmitted containing the voice code generated by the code for each frame of the input voice data sequence.
  • a packet receiving unit for receiving,
  • a reception buffer for temporarily storing received packets and reading the packets as requested
  • the maximum value or statistical value of fluctuations obtained by observing the fluctuation of the arrival time of the received packet for a certain period is a buffer stored packet that is the number of packets stored in the reception buffer.
  • an optimum number of packets to be stored in the reception buffer is obtained using a relationship between a predetermined maximum delay fluctuation and an optimum number of stored packets.
  • the degree of difference between the number of stored packets and the above-mentioned optimum number of packets is determined in a plurality of stages, and the number of stored packets in the buffer is set to the above-mentioned number of optimum stored packets based on a rule predetermined for each of the above-mentioned stages of the degree of difference.
  • the above-mentioned reception buffer capacity The speech code in the packet corresponding to the extracted current frame is An audio packet decoding unit for decoding to obtain a decoded audio data sequence of the current frame; and performing any one of processing of expanding, shortening, or maintaining the current state of the waveform of the decoded audio data sequence of the current frame according to the control signal. , A consumption adjustment unit that outputs the reproduced audio data of the current frame,
  • the present invention When voice signals are communicated in real time through a packet communication network having a large delay fluctuation of packet arrival time, the present invention is applied to constantly consume a voice data stream regardless of the presence or absence of voice. And the amount of packets in the receive buffer is adjusted, so that the receive buffer can be optimally controlled following changes in the state of the communication network (fluctuation time). As a result, a voice call in which the voice is not interrupted and the call delay is minimized is realized.
  • a packet communication network is generally designed to allow a certain degree of fluctuation in order to suppress costs, and the use of the present invention minimizes the fluctuation of the line itself! / There is no interruption in voice even if it is not used, which is also effective in reducing the cost of using the network.
  • FIG. 1 is a block diagram for explaining an outline of packet communication.
  • FIG. 2 is a timing chart for explaining an outline of packet communication.
  • FIG. 3 is a block diagram for explaining an embodiment of a voice packet reproducing device according to the present invention.
  • FIG. 4 is a table showing an optimal buffer amount with respect to a maximum delay fluctuation.
  • FIG. 5A shows a procedure for processing a received packet
  • FIG. 5B shows a procedure for packet reading, decoding, and waveform processing.
  • FIG. 6 is a block diagram showing a configuration example of a voice analysis unit 15 in FIG. 3.
  • FIG. 7 is a block diagram showing a functional configuration example of a frame waveform expansion unit 21 in FIG. 3.
  • FIG. 8 is a waveform chart for schematically explaining waveform expansion processing by the frame waveform expansion unit 21 shown in FIG. 7.
  • FIG. 9 is a waveform chart for explaining another example of the waveform extension processing by the frame waveform extension section 21 shown in FIG. 7.
  • FIG. 10 is a block diagram for explaining another configuration of the frame waveform expansion unit 21 in FIG. 3.
  • FIG. 11 is a block diagram for explaining the internal configuration of frame waveform shortening section 22 shown in FIG. 3.
  • FIG. 12 is a waveform chart for explaining the operation of frame waveform shortening section 22 shown in FIG.
  • FIG. 13 is a timing chart for explaining the operation of the consumption adjusting section 20 shown in FIG. 3.
  • FIG. 14 is a flowchart showing a procedure for determining the urgency of buffer adjustment.
  • FIG. 15 is a table 1 showing a control example of the consumption adjusting unit 20 with respect to the degree of urgency.
  • FIG. 16 Table 2 showing an example of control of the consumption adjusting unit 20 with respect to the degree of urgency.
  • FIG. 17 Table 3 showing an example of control of the consumption adjusting unit 20 with respect to the degree of urgency.
  • FIG. 18 Table 4 showing an example of control of the consumption adjusting unit 20 with respect to the degree of urgency.
  • FIG. 19 is a block diagram showing a second embodiment of the speech analysis unit 15 in FIG. 3.
  • FIG. 20 is a block diagram showing a third embodiment of the voice analysis unit 15 in FIG. 3.
  • FIG. 21 is a flowchart showing a procedure for determining a section of a speech frame in FIG. 20.
  • FIG. 22 Table 5 showing a control example of the consumption adjusting unit 20 for the speech frame of the determination result according to FIG.
  • the present invention can be executed by a computer main body and a computer program, and can also be implemented by being implemented in a digital signal processor or a dedicated LSI.
  • the switching switch can be implemented as a conditional branch of a program.
  • FIG. 3 is a configuration example of an audio signal receiving unit according to the present invention.
  • the packet receiving unit 11 also receives the voice packet from the communication network, stores the voice packet in the reception buffer 12, and gives the arrival time of the packet and the time stamp of the packet to the state detecting unit 14.
  • the voice packet includes a voice code, which is obtained by converting a voice signal divided into fixed time units called frames (generally about 10 ms to 20 ms) by voice coding, Timestamp (corresponding to the frame number) )It is included.
  • a typical voice coding means a G.711 system which is a standard of the ITU-T (International Telecommunication Union) may be used, and any other system may be used.
  • the reception buffer 12 stores the received voice packets, and sends the voice packets to the voice packet decoding unit 13 in the order of the time stamp each time there is a transfer request from the voice packet decoding unit 13. Each time a voice packet is transferred from the reception buffer 12 to the voice packet decoding unit 13, the voice packet in the reception buffer 12 is discarded.
  • the audio packet decoding unit 13 decodes an audio code included in the audio packet, outputs an audio data sequence, and provides the audio data sequence to the consumption adjustment unit 20 and the audio analysis unit 15.
  • the audio data sequence here is a digital audio sample sequence, and is generally handled in PCM format. In the following, it is not specified whether the audio signal is analog or digital, but the signal being processed is a digital signal except for the sound finally heard by the human ear being an analog signal.
  • the transmitting side there are a case where the PCM signal is encoded in each frame and accommodated in a power packet for transmission, and a case where the PCM signal is accommodated in a frame as a packet and transmitted as it is.
  • the receiving side needs a means to decode the audio code extracted from the received packet, but in the latter case, it is not necessary.
  • the PCM signal is considered to be a kind of code
  • the receiving side needs decoding means for converting the PCM signal extracted from the packet into a digital audio signal.
  • the voice packet decoding unit 13 in the voice packet reproducing apparatus of the present invention shown in FIG. 3 may be any case.
  • the state detector 14 is provided with the arrival time and the time stamp of the packet received by the packet receiver 11, detects delay fluctuations, and detects the number of packets stored in the reception buffer 12. To the control unit 16.
  • m l
  • j (T ⁇ T) ⁇ m ⁇ Lf or its absolute value.
  • Definition of delay fluctuation j May be used as long as the degree of fluctuation can be represented by a numerical value.
  • the state detection unit 14 compares the arrival time T and time stamp F of the previous packet with the internal information n-m n- m
  • delay fluctuations j 1, j 2,... Calculated for each packet received retroactively for a certain period (for example, 2 seconds) are held.
  • Current packet (Times ⁇ ⁇ -1
  • J The maximum or statistical value of the delay fluctuation within the past fixed period (2 seconds) at the time of reception of the tamper F) is represented by J.
  • J may be the maximum delay fluctuation for a fixed number (for example, 100) of received packets.
  • the state detection unit 14 obtains the maximum delay fluctuation J every time the packet arrival time T and the time stamp F are given from the packet reception unit 11, and together with the current number of stored packets (buffer amount) S in the reception buffer 12 and the control unit 16. Give to.
  • the voice analysis unit 15 first analyzes the decoded voice data sequence output from the voice packet decoding unit 13, and determines whether the frame is a voice section or a non-voice section.
  • the voice section is defined as a section including a voice signal uttered by a human
  • the non-voice section is defined as a section not including a voice signal.
  • a voice section is either a voiced section or an unvoiced section
  • a non-voice section is a section other than the voice section, that is, either a background noise section or a silent section.
  • the power of an audio signal in a frame is calculated, and if the power is equal to or greater than a threshold, the audio frame is determined as an audio frame (audio section), and if the power is less than the threshold, the frame is determined as a non-audio frame (non-audio section). I do.
  • the pitch length can be obtained, for example, by calculating the autocorrelation coefficient of a speech waveform or a signal obtained by applying a filter having the inverse characteristic of the spectrum envelope to the speech waveform. If the frame is determined to be a non-voice section, the pitch length is not analyzed, and a constant value, for example, 1/2 of the frame length Lf, is set as the pitch length Lp. As described later, the pitch length Lp is less than 1/2 of the frame length Lf because it is convenient for the subsequent processing. Any value less than 1/2, such as 1/4 or 1/6 of the frame length Lf, may be used.
  • the voice may be voiced or unvoiced.
  • the pitch length is set to a constant value as in the non-voice section.
  • the pitch length is calculated using the pitch analysis method as in the speech section.
  • the pitch length obtained at this time is different from the pitch as a physical feature of the voice, but is used as a period corresponding to the main fundamental frequency included in the signal.
  • information about pitch may be included in the speech code. In this case, the pitch length may be obtained using the pitch information in the speech code!
  • the control unit 16 has, for example, a table 16T shown in FIG. 4 in which the maximum delay fluctuation and the optimum number of storage buckets of the reception buffer 12 corresponding thereto are determined in advance by experiments.
  • Table 16T shown in FIG. 4 shows the case where the frame length Ll3 ⁇ 43 ⁇ 40 msec, and therefore, the ideal reception interval between adjacent packets is also 20 msec.
  • the control unit 16 determines the optimum number of packets B obtained from the maximum delay fluctuation J given by the state detection unit 14 with reference to Table 16T and the difference S—B between the current number of packets S stored in the reception buffer 12 and the number S—B. Then, the urgency of adjusting the buffer amount required for the reception buffer 12 is determined.
  • an equation that approximately represents the relationship between the maximum delay fluctuation J and the optimal number of stored packets B may be determined in advance and used. That is, any method may be used as long as a predetermined relationship between the maximum delay fluctuation J and the optimum number of stored packets B is used.
  • the control unit 16 expands the decoded speech waveform data of the current frame from the speech packet decoding unit 13 based on the determined urgency and the speech Z non-speech determination result given from the speech analysis unit 15. It is determined whether to reduce, shorten, or not change, and the control based on the determination is given to the consumption adjusting unit 20.
  • the consumption adjusting unit 20 outputs the decoded audio waveform data from the audio packet decoding unit 13 as it is, outputs it after expanding it, or outputs it after shortening it. If the decoded audio waveform is expanded, the request to transfer the next packet to the reception buffer 12 of the audio packet decoding unit 13 will be delayed, and the packet consumption per unit time will be reduced. Conversely, if the decoded speech waveform is shortened, the packet consumption per unit time increases. In other words, control the number of processing frames per unit time for outputting as an audio signal. Controls the amount of packets read from the reception buffer 12.
  • the sound device 18 has a DZA conversion (not shown), converts the audio data string into an analog signal, and actually reproduces the analog signal using a speaker.
  • a digital audio signal is sent from the consumption adjustment unit 20 to the sound device 18, an output audio that is an analog audio signal is reproduced.
  • the sound device 18 receives the decoded voice data sequence of the next packet.
  • the sound device 18 It is common for the sound device 18 to have a buffer for a sound device, and a method called a double buffer is well known. Double buffering is a method that has two buffers, one of which is playing and the other receives and prepares the signal for the next playback. When the buffer is full, the next signal will not be received until the end of one playback. As soon as there is free space in the buffer to store the next signal, the next signal is read.
  • FIGS. 5A and 5B show the above-described received packet processing procedure by the packet receiving unit 11, the receiving buffer 12, and the state detecting unit 14 in the voice packet reproducing apparatus according to the present invention shown in FIG. 2 shows a procedure of a reproduction process of an audio data string by the components of FIG.
  • step S1A when a voice packet is received by the packet receiving unit 11 in step S1A, the time stamp and arrival time of the received packet are stored in the state detecting unit 14 in step S2A.
  • step S3A the state detector 14 calculates the delay fluctuation with respect to the immediately preceding received packet from the arrival time and the time stamp of the received packet, stores the delay fluctuation together with the arrival time and the time stamp, and obtains the maximum delay fluctuation J within a fixed time in the past.
  • the current number of packets (buffer amount) S stored in the reception buffer 12 is detected, and the maximum delay fluctuation J and the buffer amount S are given to the control unit 16.
  • step S4A the received packet is stored in the reception buffer 12, and the process returns to step S1A to wait for the next packet.
  • step S1B a packet corresponding to the current frame in the reproduction process is read from the reception buffer 12 in response to a request from the voice packet decoding unit 13, and in step S2B, the voice code in the packet is read by the voice packet decoding unit 13.
  • step S1B a packet corresponding to the current frame in the reproduction process is read from the reception buffer 12 in response to a request from the voice packet decoding unit 13, and in step S2B, the voice code in the packet is read by the voice packet decoding unit 13.
  • the audio data sequence Get To decode the audio data sequence Get.
  • step S3B the speech analysis unit 15 determines whether the decoded speech data sequence is a speech section or a non-voice section, and in step S4B, the control unit 16 determines the optimal buffer amount B for the maximum delay fluctuation J in FIG. Determined.
  • step S5B the control unit 16 further determines the urgency of adjusting the buffer amount based on the optimum buffer amount B and the detected buffer amount S based on V.
  • step S6B the consumption adjusting unit 20 performs a waveform expansion Z shortening process on the decoded audio data sequence of the current frame according to the determined degree of urgency.
  • step S7B the audio data string subjected to the waveform expansion Z contraction processing is output, and the flow returns to step S1B to proceed to the reproduction processing of the next packet.
  • FIG. 6 shows a functional configuration example of the voice analysis unit 15.
  • the speech analysis unit 15 includes a high-pass filter 151, an analysis buffer 152, an intra-frame power calculation unit 153, a section determination unit 154, and a pitch extraction unit 15A.
  • the decoded audio data for each frame from the audio packet decoding unit 13 is subjected to a high-pass filter 151 to remove DC components and components that are originally included in the audio, such as extremely low! And frequencies (for example, 50 Hz or less). After that, it is temporarily stored in the analysis buffer 152 for the subsequent processing, and the intra-frame power P13 ⁇ 4 is calculated by the intra-frame power calculation unit 153.
  • the section determination unit 154 determines that it is a voice section, and if it is less than Pth, it determines that it is a non-voice section, and outputs a determination result.
  • Pitch extraction section 15A executes decoded speech data train power pitch extraction processing when the determination result of section determination section 154 determines that the section is a voice section.
  • the pitch extraction unit 15A includes a linear prediction analysis unit 155, an inverse filter coefficient calculation unit 156, an inverse filter 157, and a pitch correlation calculation unit 158.
  • the linear prediction analysis unit 155 performs linear prediction analysis on the decoded speech data sequence for one frame held in the analysis buffer 152, obtains a linear prediction coefficient, and provides it to the inverse filter coefficient calculation unit 156.
  • An inverse filter coefficient calculation unit 156 calculates an inverse filter coefficient that flattens the spectral envelope of the decoded voice signal from the linear prediction coefficient, It is set as a coefficient of the configured inverse filter 157. Accordingly, the inverse filter 157 performs an inverse filter process on the supplied decoded voice data sequence, and the voice data sequence having the spectral envelope flattened thereby is provided to the pitch correlation calculation unit 158.
  • the pitch correlation calculation unit 158 calculates the autocorrelation value of the given voice data by sequentially shifting the sample points, detects the interval between the peaks of the obtained series of correlation values as the pitch length Lp, and calculates the consumption adjustment unit. Give 20.
  • a signal of a past frame that is not limited to the signal of the frame is often used.
  • the size of the analysis buffer 152 is set to two or more frames, the decoded audio data strings of the current frame and the past frame are held, and the pitch length analysis is performed on the audio data strings of a plurality of frames from the past to the present. Good.
  • the determination result of voice Z non-voice is sent to the control unit 16 and the pitch length Lp is sent to the consumption adjusting unit 20 for adjusting the consumption of the audio data sequence.
  • the consumption adjusting unit 20 is composed of a frame waveform expansion unit 21, a frame waveform reduction unit 22, a waveform expansion buffer 23, a through-noss 24, and switches SW1 and SW2.
  • Switch SW1 has three switching terminals Al, Bl, and CI
  • switch SW2 has three switching terminals A2, B2, and B3, each of which has a frame between the pair of switching terminals Al, A2; B1, B2; C1, C2.
  • the waveform expansion unit 21, the through path 24, and the frame waveform reduction unit 22 are connected, and are switched in conjunction with each other so as to select one of them under the control of the control unit 16.
  • the audio waveform data sequence selected by the switch SW2 is supplied to the sound device 18 and written into the waveform expansion buffer 23.
  • the audio signal read from the waveform expansion buffer 23 is supplied to the frame waveform expansion unit 21.
  • FIG. 7 shows an example of a functional configuration of the frame waveform expansion section 21
  • FIG. 8 shows an example of waveform expansion processing by the frame waveform expansion section 21.
  • the frame waveform expansion unit 21 includes a waveform processing buffer 21-0, a waveform insertion processing unit 21-1, a first waveform extraction unit 21-2, a pitch waveform generation unit 21-3, and a second waveform extraction unit 21. -4 !!
  • the second waveform extraction unit 21-4 uses the pitch length Lp from the audio analysis unit 15 to extract the one-frame past output audio signal waveform WF1 stored in the waveform expansion buffer 23 as shown in FIG. Cut out the waveform X in the section of the indicated pitch length Lp. That is, the highest From the subsequent sample point, a waveform X with one pitch length Lp is cut out in the past time direction.
  • the first waveform cutout unit 21-2 cuts out the waveform Y in the interval of the pitch length Lp in the row A in FIG. 8 from the audio signal waveform WF0 of the current frame in the waveform processing buffer 21-0. That is, the waveform of one pitch length Lp is cut out in the positive time direction at the first sampling point of the input audio signal waveform WF0 of the current frame.
  • the pitch waveform generation unit 21-3 weights the cut-out waveforms X and Y with triangular windows, respectively, and adds the weights to each other to generate a waveform Z shown in row B of FIG.
  • the weighted triangular window used here can be the same as the triangular window described in Non-Patent Document 1. That is, a shape in which the weight changes linearly from 0 to 1 in the waveform X and from 1 to 0 in the waveform Y with the start point of the waveform section also directed to the end point can be used.
  • the waveform insertion processing unit 21-1 inserts the waveform Z as shown in row D into the section of one pitch length Lp added to the beginning of the audio waveform of the current frame as shown in row C of FIG. I do.
  • waveform X is the signal strength of the previous frame in waveform expansion buffer 23
  • waveform Y is the signal strength of the current frame in waveform processing buffer 21-0.
  • Lp is less than or equal to 1/2 of the frame length Lf
  • an insertion waveform may be created using only the audio waveform of the current frame.
  • waveforms X 'and Y' corresponding to waveform X and waveform Y in row A are displayed continuously from the 2-pitch interval in the leading force of the current frame.
  • Triangle window is added to the extracted waveform X ⁇ 'and a triangular window is added to each other to create waveform ⁇ ' (Fig.
  • the method of FIG. 9 has the advantage that the waveform expansion buffer 23 used in the method of FIG. 8 is not required, but has a limitation that the pitch length Lp is equal to or less than 1/2 of the frame length Lf.
  • the size of the waveform processing buffer 21-0 to, for example, two frames, to hold the waveforms of the current frame and the frame immediately before the current frame, and performing expansion processing on the audio signal of two frames, the pitch length Even if Lp exceeds Lf / 2, waveform expansion processing can be performed.
  • the audio signal waveform of the current frame having the length Lf becomes a signal waveform whose length is expanded to Lf + Lp as shown in FIG. 8, row D, and FIG. 9, row D. Out Is forced.
  • FIG. 11 shows an example of a functional configuration of the frame waveform shortening section 22 in FIG. 3, and FIG. 12 shows an example of waveform shortening processing by the frame waveform shortening section 22.
  • the frame waveform shortening section 22 includes a waveform processing buffer 22-0, a waveform replacement processing section 22-1, a third waveform extracting section 22-2, a pitch waveform generating section 22-3, and a fourth waveform extracting section 22. -Consists of four and four.
  • the third waveform extracting section 22-2 generates a section of one pitch length Lp from the first sample of the audio signal waveform of the current frame held in the waveform processing buffer 22-0. Cut out waveform D.
  • the fourth waveform extracting section 22-4 extracts the waveform E of the section of one pitch length Lp following the waveform D of the audio signal waveform of the current frame.
  • the pitch waveform generation unit 22-3 creates a waveform F shown in a row B of FIG.
  • the weighted triangular window used here is linear from 1 to 0 for waveform D and 0 to 1 for waveform E from the start to the end of the force waveform section, also described in Non-Patent Document 1. Variable shapes can be used.
  • the waveform replacement processing unit 22-1 shortens the section of waveforms D and E having a total of two pitch lengths of the continuous current frame shown in row A to the section of one pitch length as shown in row C, and Replace with waveform F (row D).
  • the input audio signal having the frame length Lf is output as a signal shortened to Lf-Lp.
  • the pitch length Lp when the pitch length Lp sometimes exceeds 1/2 of the frame length Lf, the shortening process cannot be performed. That is, waveform E cannot be extracted from within the frame. For example, if the frame length Ll3 ⁇ 420 ms, then the pitch length Lp must be less than 10 ms, which means that the pitch frequency must be 100 Hz or more. For male voices, the pitch frequency may be less than 100 Hz.
  • the size of the waveform processing buffer 22-0 of the frame waveform shortening unit 22 is set to two frames, and the current frame and the immediately preceding frame are consecutive. The above-described shortening process may be performed on an audio signal having a length of two frames.
  • the input voice signal for the two frames Neither the shortening process nor the process of the frame waveform expansion unit 21 can be performed, but the pitch length is rarely larger than 20 milliseconds, that is, the pitch frequency is less than 50 Hz.
  • the input pitch length Lp is longer than the frame length L, the input signal may be output as it is, without performing the frame waveform expansion processing and the frame waveform reduction processing.
  • control unit 16 determines the amount of packets to be stored in the reception buffer 12 based on the maximum delay fluctuation J from the state detection unit 14 and the number of stored packets (buffer amount) S in the reception buffer 12. Decide whether to increase, decrease, or keep it.
  • FIG. 4 shows an example of the appropriate amount of packet storage when the actual delay fluctuation is in milliseconds, but the packet to the packet receiving unit 11 within a fixed period (for example, 2 seconds) is shown in FIG. It is considered that the total time of the frame length calculated by the number S of accumulated packets S is longer than the maximum value of the arrival interval, SX L1 3 ⁇ 4 a little longer.
  • control unit 16 determines that the amount of packets to be stored should be increased, it switches the switches SW1 and SW2 to the terminals Al and A2, respectively. If it is determined that the amount of stored packets should be reduced, switch SW1 and SW2 are switched to terminals Cl and C2 respectively. I can. If it is determined that the amount of packets to be stored should be maintained as it is, switches SW1 and SW2 are switched to terminals Bl and B2, respectively, and the amount of consumption of consumption adjusting section 20 is set according to each switching position. .
  • the waveform expansion buffer 23 accumulates the audio data sequence on the output side of the switch SW2, and the accumulated audio data sequence is used by the frame waveform expansion unit 21 as described above.
  • the output audio is reproduced in synchronization with a clock of a predetermined speed.
  • the sound device 18 finishes reproducing the received audio data sequence for the time length, the sound device 18 receives the audio data sequence decoded from the next packet.
  • the sound device 18 generally has a buffer for the sound device, and a method called a double buffer is often used. When both buffers of the double buffer are full, the playback of one buffer ends and the next audio data stream is not received until the buffer is empty.
  • a signal having a length less than the original one frame length is output from the switch SW2. If a signal having a length less than one frame length is sent to the sound device 18 as it is, the overhead of the sound device increases, and sometimes the sound is interrupted. If the specification of the sound device 18 has an allowable minimum value of the frame length, it is preferable to provide an intermediate buffer between the switch SW2 and the sound device 18.
  • the decoded audio data sequence output from the audio packet decoding unit 13 is sent to the sound device 18 through the frame waveform expansion unit 21. Since the decoded voice data sequence of length Lf is expanded into the data sequence of length Lf + Lp by passing through the frame waveform expansion unit 21, the playback time on the sound device 18 is also Lf + Lp. That is, normally, the time interval at which the sound device 18 receives the audio data sequence is LfC, but the time interval at which the audio data sequence is received during reproduction of the Lf + Lp signal is Lf + Lp.
  • the audio packet decoding unit 13 does not issue the next transmission request to the reception buffer 12 unless the sound device 18 receives the audio data sequence, so that the packet reception unit 11 receives packets at regular intervals.
  • the average number of packets stored in the receive buffer 12 Will increase. Since the average increase is Lp and LfC, the amount of packet accumulated in the receive buffer in one frame waveform decompression process is less than one frame.
  • the decoded waveform signal is expanded by the frame waveform expansion unit 21 over a plurality of frames (N)
  • the amount of packets accumulated in the reception buffer 12 increases by N frames, which is smaller than N frames.
  • Row A in FIG. 13 shows packets P 1, P 2, P 3,... Sequentially stored in the reception buffer 12, and row B in FIG.
  • 1 2 3 1 2 3 Indicates consumption status. That is, when the switches SW1 and SW2 are set to the terminals Bl and B2, the packets stored in the reception buffer 12 are extracted one by one, and the audio data decoding unit 13 extracts the audio data stream for each frame length Lf.
  • the data is supplied to the sound device 18 through the through path 24 without being subjected to compression and expansion processing.
  • the sound device 18 reproduces an audio data sequence for each frame length Lf into audio. Therefore, in this state, the audio of one frame length is reproduced every time one packet is consumed, and when the audio of one packet is reproduced, the next packet is extracted from the reception buffer 12 and the audio packet decoding unit 13 outputs the audio.
  • the data string is decoded.
  • the command device 18 reproduces the audio data sequence of each frame length Lf decoded from one packet by multiplying the time of Lf + Lp, so that the sound device 18 also outputs the decoded audio data sequence to the audio bucket decoding unit 13.
  • the timing to request output is the period of Lf + Lp.
  • the cycle of extracting packets from the reception buffer 12 shown in Fig. 13 and row C is Lf + Lp.
  • the decoded audio data sequence output from the audio packet decoding unit 13 passes through the frame waveform shortening unit 22 and the sound device Sent to 18. Since the decoded voice data sequence of length Lf is reduced to a voice data sequence of length Lf Lp by passing through the frame waveform shortening unit 22, the frame F shortened as shown in FIG. ", F", F ",... will be given to the sound device 18.
  • the playback time of each shortened frame on the sound device 18 is also Lf-Lp. That is, when the signal of the force Lf Lp which is the time interval force at which the sound device 18 receives the audio data sequence is normally reproduced, the interval becomes Lf Lp.
  • the voice packet decoding unit 13 also issues the next transmission request to the reception buffer 12 at intervals that are usually shorter than the time interval of one frame length Lf. If packets are being received, the amount of packets stored in the receiving buffer will be reduced on average. Since Lp ⁇ LfC means that the average decreases, the amount of reduction in the amount of packets accumulated in the reception buffer in one frame waveform shortening process is less than one frame.
  • the frame waveform shortening unit 22 passes through the frame waveform shortening unit 22 over a plurality of frames (N), the amount of packets stored in the reception buffer for M frames smaller than N decreases.
  • the example shown in row D of FIG. 13 indicates that 10 packets are consumed during the same time TM by passing through the frame shortening unit 22.
  • the controller 16 enables more advanced buffer amount control. For example, based on the buffer capacity S of the state detector 14 and the maximum delay fluctuation J, when it is determined that the amount of packets to be stored in the reception buffer should be increased or decreased, the value should be increased urgently.
  • the rate of increase or decrease, which should be reduced urgently, should be added to the judgment. More specifically, if the state of the communication network suddenly deteriorates, if the amount of packets stored in the reception buffer is gradually increased, a break in audio may occur.
  • the amount of packets stored in the buffer should be controlled urgently. Conversely, the amount of packets accumulated in the buffer has gradually increased or decreased from the desired amount due to the accumulation of clock and timing deviations, which are generally called drift, between the transmitting and receiving sides. If it has, you can increase or decrease it slowly.
  • the consumption adjustment By setting the switches SW1 and SW2 of the unit 20 to the terminals Al and A2 or the terminals Cl and C2, respectively, and quickly expanding and contracting the waveform, the increase / decrease of the packet storage amount can be quickly controlled. Conversely, if a gradual increase / decrease is sufficient, as a result of the voice Z non-voice determination in the voice analysis unit 15, the switches SW1 and SW2 are respectively connected to the terminals Al and A2 or the terminals Cl and C2 only in non-voice frames. A method of setting may be used.
  • the pitch length may be set to an arbitrary value equal to or less than 1/2 of the frame length Lf, which is not a value obtained by actually analyzing the pitch.
  • the pitch length to be set should be short and a value.
  • Step S1 The maximum delay fluctuation J in the state detection unit 14 is obtained from the reception time of each packet in the reception buffer 12.
  • Step S2 The control unit 16 determines the optimum buffer amount B corresponding to the maximum delay fluctuation J with reference to Table 16T in FIG.
  • Step S3 The state detection unit 14 obtains the buffer amount (the number of packets stored and stored) B of the reception buffer 12 at the present time.
  • Step S4 It is determined whether the absolute value I SB I of the difference between the optimal buffer amount B determined by the control unit 16 and the actual buffer amount S detected by the state detection unit 14 is smaller than a predetermined positive value E. However, if it is small, it is determined that adjustment of the buffer amount is not necessary, and the current status is maintained (this is defined as urgency level 0).
  • Step S5 If the absolute value of the difference IS-BI force is not smaller than 3 ⁇ 4, it means that the buffer amount needs to be adjusted, and it is determined that the difference SB is less than -E. —E or less means that the amount of buffer must be increased, and the following steps S6 and S7 are executed to determine the degree of urgency to increase the amount of buffer. If S-B is not less than -E, it means that S-B is not less than E, and it is necessary to reduce the amount of buffer, and execute the following steps S8 and S9 to reduce the amount of buffer. The decreasing urgency is determined.
  • Step S6 Determine whether the current buffer amount S is 0 or more and 20% or less of the optimal buffer amount B, and if so, determine that the urgency of adjusting (increasing) the buffer amount is high. judge. When B is 1 or more and S is 0, that is, when the buffer is dead and there is a danger of sound interruption, the urgency is also determined to be large in this step.
  • Step S7 It is determined whether the current buffer amount S is larger than 20% of the optimum buffer amount B and not more than 50%. If so, the urgency of the buffer amount adjustment is determined to be medium, and if not, the urgency is determined to be small.
  • Step S8 If S—B ⁇ —E, the buffer capacity needs to be increased, and it is determined whether the current buffer capacity S is 200% or more of the optimal buffer capacity B. If so, determine that the urgency is high.
  • Step S9 If S is not more than 200% of B, determine whether S force is less than 200% of B and more than 150%, and if so, determine that the urgency is medium, Otherwise, the urgency is determined to be small.
  • Table 1 shown in FIG. 15 shows the urgency (large, medium, small, 0) determined according to the procedure of FIG. 14 and the consumption amount adjustment unit 20 executed by the control unit 16 based on the voice Z non-voice determination result.
  • the control example of 1 is shown.
  • the switch SW1 and SW2 should be connected to the terminals Al and A2 when the buffer amount should be increased, and to the terminals Al and A2 if the buffer amount should be reduced, regardless of the sound signal Z of the audio signal.
  • the decompression Z shortening process is always performed on the decoded audio data string of the current frame.
  • the switches SW1 and SW2 are fixed to the terminals Bl and B2, and the expansion Z shortening is not performed.
  • the switches SW1 and SW2 are set to the terminals Al and A2 when the amount of the buffer is to be increased, and to the CI and C2 when the amount of the buffer is to be reduced.
  • Table 2 shown in Fig. 16 shows the urgency (large, medium, small, 0) determined by the procedure in Fig. 14 and the voice Z 5 shows a second control example of the consumption adjusting unit 20 executed by the control unit 16 based on the non-voice determination result.
  • switches SW1 and SW2 are set on the Al, A2 side or CI, C2 side once every N1 frame in the voice section when the urgency is low, For other frames, they are set to Bl and B2.
  • Table 3 shown in FIG. 17 shows a third control example of the consumption adjusting unit 20 executed by the control unit 16.
  • the control with the medium urgency in the second control example shown in Fig. 16 is different from the control with the large urgency, and in the voice section, once every N2 frame, the Al, A2 side or Set switches SW1 and SW2 on the C1 and C2 sides, and set them on the Bl and B2 sides for other frames.
  • Table 4 shown in FIG. 18 shows a fourth control example of the consumption adjusting unit 20 executed by the control unit 16.
  • the switches SW1 and SW2 are set to the Al and A2 sides or the CI and C2 sides at a rate of once for each predetermined number of frames corresponding to all the combinations of urgency and voice Z non-voice section.
  • it defines a general-purpose method to set Bl and B2. That is, the control in the voice section when the degree of urgency is small and large is the same as in the third control example in Fig. 17.
  • Set the switches SW1 and SW2 to the Al and A2 sides or the CI and C2 sides at a rate of once each time.
  • the switches SW1 and SW2 are set to the Al and A2 sides or the CI and C2 sides at the rate of once every N4 frames in the non-voice section. , B2 side, and if the urgency is low, set switch SW1, SW2 to Al, A2 side or CI, C2 side once every N5 frames in the non-voice section, and the other frames Now set to Bl, B2 side.
  • the speech analysis unit 15 shown in FIG. 6 determines whether the decoded speech signal of the current frame is a speech section or a non-speech section by comparing the fixed threshold value Pth with the frame power Pf ⁇ .
  • This configuration may be simple, but if the decoded audio signal contains high-level background noise (air-conditioning noise, office noise, street noise, etc.), it may not be possible to accurately determine the voice section Z and the non-voice section. is there.
  • Figure 19 shows a configuration that improves this point by considering background noise in speech Z non-speech determination.
  • a dynamic power threshold value calculation unit 150 is further provided in the configuration of FIG. 6, and the pitch correlation calculation unit 158 performs pitch analysis to determine the pitch length Lp.
  • the dynamic power threshold calculation unit 150 uses the sequence of the power Pf of each frame within a predetermined time period (for example, several seconds to several tens of seconds) in the past and the pitch correlation value r obtained for each frame to perform power generation. Dynamically determine the threshold Pd. For example, a frame having a high pitch correlation r, for example, a frame with r ⁇ 0.7 is almost certainly regarded as a voice section, and a voice signal level is estimated by calculating a long-term average Pavl of the power of those frames.
  • a frame having a low pitch correlation r for example, a frame with r ⁇ 0.4 is estimated to be not a voice section (ie, background noise) or an unvoiced voice section (not a voiced voice section) of a voice section.
  • a voice section ie, background noise
  • an unvoiced voice section not a voiced voice section
  • the signal level of the voice section is estimated.
  • the dynamic power threshold calculator 150 dynamically determines a dynamic power threshold Pd based on the estimated audio signal level Pavl and the signal level Pav2 in a non-speech section (ie, a background noise section). Update.
  • the dynamic power threshold value Pd is selected to be a value between the levels Pavl and Pav2, but is preferably set to a value slightly larger than the level value Pav2 of the non-voice section. If the power of the frame is larger than the power P1 ⁇ the dynamic power threshold Pd, the interval determination unit 154 determines that the frame is a voice section, and otherwise determines that the frame is a non-voice section.
  • the determination result according to the second embodiment described above may be applied to the deviation of the first to fourth control examples shown in FIGS.
  • each frame is determined to be a voice section or a non-voice section.In this embodiment, however, it is determined whether the voice section is a voiced section or an unvoiced section.
  • the non-voice section is a background noise section or a silent section. Therefore, each frame is determined as voiced sound, unvoiced sound, background noise, and no sound, and the consumption adjusting unit 20 is controlled based on the determination.
  • FIG. 20 shows the configuration of the voice analysis unit 15 for that purpose.
  • the configuration of the speech analysis unit 15 shown in FIG. 20 is such that in the configuration shown in FIG. 19, the interval determination unit 154 is also provided with the pitch correlation value r, and the interval determination unit 154 has a dynamic power threshold Pd as a power threshold. Using both the fixed power threshold value Pth and the frame power Pf and the pitch correlation value r, it determines which of the above four sections the frame is in.
  • FIG. 21 shows the processing procedure of the section determination.
  • Step S1 Power P1 ⁇ is determined whether the following fixed threshold p t h of the frame, determines that during silence ku if so.
  • Step S2 If Pi3 ⁇ 4Sp t h or less, judge whether it is frame power P1 Pdynamic power threshold Pd or less. If so, judge it as background noise section.
  • Step S3 If Pi3 ⁇ 4Pd or less !, if the pitch correlation value r is equal to or less than the predetermined positive value Rc, then determine if it is a voiceless unvoiced sound section; It is determined to be a voiced sound section.
  • Table 5 shown in FIG. 22 shows the urgency (large, medium, small, 0) determined according to the procedure of FIG.
  • a control example of the consumption adjusting unit 20 executed by the control unit 16 based on the section determination result by the processing will be described.
  • the switches SWl and SW2 of the consumption adjusting unit 20 are unconditionally set to the terminals Al and A2 or CI and C2 regardless of the section determination result. .
  • the switch is performed at a rate of one frame for each of the predetermined integers N6, N7, N8, and N9 for voiced, unvoiced, background noise, and silent.
  • N10, Nil, N12, and N13 for voiced sound, unvoiced sound, background noise, and no sound.
  • Switch SW1 and SW2 are set at terminals Al and A2 or CI and C2 at the same ratio.
  • the sound device 18 is connected at the last stage.
  • the audio packet reproducing method according to the present invention described above can be realized by causing a computer to execute the audio packet reproducing program according to the present invention.
  • the audio packet reproducing device of the present invention can be constructed by a computer.
  • the audio packet reproducing program according to the present invention is described in a computer-readable program language, recorded on a computer-readable recording medium such as a magnetic disk or a CD-ROM, and installed from the recording medium into the computer. No, or it is installed in a computer through a communication line, and is decoded by a CPU provided in the computer to execute a voice packet reproducing operation.

Abstract

 受信パケットを受信バッファに蓄積すると共に状態検出部によりそのパケットの到着時の最大遅延ゆらぎと受信バッファのバッファ量とを検出し、制御部により最大遅延ゆらぎに対応する最適バッファ量を予め決めた表から求め、検出バッファ量と最適バッファ量からバッファ量の調整の緊急度を判定し、受信バッファから読み出したパケットから復号された現フレームの復号音声データ列に対し、消費量調整部において上記緊急度と、検出したバッファ量と、上記最適バッファ量とに基づいて上記復号音声データ列に対し波形の伸張、短縮を行って再生フレームの消費量を調整することにより、受信バッファが空になることを阻止する。

Description

音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラ ム、記録媒体
技術分野
[0001] この発明は、デジタル化された音声、音楽などの音響信号 (以下総称して音声信号
)をインターネットをはじめとするパケット通信網を介して送信する際に、受信側にお
V、て安定した品質で音声信号を再生するために用いる音声パケット再生方法、音声 パケット再生装置、音声パケット再生プログラム及びこのプログラムを記録した記録媒 体に関する。
背景技術
[0002] 音声信号を Voice over IP技術 (以下単に音声パケット通信と称す)を利用して送信 し受信するサービスが普及しつつある。図 1はその概要を示す。入力音声信号は音 声信号送信装置 5で音声パケットに変換され、パケット通信網 6に送出される。音声 信号受信装置 7は自己宛に送られて来る音声パケットを識別して受信し、音声バケツ トを復号して音声を出力する。
図 2に送信すべき音声データ列と音声パケットの関係を示す。図 2Aは送信すべき 音声データ列を示す。送信すべき音声データ列は一般に PCMデジタルサンプル列 で構成される。このディジタル音声データ列をフレームと呼ばれる一定の時間単位 ( 一般的には 10ミリ秒〜 20ミリ秒程度)に区切って音声符号ィ匕し、音声符号に送信時 刻を表わすタイムスタンプ等を付加して音声パケットとして送信される。音声パケット は図 2Bに示すように時間軸方向に圧縮された間欠信号とされ、間欠信号の空き時 間は他のパケット通信に利用される。音声信号送信装置 5から送り出される音声パケ ットの送り出しの時間の間隔は音声データ列のフレーム長に該当し、フレーム長に相 当する時間間隔でパケット通信網 6に送り出される。
[0003] 音声信号受信装置 7はフレーム長に相当する時間間隔で到来する音声パケットを 受信し、音声パケットを復号することにより図 2Cに示すように 1音声パケットが 1フレー ム長の音声データ列に復号され、 1フレーム長に相当する時間間隔で音声パケットを 受信することにより、音声信号受信装置 7は連続した音声を再生することができる。 ところで、通信網の状態によってはパケットの到来時間に大きなゆらぎが生じ、その 結果、制限時間内(フレーム長に相当する時間内)にパケットが届力な 、現象が発生 し、再生する音声が途切れるという問題がある。この問題に対して、ゆらぎ吸収バッフ ァとも呼ばれる受信バッファを設けて、常に一定量のパケットを受信バッファに溜めて おく方法が知られている。このとき、受信バッファに溜めておくパケットの量を多くする と、パケットの到着遅延の大きなゆらぎには強いが、パケットを受信して力も音声が再 生されるまでの遅延、即ち通話の遅延も大きくなり、双方向で話しづらいという問題が ある。逆に、受信バッファに溜めておくパケットの量を少なくすると、通話の遅延は少 ないが、パケットの到着遅延のゆらぎが発生したときに、音声が途切れやすいという 問題がある。つまり、通話の遅延と音声の途切れやすさはトレードオフの関係にある。
[0004] この問題に対して、受信バッファに溜めるパケット量をダイナミックにコントロールす る方法が知られている。これは、通話開始時は受信バッファに溜めるパケット量を少 なくして、通話遅延を小さくするが、通話中にバッファに溜めたパケットが枯渴すると、 通話途中でー且音声再生処理を中止して受信バッファに溜めるパケット量を一定量 増加させ、以降にお!、て通話音声が途切れに《するものである。
人間が発声する音声を 10ミリ秒〜 20ミリ秒の時間単位に区切って見ると、通常の発 声では発生時間の数十パーセント程度は非音声区間 (背景雑音区間及び無音区間 )であると言われている。そこで、受信バッファ中の受信パケット数が第 1の閾値を超 えた場合、復号音声中の非音声区間を削除することによりフレーム長を短縮して受 信バッファ中の音声再生のための次のパケットへのアクセス時点を早め、受信バッフ ァ中の受信パケット数が第 1の閾値より小さい第 2の閾値より小さくなつた場合は、復 号音声信号中の非音声区間を伸張し、それによつて受信バッファ中の音声再生のた めの次のパケットへのアクセス時点を遅延させることにより遅延ゆらぎに対処すること ができる。この方法は、非音声区間の発生頻度が著しく小さくなつたり、長時間にわ たって非音声区間が無力つたりすると、受信バッファによる調整ができなくなってしま
[0005] 一方、音声区間 (有声音区間及び無声音区間)において、ピッチ波形を単位として 挿入、削除すれば、聴覚的な品質劣化をほとんど生じさせることなぐ時間長の伸縮 が可能であることが非特許文献 1に記載されて 、る。この方法を用いて前記非音声 区間だけでは十分な受信バッファの調整ができない問題を解決するため、受信バッ ファ内の蓄積パケット量が下限値より下がると音声区間においてピッチ長の補間音声 波形を追加し、上限値を超えると音声区間においてピッチ長の音声波形を間引くこと が特許文献 1に示されている。し力しながら、ピッチ長の波形を挿入あるいは間引くこ とにより音質劣化を低減しているものの、このピッチ長の波形の挿入又は間引きは、 ノ ッファ内の蓄積パケット量が上限閾値と下限閾値の間になるまで一連のフレームに 対し実施されるため、再生音声に望ましくない程度の音質劣化を与える可能性があ る。また、下限値及び上限値は固定されているため、遅延ゆらぎの急激な変化に対 応できず、パケットロスが生じてしまう場合もある。
特許文献 1:日本国特許出願公開 2003-050598号公報
非特許文献 1 :森田、板倉、 "ポインター移動量制御による重複加算法 (PICOLA)を 用いた音声の時間軸での伸張圧縮とその評価"、日本音響学会講演論文集、 1-4-1 4. 1986年 10月
発明の開示
発明が解決しょうとする課題
[0006] 本発明の目的は、ピッチ波形を単位とした挿入、削除処理を応用して、より高性能 な音声パケット再生方法、及び装置を提案しょうとするものである。
課題を解決するための手段
[0007] この発明によれば、音声データ列のフレーム毎の符号ィ匕により生成された音声符 号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生 方法は、以下のステップを含む:
(a)受信パケットを受信バッファに蓄積し、
(b)上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最 大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されている パケット数であるバッファ蓄積パケット数とを検出し、
(c)上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の 関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パ ケット数と呼ぶ、を求め、
(d)上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を 複数の段階で判定し、
(e)上記受信バッファ力も現フレームに対応するパケットを取り出し、そのパケット中 の音声符号を復号して現フレームの復号音声データ列を得て、
(£)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット 数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその 波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声 データとして出力する。
この発明によれば、音声データ列のフレーム毎の符号ィ匕により生成された音声符 号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生 装置は、
入力音声データ列のフレーム毎の符号ィヒにより生成された音声符号を収容して送 信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、 音声パケットをパケット通信網力も受信するパケット受信部と、
受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファ と、
上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値 又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケ ット数であるノ ッファ蓄積パケット数を検出する状態検出部と、
上記最大遅延ゆらぎから、予め決めた最大遅延揺らぎと最適蓄積パケット数の関係 を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット 数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違 の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基 づ 、て、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波 形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
上記受信バッファ力 取り出された現フレームに対応するパケット中の音声符号を 復号して現フレームの復号音声データ列を得る音声パケット復号部と、 上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の 伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データと して出力する消費量調整部、
とを含むように構成される。
発明の効果
[0009] パケット到着時間の遅延ゆらぎの大きいパケット通信網によってリアルタイムに音声 信号を通信する場合に、本発明を適用することによって、音声の有無を問わずに定 常的に音声データ列の消費量を制御し、受信バッファ内のパケット量を調整するから 通信網の状態(ゆらぎ時間)の変化に追随して、受信バッファの最適コントロールが 可能となる。この結果、音声の途切れがなぐかつ通話遅延を必要最小限に抑えた 音声通話が実現される。また、パケット通信網はコストを抑えるために、ある程度のゆ らぎを許容するように設計するのが一般的であり、本発明の利用によって、回線自体 のゆらぎが少な!/、高品質ネットワークを利用しなくても音声の途切れが発生しな 、た め、ネットワークの利用に関するコスト削減にも効果がある。
図面の簡単な説明
[0010] [図 1]パケット通信の概要を説明するためのブロック図。
[図 2]パケット通信の概要を説明するためのタイミングチャート。
[図 3]本発明の音声パケット再生装置の一実施例を説明するためのブロック図。
[図 4]最大遅延ゆらぎに対する最適バッファ量を示す表。
[図 5]図 5Aは受信パケットの処理手順を示し、図 5Bはパケットの読み出し、復号、波 形処理の手順を示す。
[図 6]図 3における音声分析部 15の構成例を示すブロック図。
[図 7]図 3におけるフレーム波形伸張部 21の機能構成例を示すブロック図。
[図 8]図 7に示したフレーム波形伸張部 21による波形伸張処理を模式的に説明する ための波形図。
[図 9]図 7に示したフレーム波形伸張部 21による波形伸張処理の他の例を説明する ための波形図。 [図 10]図 3におけるフレーム波形伸張部 21の他の構成を説明するためのブロック図。
[図 11]図 3に示したフレーム波形短縮部 22の内部を構成を説明するためのブロック 図。
[図 12]図 11に示したフレーム波形短縮部 22の動作を説明するための波形図。
[図 13]図 3に示した消費量調整部 20の動作を説明するためのタイミングチャート。
[図 14]バッファ調整の緊急度を判定する手順を示すフローチャート。
[図 15]緊急度に対する消費量調整部 20の制御例を示す表 1。
[図 16]緊急度に対する消費量調整部 20の制御例を示す表 2。
[図 17]緊急度に対する消費量調整部 20の制御例を示す表 3。
[図 18]緊急度に対する消費量調整部 20の制御例を示す表 4。
[図 19]図 3における音声分析部 15の第 2の実施例を示すブロック図。
[図 20]図 3における音声分析部 15の第 3の実施例を示すブロック図。
[図 21]図 20における音声フレームの区間の判定手順を示すフローチャート。
[図 22]図 21による判定結果の音声フレームに対する消費量調整部 20の制御例を示 す表 5。
発明を実施するための最良の形態
本発明は、コンピュータ本体とコンピュータプログラムによって実行することが可能 であるし、デジタルシグナルプロセッサや専用 LSIに実装して実現することも可能であ る。特に切替スィッチはプログラムの条件分岐として実装することができる。
1実窗列
図 3は、本発明における音声信号受信部の構成例であり、パケット受信部 11と、受 信バッファ 12と、音声パケット復号部 13と、状態検出部 14と、音声分析部 15と、制御 部 16と、消費量調整部 20と、サウンドデバイス 18とから構成されている。パケット受 信部 11は、通信網力も音声パケットを受信し、その受信バッファ 12に蓄積すると共に 、そのパケットの到着時刻とそのパケットのタイムスタンプを状態検出部 14に与える。 音声パケットには、フレームと呼ばれる一定の時間単位 (一般的には 10ミリ秒〜 20ミ リ秒程度)に区切った音声信号を音声符号化の手法によって変換した音声符号と、 送信側におけるパケット作成の時間順序を示すタイムスタンプ (フレーム番号に対応 )が含まれている。代表的な音声符号化手段としては、 ITU-T (国際電気通信連合) の標準である G.711方式がある力 その他任意の方式でもよい。
[0012] 受信バッファ 12は、受信音声パケットを蓄積し、音声パケット復号部 13から転送要 求がある毎に、音声パケットを音声パケット復号部 13にタイムスタンプ順に送る。受信 ノ ッファ 12から音声パケットが音声パケット復号部 13に転送されるごとに、受信バッ ファ 12内のその音声パケットは破棄される。
音声パケット復号部 13は、音声パケットに含まれる音声符号を復号して、音声デー タ列を出力し、消費量調整部 20と音声分析部 15に与える。ここでいう音声データ列 とはデジタル音声サンプル列であり、一般的には PCMフォーマットで扱われることが 多い。以下、特に音声信号がアナログかデジタルかの表記はしないが、最終的に人 間の耳で聞く音がアナログ信号である以外の処理途中の信号はデジタル信号である
[0013] また、送信側では PCM信号をフレームごとに符号ィ匕して力 パケットに収容して送 信する場合と、 PCM信号をそのままフレームごとにパケットに収容して送信する場合 がある。前者の場合、受信側において受信パケットから取り出した音声符号を復号す る手段を必要とするが、後者の場合は必要としない。し力しながら、 PCM信号も一種 の符号であると考えれば、受信側にぉ 、てパケットから取り出した PCM信号をデイジ タルオーディオ信号に変換する復号ィ匕手段を必要とする。図 3に示したこの発明の 音声パケット再生装置における音声パケット復号部 13はいずれの場合であってもよ い。
[0014] 状態検出部 14はパケット受信部 11で受信されたパケットの到着時刻とタイムスタン プが与えられ、遅延ゆらぎを検出すると共に、受信バッファ 12に蓄積されているパケ ット数を検出して制御部 16に与える。ここで簡単のため現パケットのタイムスタンプを フレーム番号 F (n=0, 1, 2,…;)と同じとし、到着時刻を Tとし、直前のパケットのタイム スタンプを F とし、その到着時刻を T とする。信号伝送路の遅延量の変動が小さ n— m n-m
ければ通常は m=lであるが、遅延量が大きく変動すると到着パケットの順番の逆転が 生じる可能性があるので一般には m=lとは限らない。フレーム長を Lfとし、遅延ゆらぎ j を例えば j =(T -T )-m X Lf又はその絶対値で表すことにする。遅延ゆらぎ jの定義 はゆらぎの程度を数値で表すことができれば他の定義式を用いてもよい。
[0015] 状態検出部 14は前回のパケットの到着時刻 T とタイムスタンプ F を内部の情報 n-m n— m
記憶部 14Mに保持すると共に、一定期間 (例えば 2秒間)過去に遡って受信された 各パケットについて計算した遅延ゆらぎ j , j ,…を保持している。現パケット (タイムス η η-1
タンプ F )の受信時点における過去一定期間(2秒)内の遅延ゆらぎの最大値又は統 計値 (以下最大遅延ゆらぎと呼ぶ)を Jと表すことにする。あるいは一定期間の代わり に、一定数 (例えば 100)の受信されたパケットに対する最大遅延ゆらぎを Jとしてもよ い。状態検出部 14は、パケット受信部 11からパケットの到着時刻 Tとタイムスタンプ F が与えられる毎に最大遅延ゆらぎ Jを求め、現時点の受信バッファ 12の蓄積パケット 数 (バッファ量) Sと共に制御部 16に与える。
[0016] 音声分析部 15は、まず音声パケット復号部 13から出力された復号音声データ列を 分析して、当該フレームが音声区間であるか非音声区間であるかを判定する。なお、 ここで言う音声区間とは、人間の発声した音声信号が含まれる区間、非音声区間とは 音声信号が含まれない区間と定義する。音声区間は有声音区間又は無声音区間の いずれかであり、非音声区間は音声区間以外の区間、即ち、背景雑音区間又は無 音区間のいずれかである。その判定方法としては、例えば、フレーム内の音声信号 のパワーを計算し、パワーが閾値以上であれば音声フレーム (音声区間)、閾値未満 であれば非音声フレーム (非音声区間)と決めることにする。
[0017] 当該フレームが音声区間と判定された場合には、ピッチ長の分析が行なわれる。ピ ツチ長は、例えば、音声波形又は音声波形にスペクトル包絡の逆特性を持つフィル タをかけた信号の自己相関係数を計算することによって得られる。当該フレームが非 音声区間と判定された場合には、ピッチ長の分析は行なわず、ピッチ長 Lpとして一定 値、例えばフレーム長 Lfの 1/2を設定する。後述するように、ピッチ長 Lpはフレーム長 Lfの 1/2以下が以後の処理に都合がよいためである。フレーム長 Lfの 1/4、 1/6といつ た 1/2以下の任意の値でもよ 、。
[0018] 当該フレームが音声区間と判定された場合であっても、その音声が有声音の場合 と無声音の場合がある。無声音の場合にはピッチと!/、う音声の物理的特徴量は存在 しない。その場合でも、ピッチ分析の手法を用いて得られた値をピッチ長として以後 の処理に利用して差し支えないし、非音声区間と同様にピッチ長として一定値に設 定してしまっても本発明の効果に大差はない。
背景雑音がある場合の背景雑音区間 (音声区間以外)では、音声区間と同様にピ ツチ分析の手法を用いてピッチ長を算出する。このとき得られるピッチ長は、音声の 物理的特徴量としてのピッチとは異なるが、信号に含まれる主要な基本周波数に対 応する周期として利用する。なお、音声の符号化方法によっては音声符号中にピッ チに関する情報が含まれている場合があり、その場合には音声符号中のピッチ情報 を用いてピッチ長を求めればよ!、。
[0019] 制御部 16は予め実験により最大遅延ゆらぎとそれに対する受信バッファ 12の最適 蓄積バケツト数を決めた例えば図 4に示す表 16Tを有して 、る。図 4に示す表 16Tは 、フレーム長 Ll¾¾0msecの場合であり、従って、隣接パケットとの理想的な受信間隔 も 20msecである。制御部 16は、状態検出部 14から与えられた最大遅延ゆらぎ Jから 表 16Tを参照して求めた最適パケット数 Bと現在の受信バッファ 12の蓄積パケット数 Sとの差 S— Bに基づいて、受信バッファ 12に必要とされるバッファ量の調整の緊急 度を判定する。なお、表 16Tを用いる代わりに、例えば最大遅延ゆらぎ Jと最適蓄積 パケット数 Bの関係を近似的に表す式を予め決め、それを使用してもよい。即ち、最 大遅延ゆらぎ Jと最適蓄積パケット数 Bの予め決めた関係を使用するのであればどの ような方法でもよい。
[0020] 制御部 16は判定した緊急度と、音声分析部 15から与えられた音声 Z非音声判定 結果に基づいて、音声パケット復号部 13からの現フレームの復号音声波形データに 対し、伸張するか、短縮するか、あるいは変更しないかを決め、その決定による制御 を消費量調整部 20に与える。
消費量調整部 20は制御部 16の制御に従って、音声パケット復号部 13からの復号 音声波形データをそのまま出力するか、伸張して出力するか、短縮して出力する。復 号音声波形を伸張すれば音声パケット復号部 13の受信バッファ 12に対し次のパケ ットの転送要求が遅れることになり、単位時間当たりのパケット消費量が少なくなる。 逆に、復号音声波形を短縮すれば、単位時間当たりのパケット消費量が多くなる。即 ち音声信号として出力するための単位時間当たりの処理フレーム数を制御すること により受信バッファ 12からのパケットの読み出し量を制御する。
[0021] サウンドデバイス 18は図示してない DZA変翻を有しており、音声データ列をァ ナログ信号に変換し実際にスピーカで再生する。消費量調整部 20からデジタルの音 声信号がサウンドデバイス 18に送られると、アナログ音響信号である出力音声が再 生される。サウンドデバイス 18は受け取った時間長(1フレームに相当する時間)の信 号の再生が終わると、次のパケットの復号音声データ列を受け取る。サウンドデバイ ス 18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと 呼ばれる方法がよく知られている。ダブルバッファとは、 2つのバッファを持ち、一方が 再生中は他方は次の再生のための信号を受け取って準備する方法である。バッファ が満杯のときは、一方の再生が終了するまでは次の信号は受け取らない。バッファ内 に次の信号を格納できる空き領域が発生すると、直ちに次の信号の読み込みが実行 される。
[0022] 図 5A及び図 5Bは図 3に示したこの発明による音声パケット再生装置におけるパケ ット受信部 11と受信バッファ 12と、状態検出部 14による上述した受信パケットの処理 手順と、それ以外の構成部による音声データ列の再生処理手順を示す。
図 5Aの処理では、ステップ S 1Aでパケット受信部 11により音声パケットが受信され ると、ステップ S2Aで受信パケットのタイムスタンプと到着時刻とを状態検出部 14に 保存する。
ステップ S3Aで、状態検出部 14により受信パケットの到着時刻とタイムスタンプから 直前の受信パケットに対する遅延ゆらぎを求め、到着時刻、タイムスタンプと共に保 存し、過去一定時間内の最大遅延ゆらぎ Jを求め、受信バッファ 12の現時点の蓄積 パケット数 (バッファ量) Sを検出し、制御部 16に最大遅延ゆらぎ Jとバッファ量 Sを与 える。
[0023] ステップ S4Aで、受信パケットを受信バッファ 12に蓄積し、ステップ S1Aに戻って 次のパケットを待つ。
図 5Bの処理では、ステップ S1Bで音声パケット復号部 13からの要求により受信バ ッファ 12から再生処理における現フレームに対応するパケットを読み出し、ステップ S 2Bで音声パケット復号部 13によりパケット中の音声符号を復号ィ匕して音声データ列 を得る。
ステップ S3Bで、音声分析部 15により復号音声データ列が音声区間であるか非音 声声区間であるか判別し、ステップ S4Bで制御部 16により最大遅延ゆらぎ Jに対する 最適バッファ量 Bを図 4の表力 決定する。
[0024] ステップ S5Bで、制御部 16によりさらに最適バッファ量 Bと検出ノ ッファ量 Sに基づ V、てバッファ量の調整の緊急度を判定する。
ステップ S6Bで、判定された緊急度に応じて消費量調整部 20により現フレームの 復号音声データ列に対し波形伸張 Z短縮処理を行う。
ステップ S7Bで、波形伸張 Z短縮処理された音声データ列を出力し、ステップ S1B に戻って次のパケットの再生処理に移る。
以下、図 3に示したこの発明による音声パケット再生装置の要部を詳細に説明する
[0025] 図 6は音声分析部 15の機能構成例を示す。ここでは、音声分析部 15は、高域通過 フィルタ 151と、分析用バッファ 152と、フレーム内パワー計算部 153と、区間判定部 154と、ピッチ抽出部 15Aとから構成されている。音声パケット復号部 13からのフレ ームごとの復号音声データは高域通過フィルタ 151により直流分や、本来音声に含 まれて 、な 、極端に低!、周波数 (例えば 50Hz以下)の成分が除去された後、以降 の処理のために分析用バッファ 152に一時保持され、フレーム内パワー計算部 153 によりフレーム内のパワー P1¾計算される。区間判定部 154は予め決めたパワー閾 値 Pthよりもフレーム内パワー Pi¾大きければ音声区間、 Pth以下であれば非音声区 間と判定し、判定結果を出力する。
[0026] ピッチ抽出部 15Aは区間判定部 154の判定結果が音声区間と判定した場合に復 号音声データ列力 ピッチ抽出処理を実行する。ピッチ抽出部 15Aは線形予測分析 部 155と、逆フィルタ係数算出部 156と、逆フィルタ 157と、ピッチ相関計算部 158と 力 構成されて 、る。線形予測分析部 155は分析用バッファ 152に保持されて 、る 1 フレーム分の復号音声データ列を線形予測分析し、線形予測係数を得て逆フィルタ 係数算出部 156に与える。逆フィルタ係数算出部 156は線形予測係数から、復号音 声信号のスペクトル包絡を平坦ィ匕するような逆フィルタ係数を算出し、線形フィルタで 構成された逆フィルタ 157の係数として設定する。従って、逆フィルタ 157は与えられ た復号音声データ列を逆フィルタ処理し、それによつてスペクトル包絡が平坦ィ匕され た音声データ列がピッチ相関計算部 158に与えられる。ピッチ相関計算部 158は与 えられた音声データの自己相関値をサンプル点を順次ずらしてそれぞれ計算し、得 られた一連の相関値のピークの間隔をピッチ長 Lpとして検出し、消費量調整部 20に 与える。
[0027] 尚、ピッチ長の分析には、当該フレームの信号だけでなぐ過去のフレームの信号 も利用することが多い。その場合には分析用バッファ 152のサイズを 2フレーム以上と し、現フレームと過去のフレームの復号音声データ列を保持し、過去から現在に渡る 複数フレームの音声データ列に対するピッチ長分析を行えばよい。音声 Z非音声の 判定結果は制御部 16に、ピッチ長 Lpは音声データ列の消費量を調整する消費量調 整部 20に送られる。
図 3に戻って、消費量調整部 20は、フレーム波形伸張部 21と、フレーム波形短縮 部 22と、波形伸張用バッファ 23と、スルーノ ス 24と、スィッチ SW1、 SW2とによって 構成される。スィッチ SW1は 3つの切替端子 Al、 Bl、 CIを持ち、スィッチ SW2は 3 つの切替端子 A2, B2, B3を持ち、これら切替端子の組 Al, A2 ;B1, B2 ;C1, C2 間にそれぞれフレーム波形伸張部 21、スルーパス 24、フレーム波形短縮部 22が接 続されており、制御部 16の制御に従ってこれらのいずれかを選択するように連動して 切り替えられる。スィッチ SW2により選択された音声波形データ列はサウンドデバイ ス 18に与えられると共に、波形伸張用バッファ 23に書き込まれる。波形伸張用バッフ ァ 23から読み出された音声信号はフレーム波形伸張部 21に与えられる。
[0028] フレーム波形伸張部 21の機能構成例を図 7に、フレーム波形伸張部 21による波形 伸張処理の例を図 8に示す。
フレーム波形伸張部 21は、波形処理用バッファ 21-0と、波形挿入処理部 21-1と、 第 1波形切出し部 21-2と、ピッチ波形生成部 21-3と、第 2波形切出し部 21-4とから構 成されて!/、る。第 2波形切出し部 21-4は音声分析部 15からのピッチ長 Lpを使って、 波形伸張用バッファ 23に蓄積されている 1フレーム過去の出力音声信号波形 WF1か ら、図 8,行 Aに示すピッチ長 Lpの区間の波形 Xを切り出す。即ち、バッファ 23内の最 後のサンプル点から、過去の時間方向に向力つて 1ピッチ長 Lpの波形 Xを切り出す。
[0029] 第 1波形切出し部 21-2は、波形処理用バッファ 21-0内の現フレームの音声信号波 形 WF0から、図 8の行 Aにおけるピッチ長 Lpの区間の波形 Yを切り出す。即ち、入力 された現フレームの音声信号波形 WF0の先頭サンプル点力 正の時間方向に向か つて 1ピッチ長 Lpの波形を切り出す。
ピッチ波形生成部 21-3は、前記切り出した波形 Xと波形 Yにそれぞれ三角窓の重 み付けを行なった後、互いに加算して、図 8の行 Bに示す波形 Zを作成する。ここで 利用する重み付け三角窓は、非特許文献 1に記載されている三角窓と同様のものを 利用することができる。即ち、波形区間の始点カも終点に向力つて、重みが波形 Xで は 0から 1に、波形 Yでは 1から 0に直線的に変化する形状を利用できる。
[0030] 波形挿入処理部 21-1は、図 8の行 Cに示すように現フレームの音声波形の先頭に 付加した 1ピッチ長 Lpの区間に、行 Dに示すように前記波形 Zを挿入する。
図 8、行 Aでは、波形 Xは波形伸張用バッファ 23内の 1フレーム前の信号力 切り 出し、波形 Yは波形処理用バッファ 21-0内の現フレームの信号力 切り出しているが 、ピッチ長 Lpがフレーム長 Lfの 1/2以下の場合には、現フレームの音声波形のみを使 つて挿入波形を作成してもよい。例えば、図 9、行 A中に示すように、図 8、行 Aの波 形 X、波形 Yに対応する波形 X'、 Y'を現フレームの先頭力も連続して 2ピッチ長の区 間から切り出し、切り出した波形 X Ύ' に三角窓をかけて互いに加算して波形 Ζ ' (図 9、行 Β)を作成し、現フレームの波形:^ tY' の間(図 9、行 C)に波形 を 挿入して長さ Lf+Lpの波形とすれば(図 9、行 D)、図 8の手法と同様の効果が得られ る。
[0031] 図 9の手法では、図 8の手法で使用した波形伸張用バッファ 23は不要になるメリット がある反面、ピッチ長 Lpがフレーム長 Lfの 1/2以下である制限がある。しかしながら、 波形処理用バッファ 21-0のサイズを例えば 2フレーム分として現フレームとその直前 のフレームの波形を保持するようにし、伸張処理を 2フレーム分の音声信号に対して 行うことにより、ピッチ長 Lpが Lf/2を超えても波形伸張処理を行うことができる。
フレーム波形伸張部 21の処理によって、長さ Lfの現フレームの音声信号波形は、 図 8、行 D及び図 9、行 Dに示すように長さが Lf+Lpに伸張された信号波形となって出 力される。
[0032] 図 3におけるフレーム波形短縮部 22の機能構成例を図 11に、フレーム波形短縮部 22による波形短縮処理の例を図 12に示す。フレーム波形短縮部 22は、波形処理用 バッファ 22-0と、波形置換処理部 22-1と、第 3波形切出し部 22-2と、ピッチ波形生成 部 22- 3と、第 4波形切出し部 22- 4とから構成されている。
第 3波形切出し部 22-2は、図 12の行 Aに示すように、波形処理用バッファ 22-0に保 持されている現フレームの音声信号波形の先頭サンプルから 1ピッチ長 Lpの区間の 波形 Dを切り出す。第 4波形切出し部 22-4は現フレームの音声信号波形の波形 Dに 続く 1ピッチ長 Lpの区間の波形 Eを切出す。
[0033] ピッチ波形生成部 22-3は、前記切り出した波形 Dと波形 Eにそれぞれ三角窓の重 み付けを行った後加算して、図 12の行 Bに示す波形 Fを作成する。ここで利用する 重み付け三角窓としては、やはり非特許文献 1に記載されている力 波形区間の始 点から終点に向かって、波形 Dでは 1から 0に、波形 Eでは 0から 1に直線的に変化す る形状を使用できる。
波形置換処理部 22-1は、行 Aに示す現フレームの連続する計 2ピッチ長の波形 D、 Eの区間を行 Cに示すように 1ピッチ長の区間に短縮して、 1ピッチ長の前記波形 Fで 置換する (行 D)。
[0034] フレーム波形短縮部 22の処理によって、フレーム長 Lfの入力音声信号は、 Lf-Lpに 短縮された信号となって出力される。
フレーム波形短縮部 22において、ピッチ長 Lpがフレーム長 Lfの 1/2を超えることが ある場合は、前記短縮処理を行なうことができない。つまり波形 Eがフレーム内から切 り出せないためである。例えば、フレーム長 Ll¾20ミリ秒とすると、ピッチ長 Lpは 10ミリ 秒以下でなくてはならず、これはピッチ周波数が 100Hz以上でなくてはならないこと を意味する。男性音声では、ピッチ周波数が 100Hz未満である場合もある。このよう にピッチ長 Lpがフレーム長 Lfの 1/2を超える場合は、フレーム波形短縮部 22の波形 処理用バッファ 22-0のサイズを 2フレーム分とし、現フレームとその直前のフレームの 連続する 2フレーム長の音声信号に対し、上述の短縮処理を行えばよい。
[0035] ピッチ長 Lpがフレーム長 Lはりも長い場合には、前記 2フレーム分の入力音声信号 に対する短縮処理も、前記フレーム波形伸張部 21の処理も、ともに行なうことができ ないが、ピッチ長が 20ミリ秒より大きい、即ちピッチ周波数が 50Hzよりも低いことは滅 多にありえないことから、仮に入力されたピッチ長 Lpがフレーム長 Lはりも長い場合に は、フレーム波形伸張処理、フレーム波形短縮処理とも無処理のまま入力信号をそ のまま出力すればよい。
再び図 3に戻って、制御部 16は状態検出部 14からの最大遅延ゆらぎ Jと受信バッ ファ 12の蓄積パケット数 (バッファ量) Sとに基づいて、受信バッファ 12に蓄積するパ ケットの量を増やすべき力、減らすべきか、そのまま維持するのかの判断を行う。
[0036] 蓄積するパケットの量を増加すべきと判断する状況の例としては次の場合が考えら れる。
(a)受信バッファに蓄積されている音声パケットの量が減少傾向にある場合。
(b)受信バッファに蓄積されている音声パケットの数が所定値より少なくなつた場合
(c)受信パケットの到着時間の間隔が増加傾向にある場合。
蓄積するパケットの量を減少すべきと判断する状況の例としては次の場合が考えら れる。
[0037] (a)受信バッファに蓄積されて 、る音声パケットの量が増加傾向にある場合。
(b)受信バッファに蓄積されている音声パケットの数が所定値以上に達した場合。
(c)受信パケットの到着時間の間隔が短縮傾向にある場合。
それ以外で、パケット到着時点の最大遅延ゆらぎに対して、その時点で蓄積してい るパケット量が適切であると判断されるときは、そのまま維持という判断をする。尚、実 際の遅延ゆらぎが何ミリ秒の時にパケット蓄積量はいくらが適切であるかについては 図 4に例を示したが、一定期間(例えば 2秒間)内のパケット受信部 11へのパケット到 着間隔の最大値よりも、蓄積されたパケットの数 Sで算出されるフレームの長さの合計 時間 S X L1¾少し長 、程度がょ 、と考えられる。
[0038] 制御部 16は、蓄積するパケットの量を増やすべきであると判断した場合、スィッチ S Wl、 SW2をそれぞれ端子 Al、 A2に切り替える。蓄積するパケットの量を減らすベ きであると判断した場合には、スィッチ SW1、 SW2をそれぞれ端子 Cl、 C2に切り替 える。蓄積するパケットの量をそのまま維持すべきであると判断した場合には、スイツ チ SW1、 SW2をそれぞれ端子 Bl、 B2に切り替え、各切り替え位置により消費量調 整部 20の消費量が設定される。
波形伸張用バッファ 23は、スィッチ SW2の出力側の音声データ列を蓄積し、蓄積 された音声データ列は、前述のように、フレーム波形伸張部 21で利用される。
[0039] 音声データ列がサウンドデバイス 18に送られると、所定速度のクロックに同期して 出力音声が再生される。サウンドデバイス 18は受け取った時間長の音声データ列の 再生が終わると、次のパケットから復号した音声データ列を受け取る。
前述のように、サウンドデバイス 18の中にもサウンドデバイス用のバッファを持つの が一般的で、ダブルバッファと呼ばれる方法がよく用いられる。ダブルバッファの両方 のバッファが満杯のときは、一方のバッファの再生が終了し、そのバッファが空になる までは次の音声データ列は受け取らない。
[0040] スィッチ SW1、 SW2がそれぞれ端子 Cl、 C2側、即ちフレーム波形短縮部 22側に セットされると、もとの 1フレーム長に満たない長さの信号がスィッチ SW2より出力され る。 1フレーム長に満たない長さの信号をそのままサウンドデバイス 18に送ると、サゥ ンドデバイスのオーバーヘッドが大きくなつて、時に音声の途切れが発生することが ある。サウンドデバイス 18の仕様としてフレーム長の許容最低値がある場合には、ス イッチ SW2とサウンドデバイス 18の間に中間のバッファを設けるのがよい。
スィッチ SW1、 SW2を端子 Al、 A2側に切り替えると、音声パケット復号部 13から 出力された復号音声データ列は、フレーム波形伸張部 21を通ってサウンドデバイス 18に送られる。長さ Lfの復号音声データ列がフレーム波形伸張部 21を通ることによ つて、長さ Lf+Lpのデータ列に伸張されるので、サウンドデバイス 18での再生時間も Lf+Lpになる。即ち、通常、サウンドデバイス 18が音声データ列を受け取る時間間隔 が LfCあつたのが、 Lf+Lpの信号の再生時には音声データ列を受け取る時間間隔 は Lf+Lpになる。
[0041] 音声パケット復号部 13は、サウンドデバイス 18が音声データ列を受け取らないと受 信バッファ 12に対して次の送信要求を出さないので、パケット受信部 11が一定の間 隔でパケットを受信していれば、受信バッファ 12に蓄積されるパケット量は平均として 増えることになる。平均として増えるとは、 Lpく LfCあるので、 1回のフレーム波形伸 張処理では、受信バッファに蓄積されるパケット量の増分は 1フレーム分には満たな い。復号音声信号に対し複数フレーム (Nとする)にわたつてフレーム波形伸張部 21 の伸張処理を行うと、 Nよりも小さ ヽ Mフレーム分だけ受信バッファ 12に蓄積されるパ ケット量が増加する。
[0042] 図 13を用いてその様子を説明する。図 13の行 Aは受信バッファ 12に順次蓄積さ れるパケット P , P , P ,…を、また図 13の行 Bは定常の音声フレーム F , F , F ,…の
1 2 3 1 2 3 消費状態を示す。つまり、スィッチ SW1と SW2が端子 Bl、 B2にセットされている場 合は受信バッファ 12に格納されているパケットを 1個ずつ取り出して音声パケット復 号部 13で 1フレーム長 Lf毎の音声データ列に復号し、圧縮、伸張の処理を受けずに スルーパス 24を通ってサウンドデバイス 18に与えられる。サウンドデバイス 18では 1 フレーム長 Lf毎の音声データ列を音声に再生する。従って、この状態では 1パケット を消費する毎に 1フレーム長の音声が再生され、 1パケット分の音声が再生されると、 次のパケットが受信バッファ 12から取り出され、音声パケット復号部 13で音声データ 列の復号が行われる。
[0043] これに対し、図 13の行 Cに示す消費量小の状態では、スィッチ SW1と SW2は端子 A1と A2に接続され、復号音声データ列は伸張処理を受けるので、サウンドデバイス 18に与えられる音声データ列の時間長は Lf+Lpとなる。従って、行 Cに示すように伸 張されたフレーム F' , F' , F' ,…がサウンドデバイス 18に与えられることになる。サ
1 2 3
ゥンドデバイス 18は 1パケットから復号した各フレーム長 Lfの音声データ列を Lf+Lp の時間を掛けて音声を再生することになるからサウンドデバイス 18側力も音声バケツ ト復号部 13に復号音声データ列を出力することを要求するタイミングは Lf+ Lpの周 期となる。図 13、行 Bに示した定常消費状態の例では時間 TM内に 6個のパケットを 消費したが、図 13、行 Cに示す受信バッファ 12からパケットを取り出す周期が Lf+Lp の消費状態例ではパケットを 4個消費することになる。これによりパケットの消費量を 定常の消費状態より少なくすることができる。
[0044] スィッチ SW1、 SW2を端子 Cl、 C2側に切り替えると、音声パケット復号部 13から 出力された復号音声データ列は、フレーム波形短縮部 22を通ってサウンドデバイス 18に送られる。長さ Lfの復号音声データ列がフレーム波形短縮部 22を通ることによ つて、長さ Lf Lpの音声データ列に短縮されるので、図 13、行 Dに示すように短縮さ れたフレーム F" , F" , F" ,…がサウンドデバイス 18に与えられることになる。そのた
1 2 3
め、サウンドデバイス 18での各短縮フレームの再生時間も Lf—Lpになる。即ち、通常 、サウンドデバイス 18が音声データ列を受け取る時間間隔力 であったの力 Lf Lp の信号の再生時には間隔が Lf Lpになる。この結果、音声パケット復号部 13も、通 常 1フレーム長 Lfの時間間隔よりも短!、間隔で受信バッファ 12に対して次の送信要 求を出すので、パケット受信部 11が一定の間隔でパケットを受信していれば、受信 ノ ッファに蓄積されるパケット量は平均として減ることになる。平均として減るとは、 Lp < LfCあるので、 1回のフレーム波形短縮処理では、受信バッファに蓄積されるパケ ット量の減少分は 1フレーム分には満たない。複数フレーム (Nとする)にわたつてフレ ーム波形短縮部 22を通ると、 Nよりも小さい Mフレーム分受信バッファに蓄積される パケット量が減少する。
[0045] 図 13の行 Dに示す例では、フレーム短縮部 22を通すことにより、同じ時間 TMの間 にパケットを 10個消費することを表わして 、る。このようにパケットの消費量を大きくす ることにより、受信バッファ 12に蓄えられるパケットの数を少なくすることができる。 制御部 16により、より高度なバッファ量制御が可能である。例えば、状態検出部 14 力ものバッファ量 Sと最大遅延ゆらぎ Jに基づいて、受信バッファに蓄積するパケットの 量を増やすべき、減らすべきと判断する際に、緊急に増やすべき Zゆるやかに増や すべき、緊急に減らすべき Zゆるやかに減らすべき、という増減速度を判断に加える ことができる。具体的には、通信網の状態が突然悪ィ匕したときに、受信バッファに蓄 積するパケットの量をゆるやかに増やして 、たのでは、音声の途切れが発生してしま うかもしれない。通信網の状態変化が急激であれば、ノ ッファに蓄積するパケット量 の制御も緊急に行うべきである。逆に、一般にドリフトと言われる、送信側と受信側の クロックずれやタイミングのわずかなずれの蓄積により、ノ ッファに蓄積するパケット量 が徐々に所望の量より増えてきてしまった、あるいは減ってきてしまったという場合に は、ゆるやかに増減すればよい。
[0046] 緊急に増減が必要な場合は、音声区間、非音声区間にかかわらず、消費量調整 部 20のスィッチ SW1、 SW2をそれぞれ端子 Al、 A2側、あるいは端子 Cl、 C2側に セットして、迅速な波形伸縮を行うことによって、パケット蓄積量の増減も迅速に制御 することができる。逆に、ゆるやかな増減でよい場合は、音声分析部 15における音声 Z非音声判定の結果、非音声フレームにおいてのみスィッチ SW1、 SW2をそれぞ れ端子 Al、 A2側、あるいは端子 Cl、 C2側にセットするという方法でもよい。さらに、 非音声フレームの場合には、ピッチ長を実際にピッチ分析した値ではなぐフレーム 長 Lfの 1/2以下の任意の値に設定してよいので、よりゆるやかな増減の場合には、任 意に設定するピッチ長を短 、値にするとよ 、。
図 14は図 3の構成において図 6に示した音声分析部 15による音声 Z非音声判定 結果と、状態検出部 14により検出した現受信パケットに対し過去 T秒間 (例えば 2秒 間)における最大遅延ゆらぎ Jと、受信バッファ 12内の蓄積パケット数 Sとに基づいて 、バッファ量の調整が緊急を要するかその緊急度を判定する手順の例を示す。 ステップ S1 :状態検出部 14における最大遅延ゆらぎ Jを受信バッファ 12内の各パケ ットの受信時刻から求める。
ステップ S2 :制御部 16により最大遅延ゆらぎ Jに対応する最適バッファ量 Bを図 4の表 16Tを参照して決める。
ステップ S3 :状態検出部 14により現時点における受信バッファ 12のバッファ量 (蓄積 されて 、るパケット数) Bを求める。
ステップ S4 :制御部 16により決定した最適バッファ量 Bと状態検出部 14により検出し た実際のバッファ量 Sとの差の絶対値 I S-B Iが予め決めた正の値 Eより小である か判定し、小であればバッファ量の調整は必要ないものと判断し、現状を維持する( これを緊急度 0と定義する)。
ステップ S5 :差の絶対値 I S -B I力 ¾より小でない場合は、バッファ量の調整が必 要であることを意味し、差 S— Bがー E以下であるが判定する。—E以下であることは ノ ッファ量を増大する必要があることを意味し、以下のステップ S6, S7を実行してバ ッファ量を増大する緊急度を判定する。 S— Bがー E以下でな 、場合は S— Bが E以 上であり、ノ ッファ量を減少する必要があることを意味し、以下のステップ S8, S9を実 行してバッファ量を減少する緊急度を判定する。 ステップ S6:現時点のバッファ量 Sが 0以上でかつ最適バッファ量 Bの 20%以下であ るか判定し、もしそうであればバッファ量の調整 (ここでは増大)の緊急度が大であると 判定する。なお、 Bが 1以上で Sが 0のとき、即ちバッファが枯渴して音切れの危険が ある状態もこのステップで緊急度が大であると判定される。
ステップ S7 :現時点のバッファ量 Sが最適バッファ量 Bの 20%より大で、かつ 50%以 下であるか判定する。そうであればバッファ量調整の緊急度は中と判定し、そうでな ければ緊急度は小と判定する。
ステップ S8 : S— B<— Eの場合はバッファ量を増加する必要があり、現時点のバッフ ァ量 Sが最適バッファ量 Bの 200%以上であるか判定する。もしそうであれば、緊急度 大と判定する。
ステップ S9 : Sが Bの 200%以上でない場合は、 S力 Bの 200%より小で、かつ 150% 以上であるか判定し、もしそうであれば、緊急度は中であると判定し、そうでなければ 緊急度は小であると判定する。
図 15に示す表 1は、図 14の手順により判定した緊急度 (大、中、小、 0)と、音声 Z 非音声判定結果に基づいて制御部 16が実行する消費量調整部 20の第 1の制御例 を示す。
判定結果が緊急度大の場合、音声信号の音声 Z非音声判定結果にかかわらず、 スィッチ SW1, SW2を、バッファ量を増すべきときは端子 Al, A2側に、バッファ量を 減らすべきときは端子 C 1 , C2側に制御して現フレームの復号音声データ列に対し、 伸張 Z短縮処理を必ず行う。判定結果が緊急度中の場合も緊急度大の場合と同じ 制御を行う。
判定結果が緊急度小の場合は、現フレームの復号音声データ列が音声区間であ ればスィッチ SW1, SW2を端子 Bl, B2に固定して伸張 Z短縮を行わず、非音声区 間であれば、スィッチ SW1, SW2を、ノ ッファ量を増すべきときは端子 Al, A2側に 、 ノ ッファ量を減らすべきときは CI, C2側にセットする。
垂^ 2
図 16に示す表 2は、図 14の手順により判定した緊急度 (大、中、小、 0)と、音声 Z 非音声判定結果に基づいて制御部 16が実行する消費量調整部 20の第 2の制御例 を示す。この制御例は第 1の制御例に比べて、緊急度が小のときの音声区間で N1フ レームに 1回の割合で Al, A2側又は CI, C2側にスィッチ SW1, SW2をセットし、 それ以外のフレームでは Bl, B2側にセットしている。これは音声の状態 (通話環境) によっては、非音声区間がまったく検出されない場合が想定されるため、非音声区間 が検出されない場合でも、ノ ッファ量を変更できるようにしたものである。 N1の値は 1 以上の整数であるが、例えば Nl=5とする。その他は第 1の制御例と同様である。 垂^ 3
図 17に示す表 3は、制御部 16が実行する消費量調整部 20の第 3の制御例を示す 。この例は、図 16に示した第 2の制御例における緊急度が中の制御を緊急度が大の 制御と異ならしており、音声区間では N2フレームに 1回の割合で Al, A2側又は C1, C2側にスィッチ SW1, SW2をセットし、それ以外のフレームでは Bl, B2側にセット する。 N2の値は 1以上の整数であるが、 N1より小さい(即ち Al, A2側又は CI, C2側 にセットする頻度が制御例 2の対応する制御より小さい)例えば N2=2とするのが好ま しい。その他は第 2の制御例と同様である。
垂 14
図 18に示す表 4は、制御部 16が実行する消費量調整部 20の第 4の制御例を示す 。この制御例では、緊急度と音声 Z非音声区のすべての組に対応してそれぞれ予め 決めたフレーム数ごとに 1回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2 側にセットし、それ以外では Bl, B2側にセットする汎用的な手法を定義している。即 ち、緊急度が小と大の場合の音声区間での制御は図 17の第 3制御例と同様である 力 さらに緊急度が大の場合には音声区間 Z非音声区間にかかわらず N3フレーム ごとに 1回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2側にセットする。ま た、緊急度が中の場合は、非音声区間において N4フレームごとに 1回の割合でスィ ツチ SW1, SW2を Al, A2側又は CI, C2側にセットし、それ以外のフレームでは B 1, B2側にセットし、緊急度が小の場合は、非音声区間において N5フレームごとに 1 回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2側にセットし、それ以外の フレームでは Bl, B2側にセットする。 [0049] N3の値は 1以上の整数であり、例えば N3=lとする。 N4の値は 1以上の整数であり、 例えば N4=lとする。 N5の値は 1以上の整数であり、例えば N5=2とする。これらの値 N1 〜N5を適切に選ぶことにより、音質の低下 (違和感の増カロ)とバッファ量の変更速度 のバランスを調整することができる。
2実飾 I
図 6に示した音声分析部 15では、固定の閾値 Pthとフレームパワー Pf^比較するこ とにより現フレームの復号音声信号が音声区間であるか非音声区間であるかの判定 を行っている。この構成は簡便でよいが、復号音声信号にレベルの高い背景雑音( 空調騒音やオフィスのざわつき、街頭騒音など)が含まれている場合に、音声区間 Z 非音声区間を正確に判定できない場合がある。音声 Z非音声判定に背景雑音を考 慮することによりこの点を改善した構成を図 19に示す。
[0050] 図 19に示す音声分析部 15の構成は、図 6の構成に対しさらに動的パワー閾値計 算部 150が設けられ、ピッチ相関計算部 158においてはピッチ分析を行ってピッチ 長 Lpを求めると共にピッチ相関値湘関ピーク値)!:を求める。動的パワー閾値計算部 150は所定時間(例えば数秒乃至数十秒)過去に遡った範囲内のそれぞれのフレー ムのパワー Pfの系列とそれぞれのフレームについて求めたピッチ相関値 rを用いてパ ヮー閾値 Pdを動的に決定する。例えば、ピッチ相関 rが高いフレーム、例えば r≥0.7 のフレームはほぼ確実に音声区間であるとみなしてそれらのフレームのパワーの長 時間平均 Pavlを計算することにより音声信号レベルが推定される。
[0051] 一方、ピッチ相関 rが低いフレーム、例えば r≤0.4のフレームは、音声区間でない( 即ち、背景雑音)か、音声区間の無声音区間 (有声音区間でない)と推定される。背 景雑音か無声音かの正確な区別は難しいが、無声音区間は相対的に少ないとみな せば、当該背景雑音か無声音区間とみなされるフレームのパワーの長時間平均 Pav2 を計算することによって、非音声区間の信号レベルが推定される。もちろん、背景雑 音と無声音を区別して、背景雑音のフレームのみでパワーの長時間平均を計算でき るほうが好ましいので、ピッチ相関値 rが低いフレームでも、フレームパワーの時系列 の定常性を観測して、定常性の低い区間は無声音区間とみなし、上記パワーの長時 間平均の計算力 除外してもよ 、。 [0052] 動的パワー閾値計算部 150では、推定された音声信号レベル Pavlと、非音声区間 (即ち、背景雑音区間)の信号レベル Pav2に基づいて、動的パワー閾値 Pdを動的に 決定、更新する。例えば、動的パワー閾値 Pdはレベル Pavlと Pav2の間の値に選ぶが 、好ましくは非音声区間のレベル値 Pav2よりわずかに大きい値に決めるのがよい。区 間判定部 154は、フレームのパワー P1¾動的パワー閾値 Pdよりも大きければそのフレ ームを音声区間と判定し、そうでなければ非音声区間と判定する。
上述の第 2実施例による判定結果は、前述の図 15〜18に示した第 1乃至第 4制御 例の 、ずれに適用してもよ!、。
3実飾 I
前述の第 1及び第 2実施例では各フレームが音声区間か非音声区間かの 2通りに 判定していたが、この実施例では音声区間が有声音区間であるか無声音区間である か区別し、非音声区間が背景雑音区間であるか無音区間であるか区別する。従って 、各フレームを、有声音、無声音、背景雑音、無音の 4通りに判定し、その判定に基 づいて消費量調整部 20を制御する。そのための音声分析部 15の構成を図 20に示 す。
[0053] 図 20に示す音声分析部 15の構成は、図 19に示した構成において区間判定部 15 4にもピッチ相関値 rを与え、区間判定部 154においてパワー閾値として動的パワー 閾値 Pdと固定パワー閾値 Pthの両方を使用し、フレームパワー Pfとピッチ相関値 rから フレームが上記 4通りのいずれの区間かを判定する。
図 21は区間判定の処理手順を示す。
ステップ S1:フレームのパワー P1 ^固定閾値 pth以下か判定し、そうであれば無音区 間と判定する。
ステップ S2: Pi¾Spth以下でな 、場合は、フレームパワー P1 ^動的パワー閾値 Pd以下 か判定し、そうであれば背景雑音区間と判定する。
ステップ S3: Pi¾ Pd以下でな!、場合は、ピッチ相関値 rが予め決めた正の値 Rc以下 か判定し、そうであれば音声区間の無声音区間と判定し、そうでなければ音声区間 の有声音区間と判定する。
[0054] 図 22に示す表 5は、図 14の手順により判定した緊急度(大、中、小、 0)と、図 21の 処理による区間判定結果に基づいて制御部 16が実行する消費量調整部 20の制御 例を示す。この制御例では、緊急度が大と判定された場合は、区間判定結果に関係 なく無条件で消費量調整部 20のスィッチ SWl, SW2を端子 Al, A2側又は CI, C 2側にセットする。
緊急度が中と判定された場合は、判定結果が有声音、無声音、背景雑音、無音、 に対しそれぞれ予め決めた整数値 N6, N7, N8, N9のフレーム数ごとに 1フレームの 割合でスィッチ SWl, SW2を端子 Al, A2側又は CI, C2側にセットする。予め決め た整数値としては例えば N6=2, N7=2, N8=l, N9=lを使用することができる力 これら に限定されるものでない。
[0055] 緊急度が小と判定された場合も同様に、判定結果が有声音、無声音、背景雑音、 無音、に対しそれぞれ決めた整数値 N10, Nil, N12, N13のフレーム数ごとに 1フレー ムの割合でスィッチ SWl, SW2を端子 Al, A2側又は CI, C2側〖こセットする。予め 決めた整数値としては例えば N10=5, Nll=4, N12=4, N13=2を使用することができる 1S これらに限定されるものでない。
整数値 N6〜N13を適切に選択することにより、音質の低下 (違和感の増カロ)とバッフ ァ量の変化速度のノ《ランスを調整することができる。
[0056] 尚、上述の各実施例ではサウンドデバイス 18を終段に接続した実施例を説明した 力 受信した音声データ列を蓄積するだけの場合もあり、必ずしも音声を再生しない 場合もある。
以上説明した本発明の音声パケット再生方法はコンピュータに本発明による音声 パケット再生プログラムを実行させることにより実現することができ、またコンピュータ に本発明による音声パケット再生プログラムをインストールし、 CPUに解読させて実 行させることにより、コンピュータによって本発明の音声パケット再生装置を構築する ことができる。本発明による音声パケット再生プログラムはコンピュータが解読可能な プログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク 或は CD— ROMのような記録媒体に記録され、これらの記録媒体からコンピュータに インスト一ノレするか、或は通信回線を通じてコンピュータにインスト一ノレされ、コンビュ ータに備えられた CPUに解読されて音声パケット再生動作を実行する。 産業上の利用可能性
IP通信網上で音声通信を行う利用形態が普及してきており、本発明を適用すること によって、安価で信頼性の高い音声通信が実現できる。

Claims

請求の範囲 [1] 入力音声データ列のフレーム毎の符号ィヒにより生成された音声符号を収容して送 信された一連の音声パケットを受信して再生する音声パケットの再生方法であり、以 下のステップを含む: (a)受信パケットを受信バッファに蓄積し、 (b)上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最 大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されている パケット数であるバッファ蓄積パケット数とを検出し、 (c)上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の 関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パ ケット数と呼ぶ、を求め、 (d)上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を 複数の段階で判定し、 (e)上記受信バッファ力も現フレームに対応するパケットを取り出し、そのパケット中 の音声符号を復号して現フレームの復号音声データ列を得て、 (£)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット 数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその 波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声 データとして出力する。 [2] 請求項 1記載の音声パケット再生方法において、上記ステップ (£)は、
(f-1)上記復号音声データ列につ!、てのピッチ長を求めるステップと、
(f-2)上記音声データ列を分析して音声区間であるか非音声区間であるかを判定 する音声非音声判定ステップと、
(f-3)上記音声非音声判定結果と、上記相違の程度の段階の判定結果とに基づい て、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除す るか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の 処理を行うステップ、
とを含む。 [3] 請求項 2記載の音声パケット再生方法にお 、て、
上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急 に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット 数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、 上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記音声区間又は非音声 区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段 階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記 復号音声データ列の波形の伸張又は短縮を実行するステップを含む。
[4] 請求項 2記載の音声パケット再生方法にお 、て、
上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急 に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット 数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、 上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記音声区間又は非音声 区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段 階が緊急度小の場合は、上記復号音声データ列が音声区間の場合には予め決めた フレーム数 N1毎に 1回の割合で上記復号音声データ列の波形の伸張又は短縮を実 行し、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数 N2ご とに 1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行するステップ を含み、上記 N1及び N2は 1以上の整数であり、かつ N2は N1より小である。
[5] 請求項 1記載の音声パケット再生方法において、上記ステップ (£)は、
(f-1)上記復号音声データ列につ!、てのピッチ長を求めるステップと、
(f-2)上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間 、無音区間の!/、ずれであるか区間判定するステップと、
(f-3)上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上 記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又 は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を 行うステップ、
とを含む。
[6] 請求項 5記載の音声パケット再生方法にお 、て、
上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急 に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット 数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、 上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記区間判定結果にかか わらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度 小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区 間に対しそれぞれ予め決めたフレーム数 Nl, N2, N3, N4毎に 1回の割合で上記復号 音声データ列の波形の伸張又は短縮を実行するステップを含み、上記 Nl, N2, N3, N4は正の整数であり、それらのうち少なくとも 1つは 2以上でかつ他の 3つとは異なる 値である。
[7] 入力音声データ列のフレーム毎の符号ィ匕により生成された音声符号を収容して送 信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、 音声パケットをパケット通信網力も受信するパケット受信部と、
受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファ と、
上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値 又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケ ット数であるノ ッファ蓄積パケット数を検出する状態検出部と、
上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係 を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット 数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違 の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基 づ 、て、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波 形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
上記受信バッファ力 取り出された現フレームに対応するパケット中の音声符号を 復号して現フレームの復号音声データ列を得る音声パケット復号部と、
上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の 伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データと して出力する消費量調整部、
とを含む。
[8] 請求項 7記載の音声パケット再生装置において、
上記音声分析部は上記復号音声データ列を分析して音声区間であるか非音声区 間であるか判定してその判定結果を上記制御部に与えると共に、上記復号音声デー タ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、 上記制御部は上記判定結果と、上記相違の程度の段階の判定結果とに基づ 、て 上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は 現状維持の制御を与えるようにされており、
上記消費量調整部は上記制御に従って上記ピッチ長に対応する波形を上記復号 音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しない ようにされている。
[9] 請求項 8記載の音声パケット再生装置において、
上記制御部は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に 増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数 を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消 費量調整部に対し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間 にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与 え、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合に のみ上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるように されている。
[10] 請求項 8記載の音声パケット再生装置において、
上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増 加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を 緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記段階 が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記消費量調 整部に対し上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え 、上記段階が緊急度小の場合は、上記消費量調整部に対し、上記復号音声データ 列が音声区間の場合には予め決めたフレーム数 N1毎に 1回の割合で上記復号音声 データ列の波形の伸張又は短縮を実行させ、上記復号音声データ列が非音声区間 の場合には予め決めたフレーム数 N2ごとに 1回の割合で上記音声復号データ列の 波形の伸張又は短縮を実行させる制御を与えるようにされており、上記 N1及び N2は 1以上の整数であり、かつ N2は N1より小である。
[11] 請求項 7記載の音声パケット再生装置において、上記音声分析部は上記復号音声 データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれ であるか区間判定してその判定結果を制御部に与えると共に、上記復号音声データ 列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、 上記制御部は、上記区間判定結果と、上記相違の程度の段階の判定結果とに基 づいて、上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短 縮又は現状維持の処理を実行させる制御を与えるようにされており、
上記消費量調整部は、上記制御に従って上記ピッチ長に対応する波形を上記復 号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しな いようにされている。
[12] 請求項 11記載の音声パケット再生装置において、上記制御部は上記相違の程度 の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である 緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき 状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急 度大の場合は上記区間判定結果にかかわらず上記復号音声データ列の波形の伸 張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記有声音 区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決 めたフレーム数 Nl, N2, N3, N4毎に 1回の割合で上記復号音声データ列の波形の 伸張又は短縮を実行させる制御を与えるようにされており、上記 Nl, N2, N3, N4のう ち、少なくとも 1つは 2以上の整数であり、かつ他の 3つとは異なる値である。
[13] コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項
1記載の音声パケット再生方法を実施させる音声パケット再生プログラム。 [14] コンピュータが読取り可能な記録媒体によって構成され、この記録媒体に請求項 1 3記載の音声パケット再生プログラムを記録した記録媒体。
PCT/JP2005/009569 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 WO2005117366A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006513918A JP4146489B2 (ja) 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP05743805A EP1750397A4 (en) 2004-05-26 2005-05-25 SOUND PACKET PLAY PROCESS, SOUND PACKET PLAYER, SOUNDPACK PLAYBACK PROGRAM AND RECORDING MEDIUM
CN2005800063936A CN1926824B (zh) 2004-05-26 2005-05-25 声音分组再现方法、声音分组再现装置
US10/591,183 US7710982B2 (en) 2004-05-26 2005-05-25 Sound packet reproducing method, sound packet reproducing apparatus, sound packet reproducing program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004156069 2004-05-26
JP2004-156069 2004-05-26

Publications (1)

Publication Number Publication Date
WO2005117366A1 true WO2005117366A1 (ja) 2005-12-08

Family

ID=35451246

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/009569 WO2005117366A1 (ja) 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Country Status (5)

Country Link
US (1) US7710982B2 (ja)
EP (1) EP1750397A4 (ja)
JP (1) JP4146489B2 (ja)
CN (1) CN1926824B (ja)
WO (1) WO2005117366A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091204A1 (en) 2006-02-07 2007-08-16 Nokia Corporation Controlling a time-scaling of an audio signal
WO2007129243A2 (en) * 2006-05-05 2007-11-15 Nokia Corporation Synthesizing comfort noise
WO2008046967A1 (en) * 2006-10-18 2008-04-24 Nokia Corporation Time scaling of multi-channel audio signals
JP2008182380A (ja) * 2007-01-23 2008-08-07 Alpine Electronics Inc オーディオ装置
JP2009047914A (ja) * 2007-08-20 2009-03-05 Nec Corp 音声復号化装置、音声復号化方法、音声復号化プログラムおよびプログラム記録媒体
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2010501896A (ja) * 2006-08-22 2010-01-21 クゥアルコム・インコーポレイテッド 広帯域ボコーダのタイムワーピングフレーム
JP2010506221A (ja) * 2006-10-06 2010-02-25 クゥアルコム・インコーポレイテッド フレーム消去回復のシステム、方法、および装置
JP2014150413A (ja) * 2013-02-01 2014-08-21 Oki Electric Ind Co Ltd 音声受信再生装置
JP2014531055A (ja) * 2011-10-20 2014-11-20 エルジー エレクトロニクスインコーポレイティド ジッタバッファの管理方法及びこれを利用するジッタバッファ

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672742B2 (en) * 2005-02-16 2010-03-02 Adaptec, Inc. Method and system for reducing audio latency
US8411662B1 (en) 2005-10-04 2013-04-02 Pico Mobile Networks, Inc. Beacon based proximity services
US20070115916A1 (en) * 2005-11-07 2007-05-24 Samsung Electronics Co., Ltd. Method and system for optimizing a network based on a performance knowledge base
JP2007235221A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 揺らぎ吸収バッファ装置
US7830794B2 (en) * 2006-03-29 2010-11-09 Intel Corporation Method and apparatus for improved isochronous data delivery over non-isochronous communication fabric
US8483243B2 (en) 2006-09-15 2013-07-09 Microsoft Corporation Network jitter smoothing with reduced delay
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
JP4894476B2 (ja) * 2006-11-21 2012-03-14 富士通東芝モバイルコミュニケーションズ株式会社 音声送信装置および移動通信端末
US8279884B1 (en) * 2006-11-21 2012-10-02 Pico Mobile Networks, Inc. Integrated adaptive jitter buffer
US20080222636A1 (en) * 2007-03-05 2008-09-11 David Tzat Kin Wang System and method of real-time multiple-user manipulation of multimedia threads
JP5174182B2 (ja) * 2007-11-30 2013-04-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 再生遅延推定
US8589720B2 (en) * 2008-04-15 2013-11-19 Qualcomm Incorporated Synchronizing timing mismatch by data insertion
JPWO2009150894A1 (ja) * 2008-06-10 2011-11-10 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
US9380401B1 (en) 2010-02-03 2016-06-28 Marvell International Ltd. Signaling schemes allowing discovery of network devices capable of operating in multiple network modes
JP5440272B2 (ja) * 2010-03-08 2014-03-12 富士通株式会社 プッシュ信号の伝送状況判定方法、プログラム及び装置
US8532804B2 (en) * 2010-06-18 2013-09-10 Microsoft Corporation Predictive resampler scheduler algorithm
WO2012167479A1 (en) * 2011-07-15 2012-12-13 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
US9094254B2 (en) 2012-11-15 2015-07-28 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for antenna array calibration using traffic signals
US9025575B2 (en) 2012-11-15 2015-05-05 Telefonaktiebolaget Lm Ericsson (Publ) Antenna array calibration using traffic signals
JP2014167525A (ja) * 2013-02-28 2014-09-11 Mitsubishi Electric Corp 音声復号装置
JP5806719B2 (ja) * 2013-10-09 2015-11-10 日本電信電話株式会社 音声パケット再生装置とその方法とプログラム
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
KR20170059757A (ko) * 2015-11-23 2017-05-31 삼성전자주식회사 영상 신호 송신 장치, 그의 영상 신호 송신 방법, 영상 신호 수신 장치 및 그의 영상 신호 수신 방법
WO2017203324A1 (en) 2016-05-24 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for antenna array calibration using on-board receiver
US10686897B2 (en) * 2016-06-27 2020-06-16 Sennheiser Electronic Gmbh & Co. Kg Method and system for transmission and low-latency real-time output and/or processing of an audio data stream
US10290303B2 (en) * 2016-08-25 2019-05-14 Google Llc Audio compensation techniques for network outages
US9779755B1 (en) * 2016-08-25 2017-10-03 Google Inc. Techniques for decreasing echo and transmission periods for audio communication sessions
CN106534980B (zh) * 2016-11-15 2019-12-06 广州华多网络科技有限公司 音频处理系统的异常检测方法、日志记录方法及装置
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
JP6388048B1 (ja) * 2017-03-23 2018-09-12 カシオ計算機株式会社 楽音生成装置、楽音生成方法、楽音生成プログラム及び電子楽器
WO2019048903A1 (en) 2017-09-06 2019-03-14 Telefonaktiebolaget Lm Ericsson (Publ) METHOD AND APPARATUS FOR ANTENNA NETWORK CALIBRATION WITH INTERFERENCE REDUCTION
CN109561347B (zh) * 2017-09-27 2022-01-25 中国移动通信集团山东有限公司 一种互联网视频播放质量判定方法及系统
WO2019086931A1 (en) 2017-10-31 2019-05-09 Telefonaktiebolaget Lm Ericsson (Publ) Orthogonal training signals for transmission in an antenna array
US10728180B2 (en) * 2018-08-21 2020-07-28 At&T Intellectual Property I, L.P. Apparatus, storage medium and method for adaptive bitrate streaming adaptation of variable bitrate encodings
TWI721522B (zh) 2019-08-12 2021-03-11 驊訊電子企業股份有限公司 音訊處理系統及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JP2002164921A (ja) * 2000-11-27 2002-06-07 Oki Electric Ind Co Ltd 音声パケット通信の品質制御装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
US5623483A (en) * 1995-05-11 1997-04-22 Lucent Technologies Inc. Synchronization system for networked multimedia streams
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
US6072809A (en) * 1997-08-14 2000-06-06 Lucent Technologies, Inc. Statistical method for dynamically controlling the playback delay of network multimedia streams
KR100722707B1 (ko) 1999-01-06 2007-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 멀티미디어 신호를 전송하기 위한 전송 시스템
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
JP2003050598A (ja) 2001-08-06 2003-02-21 Mitsubishi Electric Corp 音声復号装置
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7337108B2 (en) 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JP2002164921A (ja) * 2000-11-27 2002-06-07 Oki Electric Ind Co Ltd 音声パケット通信の品質制御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1750397A4 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091204A1 (en) 2006-02-07 2007-08-16 Nokia Corporation Controlling a time-scaling of an audio signal
TWI480861B (zh) * 2006-02-07 2015-04-11 Nokia Corp 用於控制聲頻信號之時間縮放的方法、裝置及系統
US8832540B2 (en) * 2006-02-07 2014-09-09 Nokia Corporation Controlling a time-scaling of an audio signal
KR101002405B1 (ko) 2006-02-07 2010-12-21 노키아 코포레이션 오디오 신호의 타임-스케일링 제어
WO2007129243A2 (en) * 2006-05-05 2007-11-15 Nokia Corporation Synthesizing comfort noise
WO2007129243A3 (en) * 2006-05-05 2008-03-13 Nokia Corp Synthesizing comfort noise
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
JP2010501896A (ja) * 2006-08-22 2010-01-21 クゥアルコム・インコーポレイテッド 広帯域ボコーダのタイムワーピングフレーム
JP2010506221A (ja) * 2006-10-06 2010-02-25 クゥアルコム・インコーポレイテッド フレーム消去回復のシステム、方法、および装置
US8825477B2 (en) 2006-10-06 2014-09-02 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
WO2008046967A1 (en) * 2006-10-18 2008-04-24 Nokia Corporation Time scaling of multi-channel audio signals
JP2008182380A (ja) * 2007-01-23 2008-08-07 Alpine Electronics Inc オーディオ装置
JP2009047914A (ja) * 2007-08-20 2009-03-05 Nec Corp 音声復号化装置、音声復号化方法、音声復号化プログラムおよびプログラム記録媒体
US8200481B2 (en) 2007-09-15 2012-06-12 Huawei Technologies Co., Ltd. Method and device for performing frame erasure concealment to higher-band signal
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2014531055A (ja) * 2011-10-20 2014-11-20 エルジー エレクトロニクスインコーポレイティド ジッタバッファの管理方法及びこれを利用するジッタバッファ
US9324336B2 (en) 2011-10-20 2016-04-26 Lg Electronics Inc. Method of managing a jitter buffer, and jitter buffer using same
JP2014150413A (ja) * 2013-02-01 2014-08-21 Oki Electric Ind Co Ltd 音声受信再生装置

Also Published As

Publication number Publication date
EP1750397A1 (en) 2007-02-07
CN1926824A (zh) 2007-03-07
US20070177620A1 (en) 2007-08-02
JPWO2005117366A1 (ja) 2008-04-03
JP4146489B2 (ja) 2008-09-10
US7710982B2 (en) 2010-05-04
CN1926824B (zh) 2011-07-13
EP1750397A4 (en) 2007-10-31

Similar Documents

Publication Publication Date Title
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP1243090B1 (en) Method and arrangement in a communication system
US7577565B2 (en) Adaptive voice playout in VOP
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP4630876B2 (ja) 話速変換方法及び話速変換装置
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
EP0910065A1 (en) Speaking speed changing method and device
KR101952192B1 (ko) 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램
KR20070065876A (ko) 인터넷 프로토콜을 통한 음성통화용 적응성 디-지터 버퍼
JPH09321783A (ja) 音声符号化伝送システム
KR20090058522A (ko) 패킷 스트림 내의 지터 보상 방법
JP3784583B2 (ja) 音声蓄積装置
KR101516113B1 (ko) 음성 복호 장치
JPH07334191A (ja) パケット音声復号方法
JP2003050598A (ja) 音声復号装置
JP3378672B2 (ja) 話速変換装置
JP2002258900A (ja) 音声再生装置及び音声再生方法
JP2005316499A (ja) 音声符号化装置
JPH07191695A (ja) 話速変換装置
JP2002297200A (ja) 話速変換装置
JPH08147874A (ja) 話速変換装置
JP4597360B2 (ja) 音声復号装置及び音声復号方法
JPH07192392A (ja) 話速変換装置
JP3249012B2 (ja) 音声符号化装置
JPH05244104A (ja) 音声符号化器

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006513918

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 200580006393.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 10591183

Country of ref document: US

Ref document number: 2005743805

Country of ref document: EP

Ref document number: 2007177620

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 2005743805

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10591183

Country of ref document: US