EP0644527A2 - Terminal for mobile radio - Google Patents

Terminal for mobile radio Download PDF

Info

Publication number
EP0644527A2
EP0644527A2 EP94202647A EP94202647A EP0644527A2 EP 0644527 A2 EP0644527 A2 EP 0644527A2 EP 94202647 A EP94202647 A EP 94202647A EP 94202647 A EP94202647 A EP 94202647A EP 0644527 A2 EP0644527 A2 EP 0644527A2
Authority
EP
European Patent Office
Prior art keywords
signal
speech
values
noise
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP94202647A
Other languages
German (de)
French (fr)
Other versions
EP0644527B1 (en
EP0644527A3 (en
Inventor
Rainer C/O Philips Patentverwaltung Gmbh. Martin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Corporate Intellectual Property GmbH
Philips Patentverwaltung GmbH
Koninklijke Philips Electronics NV
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE4421853A external-priority patent/DE4421853A1/en
Application filed by Philips Corporate Intellectual Property GmbH, Philips Patentverwaltung GmbH, Koninklijke Philips Electronics NV, Philips Electronics NV filed Critical Philips Corporate Intellectual Property GmbH
Priority to EP19940202647 priority Critical patent/EP0644527B1/en
Publication of EP0644527A2 publication Critical patent/EP0644527A2/en
Publication of EP0644527A3 publication Critical patent/EP0644527A3/en
Application granted granted Critical
Publication of EP0644527B1 publication Critical patent/EP0644527B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the invention relates to a mobile radio terminal with a speech processing device for processing speech signals consisting of noise and speech signal components.
  • noise signals are often contained in speech signals to be processed, which leads to a reduction in the speech quality and thus in particular to a deteriorated speech intelligibility.
  • This problem occurs in particular in the case of mobile radio terminals which are used in motor vehicles and have a hands-free device.
  • Speech signals received by microphones of the hands-free device arranged in the motor vehicle contain, on the one hand, speech signal components which are generated by the respective user (speech source) of the mobile radio terminal within the motor vehicle and, on the other hand, noise signal components which result from other ambient noises of the mobile radio device.
  • the ambient noise essentially consists of engine and driving noises.
  • the acoustic signal causes time-delayed and otherwise approximately the same useful signal components of the microphone signals.
  • the useful signal components are thus strongly correlated.
  • Noise signal components of the microphone signals are at most weakly correlated with a suitable arrangement of the microphones.
  • the output signal of the device or its signal / noise ratio is improved by suitably setting the delay elements as a function of the position of the acoustic source.
  • Such a device provides satisfactory results only when the signal-to-noise ratio of the microphone signals to be processed is above a threshold, i.e. the useful signal components must be sufficiently large compared to the noise signal components.
  • the noise signal components must not be larger than the useful signal components. For this reason, an estimate of the respective signal / noise power ratio must be available from at least one microphone signal each time the delay elements are reset, in order to be able to avoid malfunctions of the speech processing device when the signal / noise power ratio is insufficient.
  • Previous devices for determining the signal / noise power ratio of a voice signal consisting of noise and voice signal components determine a value for the noise signal power in each case in a speech pause, where only noise signal components are present.
  • the detection of a speech pause is based, for example, on a statistical evaluation of the speech signal using histograms or the evaluation of the short-term power of the noisy speech signal.
  • Such a determination of the signal / noise power ratio as a function of speech pauses is, on the one hand, susceptible to faults due to the necessary speech pause detection and, on the other hand, slow, since the signal / noise power ratio can only be updated when a speech pause occurs, and the power of the noise signal component may have changed between the speech pauses .
  • the invention is therefore based on the object of specifying a mobile radio terminal with a speech processing device of the type mentioned in the introduction, in which an estimate of the signal / noise power ratio of the speech signals is improved.
  • the course of the smoothed power values of speech signals consisting of noise and speech signal components shows peaks between two speech pauses (for example the pauses between two words), ie areas of briefly high power, between which areas of lower power lie.
  • the smoothed power values between the peaks are used to estimate the noise signal power.
  • At least one peak of the curve of the smoothed power values is assigned to a phoneme of a speech signal.
  • a phoneme is the smallest meaning-distinguishing unit of language and a sound that is formed on the one hand by vowels or on the other hand by single or several consonants.
  • the groups with L successive smoothed power values are so large that any phoneme and thus also any peak in the course of the smoothed power values can be completely detected, it is ensured that at least one value of a region of lower conduction lying next to a peak can be detected by each group . This avoids the case that a group contains only smoothed power values belonging to a peak.
  • the minimum of a group can thus be used to estimate the noise signal power.
  • the scaling factor serves to improve the estimate.
  • the groups can be adjacent to each other or partially overlap. In the event that the groups are adjacent to one another, the minimum interval between two updates of the weighted minimum L used to estimate the noise signal power is sampling intervals of the speech signals.
  • the speech processing device can also adapt to changes in the noise signal power between two speech pauses, independently of speech pauses, by forming estimates of the signal / noise power ratio. No speech pause is required to update the noise signal power estimate.
  • both adjacent and overlapping groups can be realized with little effort.
  • a new estimated value for the noise signal power is determined after every L sampling intervals from the minimum of the minima of W successive subgroups.
  • the noise signal power is re-estimated by the minimum of the minima of W consecutive sub-groups after M sampling intervals.
  • means for using the last determined minimum of a subgroup instead of the last determined minimum of a group with a predeterminable number of monotonically increasing minima of subgroups can also be provided in order to estimate a current value of the signal / noise power ratio.
  • an estimate of the noise signal power is updated after M sampling intervals, with only M past smoothed power values being included in the estimate.
  • the invention can be further embodied in that means are provided for using the current smoothed power value instead of a recently determined minimum of a group or subgroup for estimating a current value of the signal / noise power ratio in the event that the current smoothed power value is less than the last one determined minimum is.
  • the minimum determined last is immediately replaced by the current smoothed power value if the power values are correspondingly small. In this case, there is an instantaneous update of an estimate of the noise signal power by the current smoothed power value.
  • speech processing means are provided for processing the speech signals as a function of estimated values of the signal / noise power ratio.
  • the speech processing means operate incorrectly when the signal / noise power ratio of the speech signals to be processed is inadequate and in particular deliver output signals, their speech quality is very low. For example, if the signal-to-noise power ratio is too low, the settings of the speech processing means previously determined, ie if the signal-to-noise power ratio is sufficiently high, can be kept constant until there is again a sufficiently high signal-to-noise power ratio.
  • the speech processing device shown in FIG. 1 contains two microphones M1 and M2. These are used to convert acoustic to electrical voice signals, which are made up of speech and noise signal components.
  • the speech signal components come from a single one Speech source (speaker), which is usually at different distances from the two microphones M1 and M2.
  • the speech signal components are thus highly correlated.
  • the noise signal components of the two speech signals received by the microphones M1 and M2 are ambient noises generated by the individual speech source, which can be assumed to be uncorrelated or only slightly correlated with suitable microphone spacings in the range from 10 to 60 cm if the microphones reverberated in a so-called Environment such as in the car or in an office. If the speech source and speech processing device are located in a motor vehicle, for example, the noise signal components are caused in particular by engine and driving noises.
  • the microphone signals generated by the microphones M1 and M2 are digitized by analog-digital converters 1 and 2.
  • the resulting digitized and thus present as samples x1 (i) and x2 (i) microphone signals are evaluated by a control device 3, which is used to control and set a delay element 4.
  • the sampled microphone signals x1 (i) and x2 (i) are referred to below as microphone or speech signals.
  • the delay element 4 delays the microphone signal x1 with delay values T1 that can be set by the control device 3.
  • An adding device 5 adds the microphone signal x1 (i) delayed by the delay element 4 and the microphone signal x2 (i) delayed by a delay element 16 with a constant time delay T max .
  • the delay element 16 is provided in order to be able to set both a leading and a lagging of the microphone signal x1 (i) relative to the microphone signal x2 (i).
  • a sum signal X (i) present at the output of the adder 5 is a sampled speech signal, the signal / noise power ratio of which compared to the signal / noise power ratios of the speech signals x1 (i) and x2 (i) is increased.
  • the addition by the adder 5 increases the power of the voice signal components of the two voice signals x1 (i) and x2 (i) by approximately a factor of 4 and increases the power of the noise signal components only approximately caused by a factor of 2. This results in an improvement in the power-related signal / noise power ratio of approximately 3 dB.
  • Fig. 2 the operation of the control device 3 is explained in more detail using a block diagram.
  • the speech signal estimates x1 int (i) are values that result from an interpolation of samples of the speech signal x1 (i). The determination of the speech signal estimates x1 int (i) will be explained later.
  • i is a variable which can take integer values and with which, on the one hand, sampling times of the speech signals x1 (i) and x2 (i) and, on the other hand, also program cycles of the programmable control device 3 having control means 3, are indicated, with one new sample value per speech signal in each program cycle is processed.
  • a digital filter 6 carries out a Hilbert transformation of the sample values x2 (i):
  • the digital filter 6 supplying the values x2 H (i) of x2 (i) is an FIR filter of the order K, which has coefficients h (0), h (1), ..., h (K).
  • K is sixteen, so that the digital filter 6 has seventeen coefficients.
  • the digital filter 6 has a low pass in terms of the transfer function. It continues to produce a 90 degree phase shift.
  • the fixed phase shift of 90 degrees is the decisive property of the digital filter 6, the course of the amount of the transfer function is not decisive for the functioning of the speech processing device.
  • the digital filter 6 can thus also be implemented with the aid of a differentiator, which would, however, lead to a suppression of low-frequency components of x2 (i) and thus to a reduced performance of the speech processing device.
  • N indicates the number of samples of x1 used in the calculation. N is, for example, equal to 65.
  • the multiplication by 1 / P x2 (i) serves to avoid instabilities in the control device 3 when the delay element 4 is controlled an estimated on the short-term power P x2 (i) graded gradient degree (i) of the squares or the power of the error values e12 (i) in the program cycle i.
  • a function block 7 continuously forms estimated values SNR (i) of the associated signal / noise power ratio from the samples of the speech signal x2 (i), which are evaluated by a function block 8.
  • An evaluation of the speech signal x1 (i) instead of the speech signal x2 (i) is also possible without the functionality of the speech processing device being restricted.
  • the functioning of the function block 7 will be explained in more detail later with reference to FIGS. 6 to 8.
  • Function block 8 carries out a threshold decision regarding the estimated values SNR (i). Only if the estimated values SNR (i) lie above a predefinable threshold is an intermediate memory 9 overwritten with the newly determined gradient estimated value grad (i). This case is symbolized by the closed position of a switch 11 which is controlled by the function block 8.
  • the memory content (degree (i)) of the intermediate memory 9 is further processed by a functional unit 10.
  • a functional unit 10 In the event that an estimated value SNR (i) lies below the predefinable threshold value, the buffer 9 is not overwritten with the newly determined gradient estimated value grad (i) and it retains its old memory content, which is symbolized by the open position of the switch 11 .
  • the predefinable threshold, on which the opening and closing of the switch 11 by the function block 8 depends, is preferably between 0 and 10 dB.
  • the buffer store 9 supplies the gradient estimated values grad (i) stored in it to the functional unit 10, to which sample values of the speech signal x1 (i) are also fed and which both serve to supply the speech signal estimated values x1 int (i) and also for setting the delay element 4.
  • is a constant that has the value 0.95 in the exemplary embodiment.
  • is a constant factor or convergence parameter and is in the range R x2x2 denotes an autocorrelation function of the speech signal x2 (i) at the zero position.
  • a particularly advantageous value range of ⁇ in the present exemplary embodiment is 1.5 ⁇ ⁇ 3.
  • the delay estimated values T1 '(i) can also be non-integer values, ie non-integer multiples of a sampling interval.
  • a function block 14 rounds the delay estimated values T1 '(i) to integer delay values T1 (i) with which the delay device 4 is set. The rounding operation by function block 14 is necessary because of the values of the delay element 4 speech signal x1 (i) to be delayed is only available at the corresponding sampling times.
  • Function block 15 is thus able to use the speech signal estimate x1 int (i) in program cycle i to form or interpolate a value of speech signal x1 at time i + T1 (i), ie at a time between two sampling times.
  • the described interpolation by function block 15 can be replaced by function block 15 performing low-pass filtering of the sample values x1 (i) for the interpolation of values between the sample times.
  • the function block 12 used to smooth the gradient estimated values grad (i) brings about an improved determination of the delay estimated values T1 '(i).
  • the control device 3 adapts the delay estimates T1 '(i) or the delay values T1 (i) so that the square or the power of the error values e 1 (i) is reduced from one program cycle to the next. The convergence of T1 '(i) or T1 (i) is thus ensured.
  • FIG. 3 shows a speech processing device which works in principle like the speech processing device from FIG. 1 and now has three microphones M1, M2 and M3 for the delivery of microphone or speech signals.
  • the microphone signals are fed to analog-to-digital converters 20, 21 and 22, which deliver digitized and thus sampled speech signals x1 (i), x2 (i) and x3 (i), which consist of speech and noise signal components.
  • the speech signals x1 (i) and x3 (i) are supplied to adjustable delay elements 23 and 24.
  • the speech signal x2 (i) is fed to a delay element 27 with a fixed delay time T max.
  • the output values of the delay elements 23, 24 and 27 are added to the sum signal X (i) by an adding device 25.
  • a control device 26 evaluates the samples of the speech signals x1 (i), x2 (i) and x3 (i) and derives rounded integer delay values T1 (i) and T3 (i) from these samples, analogous to the mode of operation of the control device 3 from FIGS. 1 and 2, the integer values Correspond to multiples of a sampling interval of the sampled speech signals x1 (i), x2 (i) and x3 (i) and with which the delay elements 23 and 24 are set, so that an expansion from two to three microphone or speech signals to be processed is made possible.
  • FIG. 4 shows a first embodiment of the control device 26 from FIG. 3.
  • Two functional units 10 are provided, the structure of which is identical to the structure of the functional unit 10 from FIG. 2 and which are used to set the delay elements 23 and 24 with the rounded time delay values T1 (i) and T3 (i).
  • the upper functional unit 10 provides speech signal estimates x1 int (i).
  • the lower functional unit 10 supplies speech signal estimates x3 int (i). From a difference x1 int (i) - x2 (i) and from a difference x3 int (i) - x2 (i), error values e12 (i) and e32 (i) are formed.
  • a digital filter 6 which has already been described in more detail in the explanations relating to FIG. 2, and which serves to receive the sample values x2 (i) and to supply values x2 H (i) which are obtained by a Hilbert transformation of the Samples x2 (i) are generated.
  • the values x2 H (i) are multiplied on the one hand by the error values e12 (i) and on the other hand by the error values e32 (i).
  • the first product x2 H (i) * e12 (i) is the upper, the second product x2 H (i) * e32 (i) is fed to the lower functional unit 10.
  • the arrangement of the function blocks 7 and 8, the buffer 9 and the switch 11 becomes analogous to Fig. 2 performed and is not shown in Fig. 4 for reasons of clarity.
  • FIG. 5 shows a version of the control device 26 that is expanded compared to FIG. 4.
  • three digital filters 6 are now arranged instead of just one digital filter 6. These form the values x1 H (i), x2 H (i) and x3 H (i) from the speech signal samples x1 (i), x2 (i) and x3 (i) by Hilbert transformation.
  • error values e13 (i) from the difference x1 int (i) -x2 (i) are formed, which in a first product 0.3 * e13 (i) * x3 H (i) come in.
  • a second product results from 0.7 * e12 (i) * x2 H (i) .
  • the two products correspond to weighted gradient estimates of the squares of the error values e13 (i) and e12 (i).
  • the sum of the first and second product and thus a linear combination of the weighted gradient estimated values is fed to the upper functional unit 10.
  • error values e31 (i) and e32 (i) are formed in the lower half of the block diagram shown in FIG. 5.
  • the error values e31 (i) result from the difference x3 int (i) -x1 (i).
  • the error values e32 (i) are formed by the difference x3 int (i) -x2 (i).
  • a third product 0.3 * e31 (i) * x1 H (i) and a fourth product 0.7 * e32 (i) * x2 H (i) are added up and the resulting sum is fed to the lower functional unit 10.
  • a sum signal X (i) which is improved compared to the speech processing device with two microphones according to FIG. 1 can be generated.
  • the signal / noise ratio and 3, the speech quality of the sum signal X (i) of the speech processing device according to FIG. 3 is further increased compared to the sum signal X (i) generated by the speech processing device according to FIG. 1.
  • the control device according to FIG. 5 has an increased stability compared to the control device according to FIG. 4 when used in the speech processing device according to FIG. 3.
  • the scheme is explained, on the basis of which the function block 7 from a sampled speech signal x (i), which consists of noise and speech signal components, the associated estimated values SNR (i) of the signal / noise power ratio, that is Ratio of the power of the speech signal components to the power of the noise signal components, determined.
  • the sample values x2 (i) correspond to the sample values x (i).
  • the function block 7 is shown in FIG. 6 on the basis of a block diagram.
  • a function block 30 serves to form power values P x (i) of the sample values x (i) by squaring the sample values. Function block 30 also leads a smoothing of these power values P x (i) by.
  • the resulting smoothed power values P x, s (i) are supplied to both function block 31 and function block 32.
  • Function block 31 continuously determines estimated values P n (i) for estimating the power of the noise signal component of the sampled values x (i), ie the power of the noise signal components of the sampled values x (i) is determined.
  • the function block 32 continuously determines estimated values SNR (i) of the signal / noise power ratio of the sampled values x (i).
  • FIG. 7 shows a flow chart which explains the function of the function block 7 in more detail.
  • the flow chart shows how estimated values SNR (i) of the corresponding signal / noise power ratio are formed from the sampled values x (i) of the speech signal x by a computer program.
  • a counter variable Z is set to 0 and a variable P Mmin is set to a value P max at the beginning of the program described by FIG.
  • P max is chosen so large that the smoothed power values P x, s (i) are always smaller than P max .
  • P max can, for example, be set to the maximum representable numerical value of a computer used to implement the program.
  • a new sample value x (i) is read in in block 34.
  • a short-term power value P x (i) of a group of N successive sample values x (i) is determined using formula (1). N here is 128, for example.
  • Equation (2) The value ⁇ from equation (2) is between 0.95 and 0.98.
  • the determination of smoothed power values P x, s (i) can also only be carried out using equation (2), in which case however the value ⁇ should be increased approximately to the value 0.99 and P x (i) by x2 (i) is replace.
  • a branch 37 queries whether the smoothed power value P x, s (i) that has just been determined is less than P Mmin . If this question is answered in the affirmative, ie P x, s (i) is less than P Mmin , block 38 sets P Mmin to the value of P x, s (i). If the question of branch 37 is answered in the negative, block 38 is skipped. This means that the minimum of M smoothed power values P x, s is in P Mmin after M program cycles . Then the branch 39 is used to query whether the counter variable Z has a value greater than or equal to a value M. In this way it is determined whether M smoothed power values have already been processed.
  • SNR (i) [P x, p (i) - min ⁇ c * P n (i), P x, p (i) ⁇ ] / [c * P n (i)] (4) a current estimate SNR (i) of the signal / noise power ratio of the speech signal x (i) is determined.
  • the product c * P n (i) is used to estimate the current power of the noise signal component
  • the difference P x, p (i) -c * P n (i) is used to estimate the current power of the speech signal component of the speech signal x (i).
  • the current power of the speech signal is estimated by the smoothed power value P x, s (i).
  • the weighting with a scaling factor c prevents P n (i) from estimating the noise signal power with a value that is too small.
  • the scaling factor c is typically in the range from 1.3 to 2.
  • the minimum formation in block 41 or equation (4) ensures that the non-logarithmic signal / noise power ratio SNR (i) is also positive if in exceptional cases c * P n (i) is greater than P x, s (i). Then the power of the noise signal component of the voice signal is set equal to the power of the voice signal estimated by P x, s (i).
  • the power of the speech signal component of the speech signal estimated by P x, s (i) -P x, s (i) is then equal to zero, as is the non-logarithmic signal / noise power ratio.
  • the program continues with the reading in of a new speech signal sample value x (i) by block 34.
  • P n (i) is set equal to P Mmin in block 45, so that an adaptation of the estimation of the noise signal component is accelerated takes place since P n (i) is determined at the minimum of the last (M ⁇ L) values. Then in block 46 the counter variable Z is reset to 0 and P Mmin again receives the value P max .
  • M successive smoothed P x, s (i) samples x (i) of the speech signal x are combined into a subgroup.
  • the minimum of the smoothed power values P x, s (i) is determined by the operations carried out with branch 37 and block 38.
  • the W minima determined last are stored in the components of the vector minvec. If the last W minima are not monotonically increasing (see branch 43), then a preliminary estimate P n (i) of the power of the noise signal component is determined from the minimum of the minima of the last W subgroups, ie from the minimum of a group, according to block 44.
  • the minimum of the last subgroup with M smoothed power values P x is determined by block 45 to estimate the current estimated value P n (i) of the power of the noise signal component . s (i) used. This shortens the time period with which monotonically increasing smoothed power values P x, s (i) also cause a change in the estimated values SNR (i).
  • the value P n (i) is determined from the minimum of the last W subgroup minima or the last L smoothed power values P x, s (i), which is used to estimate the noise signal power.
  • the described speech processing device thus has an estimation device which is suitable for the continuous formation of estimated values SNR (i) of the signal / noise power ratio of noisy speech signals x (i). In particular, no speech pauses are required to estimate the noise signal power.
  • the estimation device described uses the special time profile of smoothed power values of the speech signal x (i), which is characterized by peaks and intermediate areas with smaller smoothed power values P x, s (i), their temporal expansion from the respective speech source, ie the respective speaker , depends. The areas between the peaks are used to estimate the power of the noise signal component.
  • the groups with L smoothed power values P x, s (i) must follow one another without gaps, ie they must either adjoin or overlap.
  • each group must contain so many smoothed power values P x, s (i) that at least all values belonging to any peak can be recorded. Since the most extended peaks can be estimated by the most extended phonemes of a speech signal, ie the vowels, the number L describing the group size can be derived from this. For a sampling rate of the speech signal of 8 kHz, a useful value of L is in the range between 3000 and 8000. An advantageous value for W is 4. With such a dimensioning, there is a good compromise between the computational effort and the speed of reaction of the function block 7.
  • FIG. 9 shows a use of the voice processing device from FIG. 3 in a mobile radio terminal 50.
  • the speech processing means 20 to 26 are combined in a function block 51 which forms the sum signal values X (i) from the microphone or speech signals generated by the microphones M1, M2 and M3.
  • a function block 52 processing the sum signal values X (i) combines all the other means of the mobile radio terminal 52 for receiving, processing and transmitting signals which are used for communication with a base station (not shown), the transmission and reception of signals via a to the function block 52 coupled antenna 54 takes place. Furthermore, one with the function block 52 coupled speakers 53 are provided.
  • a user communicates acoustically with the mobile radio terminal 50 via the microphones M1 to M3 and the loudspeaker 53, which are parts of a hands-free device integrated in the mobile radio terminal 50.
  • the use of such a mobile radio terminal 50 is particularly advantageous in motor vehicles, since there the hands-free communication via the mobile radio terminal is particularly disturbed by engine or driving noise (noise).

Abstract

The invention relates to a mobile radio terminal with a speech processing device for processing speech signals (x(i)) comprising noise and speech signal components. An estimating device (7) for continuous formation of estimated values (SNR(i)) of the signal-to-noise power ratio of the speech signals (x(i)) is provided through means for - determining the power values of speech signal sample values, - smoothing the power values, - determining in each case the minimum of a group of L consecutive smoothed power values (Px,s(i)), the groups following on continuously from one another and containing at least enough smoothed power values (Px,s(i)) to ensure that in each case all smoothed power values (Px,s(i)) associated with any given phoneme of the speech signal (x(i)) can be captured by a single group, - forming a current estimated value (SNR(i)) of the signal-to-noise power ratio from the current smoothed power value and the last determined minimum. <IMAGE>

Description

Die Erfindung betrifft ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung zur Verarbeitung von aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignalen.The invention relates to a mobile radio terminal with a speech processing device for processing speech signals consisting of noise and speech signal components.

Auf dem Gebiet der Sprachverarbeitung sind häufig in zu verarbeitenden Sprachsignalen Rauschsignalanteile enthalten, was zur Verringerung der Sprachqualität und damit insbesondere zu einer verschlechterten Sprachverständlichkeit, führt. Dieses Problem tritt insbesondere bei Mobilfunkendgeräten auf, die in Kraftfahrzeugen verwendet werden und eine Freisprecheinrichtung aufweisen. Von im Kraftfahrzeug angeordneten Mikrophonen der Freisprecheinrichtung empfangene Sprachsignale enthalten einerseits Sprachsignalanteile, die vom jeweiligen Benutzer (Sprachquelle) des Mobilfunkendgerätes innerhalb des Kraftfahrzeuges erzeugt werden, und andererseits Rauschsignalanteile, die sich aus sonstigen Umgebungsgeräuschen des Mobilfunkgeräts ergeben. Während einer Fahrt bestehen die Umgebungsgeräusche im wesentlichen aus Motor- und Fahrgeräuschen.In the field of speech processing, noise signals are often contained in speech signals to be processed, which leads to a reduction in the speech quality and thus in particular to a deteriorated speech intelligibility. This problem occurs in particular in the case of mobile radio terminals which are used in motor vehicles and have a hands-free device. Speech signals received by microphones of the hands-free device arranged in the motor vehicle contain, on the one hand, speech signal components which are generated by the respective user (speech source) of the mobile radio terminal within the motor vehicle and, on the other hand, noise signal components which result from other ambient noises of the mobile radio device. During a journey, the ambient noise essentially consists of engine and driving noises.

Aus "Proceedings of the IEEE, VOL.75, No. 2, February 1987" ist eine Vorrichtung mit mehreren Mikrophonen bekannt, bei der mit Ausnahme eines Mikrophonsignals alle anderen Mikrophonsignale einstellbaren Verzögerungsgliedern zugeführt werden. Die mit Hilfe der Verzögerungsglieder gegeneinander zeitversetzten Mikrophonsignale werden aufaddiert und anschließend einer Nachverarbeitung unterzogen. Die Nutzsignalanteile der Mikrophonsignale stammen im wesentlichen von einer einzigen akustischen Quelle, die unterschiedliche Abstände zu den Mikrophonen aufweist.From "Proceedings of the IEEE, VOL.75, No. 2, February 1987" a device with several microphones is known, in which, with the exception of one microphone signal, all other delay signals that can be set are supplied to adjustable delay elements. The microphone signals offset in time with the aid of the delay elements are added up and then subjected to postprocessing. The useful signal components of the microphone signals essentially originate from a single acoustic source which is at different distances from the microphones.

Somit ergeben sich für ein von der akustischen Quelle erzeugtes akustisches Signal unterschiedliche Laufzeiten zu den räumlich getrennten Mikrophonen. Das akustische Signal bewirkt zeitversetzte und sonst annähernd gleiche Nutzsignalanteile der Mikrophonsignale. Die Nutzsignalanteile sind somit stark korreliert. Rauschsignalanteile der Mikrophonsignale sind bei geeigneter Anordnung der Mikrophone höchstens schwach korreliert. Durch geeignete Einstellung der Verzögerungsglieder in Abhängigkeit von der Position der akustischen Quelle wird das Ausgangssignal der Vorrichtung bzw. dessen Signal-/ Rauschleistungsverhältnis verbessert.This results in different transit times to the spatially separated microphones for an acoustic signal generated by the acoustic source. The acoustic signal causes time-delayed and otherwise approximately the same useful signal components of the microphone signals. The useful signal components are thus strongly correlated. Noise signal components of the microphone signals are at most weakly correlated with a suitable arrangement of the microphones. The output signal of the device or its signal / noise ratio is improved by suitably setting the delay elements as a function of the position of the acoustic source.

Eine solche Vorrichtung liefert nur dann befriedigende Ergebnisse, wenn das Signal-/ Rauschleistungsverhältnis der zu verarbeitenden Mikrophonsignale über einer Schwelle liegt, d.h. die Nutzsignalanteile müssen gegenüber den Rauschsignalanteilen genügend groß sein. Insbesondere dürfen die Rauschsignalanteile nicht größer als die Nutzsignalanteile sein. Aus diesem Grund muß von mindestens einem Mikrophonsignal bei jeder Neueinstellung der Verzögerungsglieder ein Schätzwert für das jeweilige Signal-/ Rauschleistungsverhältnis vorliegen, um Fehlfunktionen der Sprachverarbeitungsvorrichtung bei einem unzureichenden Signal-/ Rauschleistungsverhältnis vermeiden zu können.Such a device provides satisfactory results only when the signal-to-noise ratio of the microphone signals to be processed is above a threshold, i.e. the useful signal components must be sufficiently large compared to the noise signal components. In particular, the noise signal components must not be larger than the useful signal components. For this reason, an estimate of the respective signal / noise power ratio must be available from at least one microphone signal each time the delay elements are reset, in order to be able to avoid malfunctions of the speech processing device when the signal / noise power ratio is insufficient.

Bisherige Vorrichtungen zur Ermittlung des Signal-/ Rauschleistungsverhältnisses eines aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignals ermitteln einen Wert für die Rauschsignalleistung jeweils in einer Sprachpause, wo nur Rauschsignalanteile vorhanden sind. Das Detektieren einer Sprachpause beruht beispielsweise auf einer statistischen Bewertung des Sprachsignals mit Hilfe von Histogrammen oder der Auswertung der Kurzzeitleistung des verrauschten Sprachsignals.Previous devices for determining the signal / noise power ratio of a voice signal consisting of noise and voice signal components determine a value for the noise signal power in each case in a speech pause, where only noise signal components are present. The detection of a speech pause is based, for example, on a statistical evaluation of the speech signal using histograms or the evaluation of the short-term power of the noisy speech signal.

Eine solche von Sprachpausen abhängige Ermittlung des Signal-/ Rauschleistungsverhältnisses ist einerseits störanfällig aufgrund der notwendigen Sprachpausendetektion und andererseits langsam, da eine Aktualisierung des Signal-/ Rauschleistungsverhältnisses nur beim Auftreten einer Sprachpause erfolgen kann, wobei sich zwischen den Sprachpausen die Leistung des Rauschsignalanteils geändert haben kann.Such a determination of the signal / noise power ratio as a function of speech pauses is, on the one hand, susceptible to faults due to the necessary speech pause detection and, on the other hand, slow, since the signal / noise power ratio can only be updated when a speech pause occurs, and the power of the noise signal component may have changed between the speech pauses .

Der Erfindung liegt daher die Aufgabe zugrunde, ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung der eingangs genannten Art anzugeben, bei der eine Schätzung des Signal-/ Rauschleistungsverhältnisses der Sprachsignale verbessert ist.The invention is therefore based on the object of specifying a mobile radio terminal with a speech processing device of the type mentioned in the introduction, in which an estimate of the signal / noise power ratio of the speech signals is improved.

Die Aufgabe wird dadurch gelöst, daß die Sprachverarbeitungsvorrichtung zur Verarbeitung von aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignalen eine Schätzvorrichtung zum fortlaufenden Bilden von Schätzwerten des Signal-/ Rauschleistungsverhältnisses der Sprachsignale durch Mittel zur

  • Ermittlung der Leistungswerte von Abtastwerten der Sprachsignale,
  • Glättung der Leistungswerte,
  • Ermittlung jeweils des Minimums einer Gruppe von L aufeinanderfolgenden geglätteten Leistungswerten, wobei die Gruppen lückenlos aufeinanderfolgen und mindestens so viele geglättete Leistungswerte enthalten, daß jeweils alle einem beliebigen Phonem des Sprachsignals zugehörigen geglätteten Leistungswerte von einer einzigen Gruppe erfaßbar sind,
  • Bildung eines aktuellen Schätzwertes des Signal-/ Rauschleistungsverhältnisses aus dem aktuellen geglätteten Leistungswert und dem zuletzt ermittelten Minimum enthält.
The object is achieved in that the speech processing device for processing speech signals consisting of noise and speech signal components has an estimation device for continuously forming estimates of the signal / noise power ratio of the speech signals by means of
  • Determination of the power values of samples of the speech signals,
  • Smoothing the power values,
  • Determination of the minimum of a group of L successive smoothed power values, the groups successively following one another and containing at least so many smoothed power values that all smoothed power values associated with any phoneme of the speech signal can be detected by a single group,
  • Formation of a current estimated value of the signal / noise power ratio from the current smoothed power value and the last determined minimum contains.

Der Verlauf der geglätteten Leistungswerte von aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignalen weist zwischen zwei Sprachpausen (beispielsweise den Pausen zwischen zwei Wörtern) Spitzen auf, d.h. Bereiche kurzzeitig hoher Leistung, zwischen denen Bereiche niedrigerer Leistung liegen. Die geglätteten Leistungswerte zwischen den Spitzen dienen zur Abschätzung der Rauschsignalleistung. Einem Phonem eines Sprachsignals ist mindestens eine Spitze des Verlaufs der geglätteten Leistungswerte zugeordnet. Ein Phonem ist die kleinste bedeutungsunterscheidende Einheit der Sprache und ein Laut, der einerseits durch Vokale oder andererseits durch einzelne oder mehrere Konsonanten gebildet wird. Sind die Gruppen mit L aufeinanderfolgenden geglätteten Leistungswerten so groß, daß ein beliebiges Phonem und damit auch eine beliebige Spitze des Verlaufs der geglätteten Leistungswerte vollständig erfaßbar ist, ist sichergestellt, daß mindestens ein Wert eines neben einer Spitze liegenden Bereichs niedrigerer Leitung von jeder Gruppe erfaßbar ist. Es wird somit der Fall vermieden, daß eine Gruppe nur zu einer Spitze gehörende geglättete Leistungswerte enthält. Das Minimum einer Gruppe läßt sich damit zur Abschätzung der Rauschsignalleistung verwenden. Der Skalierungsfaktor dient zur Verbesserung der Abschätzung. Die Gruppen können aneinander grenzen oder sich auch teilweise überlappen. Für den Fall, daß die Gruppen aneinander grenzen, beträgt der Mindestabstand zwischen zwei Aktualisierungen des zur Abschätzung der Rauschsignalleistung verwendeten gewichteten Minimums L Abtastintervalle der Sprachsignale. Überlappen sich die Gruppen, so daß mindestens ein geglätteter Leistungswert zu mehreren Gruppen gehört, kann der minimale Zeitraum zwischen zwei Aktualisierungen des gewichteten Minimums verringert werden. Durch das fortlaufende von Sprachpausen unabhängige Bilden von Schätzwerten des Signal-/ Rauschleistungsverhältnisses kann die Sprachverarbeitungsvorrichtung sich auch an Änderungen der Rauschsignalleistung zwischen zwei Sprachpausen anpassen. Es ist keine Sprachpause für eine Aktualisierung der Abschätzung der Rauschsignalleistung erforderlich.The course of the smoothed power values of speech signals consisting of noise and speech signal components shows peaks between two speech pauses (for example the pauses between two words), ie areas of briefly high power, between which areas of lower power lie. The smoothed power values between the peaks are used to estimate the noise signal power. At least one peak of the curve of the smoothed power values is assigned to a phoneme of a speech signal. A phoneme is the smallest meaning-distinguishing unit of language and a sound that is formed on the one hand by vowels or on the other hand by single or several consonants. If the groups with L successive smoothed power values are so large that any phoneme and thus also any peak in the course of the smoothed power values can be completely detected, it is ensured that at least one value of a region of lower conduction lying next to a peak can be detected by each group . This avoids the case that a group contains only smoothed power values belonging to a peak. The minimum of a group can thus be used to estimate the noise signal power. The scaling factor serves to improve the estimate. The groups can be adjacent to each other or partially overlap. In the event that the groups are adjacent to one another, the minimum interval between two updates of the weighted minimum L used to estimate the noise signal power is sampling intervals of the speech signals. If the groups overlap so that at least one smoothed performance value belongs to several groups, the minimum period between two updates of the weighted minimum can be reduced. Through the ongoing of The speech processing device can also adapt to changes in the noise signal power between two speech pauses, independently of speech pauses, by forming estimates of the signal / noise power ratio. No speech pause is required to update the noise signal power estimate.

In einer Ausgestaltung der Erfindung sind Mittel zur Bildung von aneinandergrenzenden Untergruppen mit jeweils M = L/W

Figure imgb0001
aufeinanderfolgenden geglätteten Leistungswerten und zur Ermittlung des Minimums der Minima von jeweils W aufeinanderfolgenden Untergruppen zur Ermittlung des Minimums der zugehörigen Gruppe vorgesehen, wobei W eine natürliche Zahl darstellt und W Untergruppen eine Gruppe bilden.In one embodiment of the invention, means for forming adjoining subgroups are provided M = L / W
Figure imgb0001
successive smoothed power values and for determining the minimum of the minima of W successive subgroups for determining the minimum of the associated group, where W represents a natural number and W subgroups form a group.

Mit geringem Aufwand können so sowohl aneinandergrenzende als auch sich überlappende Gruppen realisiert werden. Bei aneinandergrenzenden Gruppen wird nach jeweils L Abtastintervallen aus dem Minimum der Minima von jeweils W aufeinanderfolgenden Untergruppen ein neuer Schätzwert für die Rauschsignalleistung bestimmt. Bei sich überlappenden Gruppen erfolgt eine neue Abschätzung der Rauschsignalleistung durch das Minimum der Minima von jeweils W aufeinanderfolgenden Untergruppen nach jeweils M Abtastintervallen.Both adjacent and overlapping groups can be realized with little effort. In the case of adjacent groups, a new estimated value for the noise signal power is determined after every L sampling intervals from the minimum of the minima of W successive subgroups. In the case of overlapping groups, the noise signal power is re-estimated by the minimum of the minima of W consecutive sub-groups after M sampling intervals.

Bei dieser Ausgestaltung können weiterhin Mittel zur Verwendung jeweils des zuletzt ermittelten Minimums einer Untergruppe anstelle des zuletzt ermittelten Minimums einer Gruppe bei einer vorgebbaren Anzahl an monoton ansteigenden Minima von Untergruppen vorgesehen werden, um einen aktuellen Wert des Signal-/ Rauschleistungsverhältnisses zu schätzen.In this embodiment, means for using the last determined minimum of a subgroup instead of the last determined minimum of a group with a predeterminable number of monotonically increasing minima of subgroups can also be provided in order to estimate a current value of the signal / noise power ratio.

Damit wird ein Schätzungwert der Rauschsignalleistung nach M Abtastintervallen aktualisiert, wobei nur jeweils M zurückliegende geglättete Leistungswerte in die Abschätzung eingehen. Mit Hilfe der somit schnelleren und besser an den Verlauf der geglätteten Leistungswerte angepaßten Aktualisierungen der Schätzwerte der Rauschsignalleistung ergeben sich verbesserte Schätzwerte des Signal-/ Rauschleistungsverhältnisses der Sprachsignale.In this way, an estimate of the noise signal power is updated after M sampling intervals, with only M past smoothed power values being included in the estimate. With the help of the updates of the estimated values of the noise signal power, which are thus faster and better adapted to the course of the smoothed power values, improved estimated values of the signal / noise power ratio of the speech signals result.

Die Erfindung kann weiterhin dadurch ausgestaltet werden, daß Mittel zur Verwendung des aktuellen geglätteten Leistungswerts anstelle eines zuletzt ermittelten Minimums einer Gruppe oder Untergruppe zur Schätzung eines aktuellen Wertes des Signal-/ Rauschleistungsverhältnisses für den Fall vorgesehen sind, daß der aktuelle geglättete Leistungswert kleiner als das zuletzt ermittelte Minimum ist.The invention can be further embodied in that means are provided for using the current smoothed power value instead of a recently determined minimum of a group or subgroup for estimating a current value of the signal / noise power ratio in the event that the current smoothed power value is less than the last one determined minimum is.

Unabhängig von der Größe und der Anordnung von Gruppen oder Untergruppen wird bei entsprechend kleinen geglätteten Leistungswerten das zuletzt ermittelte Minimum sofort durch den aktuellen geglätteten Leistungswert ersetzt. In diesem Fall ergibt sich eine unverzögerte Aktualisierung einer Abschätzung der Rauschsignalleistung durch den akutellen geglätteten Leistungswert.Regardless of the size and arrangement of groups or subgroups, the minimum determined last is immediately replaced by the current smoothed power value if the power values are correspondingly small. In this case, there is an instantaneous update of an estimate of the noise signal power by the current smoothed power value.

In einer anderen Ausgestaltung sind Sprachverarbeitungsmittel zur Verarbeitung der Sprachsignale in Abhängigkeit von Schätzwerten des Signal-/ Rauschleistungsverhältnisses vorgesehen.In another embodiment, speech processing means are provided for processing the speech signals as a function of estimated values of the signal / noise power ratio.

Es wird verhindert, daß die Sprachverarbeitungsmittel bei unzureichendem Signal-/ Rauschleistungsverhältnis der zu verarbeitenden Sprachsignale fehlerhaft arbeiten und insbesondere Ausgangssignale liefern, deren Sprachqualität sehr gering ist. So können beispielsweise bei einem zu geringen Signal-/ Rauschleistungsverhältnis vorher, d.h. bei einem ausreichend hohen Signal-/ Rauschleistungsverhältnis, ermittelte Einstellungen der Sprachverarbeitungsmittel konstant gehalten werden, bis wieder ein ausreichend hohes Signal-/ Rauschleistungsverhältnis vorliegt.It is prevented that the speech processing means operate incorrectly when the signal / noise power ratio of the speech signals to be processed is inadequate and in particular deliver output signals, their speech quality is very low. For example, if the signal-to-noise power ratio is too low, the settings of the speech processing means previously determined, ie if the signal-to-noise power ratio is sufficiently high, can be kept constant until there is again a sufficiently high signal-to-noise power ratio.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnungen näher erläutert. Es zeigen:

Fig. 1
eine Sprachverarbeitungsvorrichtung für zwei Sprachsignale,
Fig. 2
eine Steuervorrichtung zur Einstellung eines Zeitversatzes zwischen den beiden Sprachsignalen nach Fig. 1,
Fig. 3
eine Sprachverarbeitungsvorrichtung für drei Sprachsignale,
Fig. 4 und 5
Blockschaltbilder mit Steuervorrichtungen zur Einstellung von Zeitversätzen zwischen den drei Sprachsignalen nach Fig. 3,
Fig. 6 und 7
ein Blockschaltbild und ein Flußdiagramm zur Bestimmung des Signal-/ Rauschleistungsverhältnisses eines Sprachsignals,
Fig. 8
eine Einteilung von geglätteten Leistungswerten eines Sprachsignals in Gruppen und Untergruppen und
Fig. 9
ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung nach Fig. 1 bis 8.
Embodiments of the invention are explained below with reference to the drawings. Show it:
Fig. 1
a speech processing device for two speech signals,
Fig. 2
1 a control device for setting a time offset between the two voice signals according to FIG. 1,
Fig. 3
a speech processing device for three speech signals,
4 and 5
3 block diagrams with control devices for setting time offsets between the three speech signals,
6 and 7
2 shows a block diagram and a flowchart for determining the signal / noise power ratio of a speech signal,
Fig. 8
a division of smoothed power values of a speech signal into groups and subgroups and
Fig. 9
a mobile radio terminal with a voice processing device according to FIGS. 1 to 8.

Die in Fig. 1 dargestellte Sprachverarbeitungsvorrichtung enthält zwei Mikrophone M1 und M2. Diese dienen zur Umwandlung von akustischen in elektrischen Sprachsignale, die sich aus Sprach- und Rauschsignalanteilen zusammensetzen. Die Sprachsignalanteile stammen von einer einzelnen Sprachquelle (Sprecher), die im Regelfall unterschiedliche Abstände zu den beiden Mikrophonen M1 und M2 aufweist. Die Sprachsignalanteile sind somit in hohem Maße korreliert. Die Rauschsignalanteile der beiden von den Mikrophonen M1 und M2 empfangenen Sprachsignale sind nicht von der einzelnen Sprachquelle erzeugte Umgebungsgeräusche, die bei geeigneten Mikrophonabständen im Bereich von 10 bis 60 cm als unkorreliert oder nur wenig korreliert vorausgesetzt werden können, wenn sich die Mikrophone in einer sogenannten verhallten Umgebung wie beispielsweise im Auto oder in einem Büro befinden. Befinden sich Sprachquelle und Sprachverarbeitungsvorrichtung beispielsweise in einem Kraftfahrzeug, werden die Rauschsignalanteile insbesondere durch Motor- und Fahrgeräusche verursacht.The speech processing device shown in FIG. 1 contains two microphones M1 and M2. These are used to convert acoustic to electrical voice signals, which are made up of speech and noise signal components. The speech signal components come from a single one Speech source (speaker), which is usually at different distances from the two microphones M1 and M2. The speech signal components are thus highly correlated. The noise signal components of the two speech signals received by the microphones M1 and M2 are ambient noises generated by the individual speech source, which can be assumed to be uncorrelated or only slightly correlated with suitable microphone spacings in the range from 10 to 60 cm if the microphones reverberated in a so-called Environment such as in the car or in an office. If the speech source and speech processing device are located in a motor vehicle, for example, the noise signal components are caused in particular by engine and driving noises.

Die von den Mikrophonen M1 und M2 erzeugten Mikrophonsignale werden von Analog-Digitalumsetzern 1 und 2 digitalisiert. Die sich ergebenden digitalisierten und damit als Abtastwerte x1(i) und x2(i) vorliegenden Mikrophonsignale werden von einer Steuervorrichtung 3 ausgewertet, die zur Steuerung und Einstellung eines Verzögerungsgliedes 4 dient. Die abgetasteten Mikrophonsignale x1(i) und x2(i) werden im folgenden abgekürzt als Mikrophon- oder Sprachsignale bezeichnet. Das Verzögerungsglied 4 verzögert das Mikrophonsignal x1 mit durch die Steuervorrichtung 3 einstellbaren Verzögerungswerten T1. Eine Addiervorrichtung 5 addiert das vom Verzögerungsglied 4 verzögerte Mikrophonsignal x1(i) und das von einem Verzögerungsglied 16 mit einer konstanten Zeitverzögerung Tmax verzögerte Mikrophonsignal x2(i). Das Verzögerungsglied 16 ist vorgesehen, um sowohl ein Vorlaufen als auch ein Nacheilen des Mikrophonsignals x1(i) gegenüber dem Mikrophonsignal x2(i) einstellen zu können. Ein am Ausgang der Addiervorrichtung 5 anliegendes Summensignal X(i) ist ein abgetastes Sprachsignal, dessen Signal-/ Rauschleistungsverhältnis gegenüber den Signal-/ Rauschleistungsverhältnissen der Sprachsignale x1(i) und x2(i) erhöht ist. Durch eine geeignete Einstellung der Verzögerungszeit T1 des Verzögerungsglieds 4 wird bei der Addition durch die Addiervorrichtung 5 eine Verstärkung der Leistung der Sprachsignalanteile der beiden Sprachsignale x1(i) und x2(i) ungefähr um den Faktor 4 und eine Verstärkung der Leistung der Rauschsignalanteile nur ungefähr um den Faktor 2 bewirkt. Damit ergibt sich eine Verbesserung des leistungsbezogenen Signal-/ Rauschleistungsverhältnisses von ungefähr 3 dB.The microphone signals generated by the microphones M1 and M2 are digitized by analog-digital converters 1 and 2. The resulting digitized and thus present as samples x1 (i) and x2 (i) microphone signals are evaluated by a control device 3, which is used to control and set a delay element 4. The sampled microphone signals x1 (i) and x2 (i) are referred to below as microphone or speech signals. The delay element 4 delays the microphone signal x1 with delay values T1 that can be set by the control device 3. An adding device 5 adds the microphone signal x1 (i) delayed by the delay element 4 and the microphone signal x2 (i) delayed by a delay element 16 with a constant time delay T max . The delay element 16 is provided in order to be able to set both a leading and a lagging of the microphone signal x1 (i) relative to the microphone signal x2 (i). A sum signal X (i) present at the output of the adder 5 is a sampled speech signal, the signal / noise power ratio of which compared to the signal / noise power ratios of the speech signals x1 (i) and x2 (i) is increased. Through a suitable setting of the delay time T1 of the delay element 4, the addition by the adder 5 increases the power of the voice signal components of the two voice signals x1 (i) and x2 (i) by approximately a factor of 4 and increases the power of the noise signal components only approximately caused by a factor of 2. This results in an improvement in the power-related signal / noise power ratio of approximately 3 dB.

In Fig. 2 wird die Funktionsweise der Steuerungvorrichtung 3 anhand eines Blockschaltbildes näher erläutert. Aus dem Sprachsignal x2(i) und Sprachsignalschätzwerten x1int(i) ergeben sich Fehlerwerte e₁₂(i) durch Differenzbildung nach

e₁₂(i) = x1 int (i) - x2(i)   (1)

Figure imgb0002


Die Sprachsignalschätzwerte x1int(i) sind Werte, die sich aus einer Interpolation von Abtastwerten des Sprachsignals x1(i) ergeben. Die Bestimmung der Sprachsignalschätzwerte x1int(i) wird später erläutert. i ist eine Variable, die ganzzahlige Werte annehmen kann und mit der einerseits Abtastzeitpunkte der Sprachsignale x1(i) und x2(i) und andererseits auch Programmzyklen der programmierbaren und Steuermittel aufweisenden Steuervorrichtung 3 indiziert werden, wobei in einem Programmzyklus jeweils ein neuer Abtastwert per Sprachsignal verarbeitet wird.In Fig. 2 the operation of the control device 3 is explained in more detail using a block diagram. From the speech signal x2 (i) and speech signal estimated values x1 int (i), error values e 1 (i) result from difference formation

e₁₂ (i) = x1 int (i) - x2 (i) (1)
Figure imgb0002


The speech signal estimates x1 int (i) are values that result from an interpolation of samples of the speech signal x1 (i). The determination of the speech signal estimates x1 int (i) will be explained later. i is a variable which can take integer values and with which, on the one hand, sampling times of the speech signals x1 (i) and x2 (i) and, on the other hand, also program cycles of the programmable control device 3 having control means 3, are indicated, with one new sample value per speech signal in each program cycle is processed.

Ein digitales Filter 6 führt eine Hilbert-Transformation der Abtastwerte x2(i) durch:

Figure imgb0003

Das die Werte x2H(i) von x2(i) liefernde Digitalfilter 6 ist ein FIR-Filter der Ordnung K, das Koeffizienten h(0), h(1), ..., h(K) aufweist. Im vorliegenden Ausführungsbeispiel ist K gleich sechzehn, so daß das Digitalfilter 6 siebzehn Koeffizienten aufweist. Das Digitalfilter 6 besitzt dem Betrage nach die Übertragungsfunktion eine Tiefpasses. Es erzeugt weiterhin eine Phasenverschiebung von 90 Grad. Die feste Phasenverschiebung von 90 Grad ist die entscheidende Eigenschaft des Digitalfilters 6, der Verlauf des Betrages der Übertragungsfunktion ist für das Funktionieren der Sprachverarbeitungsvorrichtung nicht entscheidend. So kann das Digitalfilter 6 auch mit Hilfe eines Differenzierers realisiert werden, was allerdings zu einer Unterdrückung von niederfrequenten Anteilen von x2(i) und damit zu einer verringerten Leistungfähigkeit der Sprachverarbeitungsvorrichtung führen würde.A digital filter 6 carries out a Hilbert transformation of the sample values x2 (i):
Figure imgb0003

The digital filter 6 supplying the values x2 H (i) of x2 (i) is an FIR filter of the order K, which has coefficients h (0), h (1), ..., h (K). In the present exemplary embodiment, K is sixteen, so that the digital filter 6 has seventeen coefficients. The digital filter 6 has a low pass in terms of the transfer function. It continues to produce a 90 degree phase shift. The fixed phase shift of 90 degrees is the decisive property of the digital filter 6, the course of the amount of the transfer function is not decisive for the functioning of the speech processing device. The digital filter 6 can thus also be implemented with the aid of a differentiator, which would, however, lead to a suppression of low-frequency components of x2 (i) and thus to a reduced performance of the speech processing device.

Die Ausgangswerte x2H(i) werden mit den Fehlerwerten e₁₂(i) und dem Kehrwert 1/Px2(i) einer Kurzzeitleistung Px2(i) multipliziert, wobei die Kurzzeitleistung Px2(i) nach

P x2 (i) = P x2 (i-1) + [x2(i)]² - [x2(i-N]²   (3)

Figure imgb0004


gebildet wird. N gibt die Anzahl der in die Berechnung eingehenden Abtastwerte von x1 an. N ist beispielsweise gleich 65. Die Multiplikation mit 1/Px2(i) dient zur Vermeidung von Instabilitäten in der Steuervorrichtung 3 beim Steuern des Verzögerungsgliedes 4. Damit ergibt sich durch
Figure imgb0005

ein auf die Kurzzeitleistung Px2(i) normierter geschätzter Gradient grad(i) der Quadrate bzw. der Leistung der Fehlerwerte e₁₂(i) im Programmzyklus i.The output values x2 H (i) are multiplied by the error values e₁₂ (i) and the reciprocal 1 / P x2 (i) of a short-term power P x2 (i), the short-term power P x2 (i) after

P x2 (i) = P x2 (i-1) + [x2 (i)] ² - [x2 (iN] ² (3)
Figure imgb0004


is formed. N indicates the number of samples of x1 used in the calculation. N is, for example, equal to 65. The multiplication by 1 / P x2 (i) serves to avoid instabilities in the control device 3 when the delay element 4 is controlled
Figure imgb0005

an estimated on the short-term power P x2 (i) graded gradient degree (i) of the squares or the power of the error values e₁₂ (i) in the program cycle i.

Ein Funktionsblock 7 bildet fortlaufend aus den Abtastwerten des Sprachsignals x2(i) Schätzwerte SNR(i) des zugehörigen Signal-/ Rauschleistungsverhältnisses, die von einem Funktionsblock 8 ausgewertet werden. Auch eine Auswertung des Sprachsignals x1(i) anstelle des Sprachsignals x2(i) ist möglich, ohne daß die Funktionsfähigkeit der Sprachverarbeitungsvorrichtung eingeschränkt wird. Die Funktionsweise des Funktionsblockes 7 wird später anhand der Figuren 6 bis 8 näher erläutert. Der Funktionsblock 8 führt eine Schwellwertentscheidung bezüglich der Schätzwerte SNR(i) durch. Nur wenn die Schätzwerte SNR(i) über einer vorgebbaren Schwelle liegen, wird ein Zwischenspeicher 9 mit dem neu bestimmten Gradientenschätzwert grad(i) überschrieben. Dieser Fall wird durch die geschlossene Stellung eines Schalters 11 symbolisiert, der von dem Funktionsblock 8 gesteuert wird. Der Speicherinhalt (grad(i)) des Zwischenspeichers 9 wird von einer Funktionseinheit 10 weiterverarbeitet. Für den Fall, daß ein Schätzwert SNR(i) unterhalb des vorgebbaren Schwellwerts liegt, wird der Zwischenspeicher 9 nicht mit dem neu ermittelten Gradientenschätzwert grad(i) überschrieben und er behält seinen alten Speicherinhalt bei, was durch die geöffnete Stellung des Schalters 11 symbolisiert wird. Die vorgebbare Schwelle, von der das Öffnen und Schließen des Schalters 11 durch den Funktionsblock 8 abhängt, liegt vorzugsweise zwischen 0 und 10 dB.A function block 7 continuously forms estimated values SNR (i) of the associated signal / noise power ratio from the samples of the speech signal x2 (i), which are evaluated by a function block 8. An evaluation of the speech signal x1 (i) instead of the speech signal x2 (i) is also possible without the functionality of the speech processing device being restricted. The functioning of the function block 7 will be explained in more detail later with reference to FIGS. 6 to 8. Function block 8 carries out a threshold decision regarding the estimated values SNR (i). Only if the estimated values SNR (i) lie above a predefinable threshold is an intermediate memory 9 overwritten with the newly determined gradient estimated value grad (i). This case is symbolized by the closed position of a switch 11 which is controlled by the function block 8. The memory content (degree (i)) of the intermediate memory 9 is further processed by a functional unit 10. In the event that an estimated value SNR (i) lies below the predefinable threshold value, the buffer 9 is not overwritten with the newly determined gradient estimated value grad (i) and it retains its old memory content, which is symbolized by the open position of the switch 11 . The predefinable threshold, on which the opening and closing of the switch 11 by the function block 8 depends, is preferably between 0 and 10 dB.

Der Zwischenspeicher 9 liefert die in ihm gespeicherten Gradientenschätzwerte grad(i) an die Funktionseinheit 10, der auch Abtastwerte des Sprachsignals x1(i) zugeführt werden und die sowohl zur Lieferung der Sprachsignalschätzwerte x1int(i) als auch zur Einstellung des Verzögerungsgliedes 4 dient.The buffer store 9 supplies the gradient estimated values grad (i) stored in it to the functional unit 10, to which sample values of the speech signal x1 (i) are also fed and which both serve to supply the speech signal estimated values x1 int (i) and also for setting the delay element 4.

Die Gradientenschätzwerte grad(i) werden von einem Funktionsblock 12 nach

sgrad(i) = α*sgrad(i-1) + (1-α)*grad(i)   (5)

Figure imgb0006


zu geglätteten ("smoothed") Gradientenschätzwerten sgrad(i) weiterverarbeitet. α ist eine Konstante, die im Ausführungsbeispiel den Wert 0,95 besitzt. Die Werte sgrad(i) werden von einem Funktionsblock 13 zur Adaption von Verzögerungsschätzwerten T1'(i) nach

T1'(i+1) = T1'(i) - µ * sgrad(i)   (6)
Figure imgb0007


verwendet. Die Bestimmung von Verzögerungsschätzwerten T1'(i) erfolgt damit rekursiv. µ ist ein konstanter Faktor bzw. Konvergenzparameter und liegt im Bereich
Figure imgb0008

Rx2x2 bezeichnet eine Autokorrelationsfunktion des Sprachsignals x2(i) an der Stelle Null. Ein besonders vorteilhafter Wertebereich von µ ist im vorliegenden Ausführungsbeispiel 1,5 < µ < 3.The gradient estimated values grad (i) are followed by a function block 12

degree (i) = α * degree (i-1) + (1-α) * degree (i) (5)
Figure imgb0006


processed to smoothed gradient estimates sgrad (i). α is a constant that has the value 0.95 in the exemplary embodiment. The values sgrad (i) are followed by a function block 13 for adapting delay estimated values T1 '(i)

T1 '(i + 1) = T1' (i) - µ * sgrad (i) (6)
Figure imgb0007


used. Delay estimated values T1 '(i) are thus determined recursively. µ is a constant factor or convergence parameter and is in the range
Figure imgb0008

R x2x2 denotes an autocorrelation function of the speech signal x2 (i) at the zero position. A particularly advantageous value range of μ in the present exemplary embodiment is 1.5 <μ <3.

Die Verzögerungsschätzwerte T1'(i) können auch nicht ganzzahlige Werte d.h nicht ganzzahlige Vielfache eines Abtastintervalls sein. Ein Funktionsblock 14 rundet die Verzögerungsschätzwerte T1'(i) auf ganzzahlige Verzögerungswerte T1(i), mit denen die Verzögerungsvorrichtung 4 eingestellt wird. Die Rundungsoperation durch Funktionsblock 14 ist notwendig, da Werte des durch das Verzögerungsglied 4 zu verzögernden Sprachsignals x1(i) nur zu den entsprechenden Abtastzeitpunkten vorliegen.The delay estimated values T1 '(i) can also be non-integer values, ie non-integer multiples of a sampling interval. A function block 14 rounds the delay estimated values T1 '(i) to integer delay values T1 (i) with which the delay device 4 is set. The rounding operation by function block 14 is necessary because of the values of the delay element 4 speech signal x1 (i) to be delayed is only available at the corresponding sampling times.

Die Funktionseinheit 10 weist weiterhin einen Funktionblock 15 auf, der die Sprachsignalschätzwerte x1int(i) nach

x1 int (i) = x1(i+T1(i)) + 0,5 * [T1'(i) - T1(i)] * [x1(i+T1(i)+1)) - x1(i+T1(i)-1)]   (8)

Figure imgb0009


durch Interpolation dreier benachbarter Abtastwerte x1(i+T1(i)-1), x1(i+T1(i)) und x1(i+T1(i)+1) des Sprachsignals x1 bildet. Der Funktionsblock 15 ist somit in der Lage, durch den Sprachsignalschätzwert x1int(i) im Programmzyklus i einen Wert des Sprachsignals x1 zum Zeitpunkt i+T1(i), d.h. zu einem Zeitpunkt zwischen zwei Abtastzeitpunkten, zu bilden bzw. zu interpolieren. Die beschriebene Interpolation durch Funktionsblock 15 kann dadurch ersetzt werden, daß Funktionsblock 15 eine Tiefpaßfilterung der Abtastwerte x1(i) zur Interpolation von Werten zwischen den Abtastzeitpunkten durchführt.The functional unit 10 furthermore has a functional block 15 which tracks the speech signal estimated values x1 int (i)

x1 int (i) = x1 (i + T1 (i)) + 0.5 * [T1 '(i) - T1 (i)] * [x1 (i + T1 (i) +1)) - x1 (i + T1 (i) -1)] (8)
Figure imgb0009


by interpolating three adjacent samples x1 (i + T1 (i) -1), x1 (i + T1 (i)) and x1 (i + T1 (i) +1) of the speech signal x1. Function block 15 is thus able to use the speech signal estimate x1 int (i) in program cycle i to form or interpolate a value of speech signal x1 at time i + T1 (i), ie at a time between two sampling times. The described interpolation by function block 15 can be replaced by function block 15 performing low-pass filtering of the sample values x1 (i) for the interpolation of values between the sample times.

Würden zur Bestimmung der Fehlerwerte e₁₂(i) anstelle der Sprachsignalschätzwerte x1int(i) die am Ausgang des Verzögerungsgliedes 4 anliegenden verzögerten Abtastwerte des Sprachsignals x1(i) verwendet, wie dies aus "IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL. ASSP-29, Nr.3, Juni 1981, S. 582-587" bekannt ist, würde beim Erreichen von Fehlerwerten e₁₂(i) = 0

Figure imgb0010
die Verzögerungswerte T1(i), mit denen das Verzögerungsglied 4 eingestellt wird, nicht mehr konvergieren. Es ergäben sich starke Oszillationen der gerundeten Verzögerungswerte T1(i). Diese würden zwischen zwei Verzögerungswerten mit dem Abstand eines Abtastintervalls schwanken. Die entsprechende wahre Zeitverzögerung zwischen den Sprachsignalanteilen, die durch die unterschiedlichen Wegstrecken vom Sprecher zu den Mikrophonen M1 und M2 bestimmt ist, würde dabei zwischen diesen zwei Verzögerungswerten liegen. Im vorliegenden Ausführungsbeispiel werden solche Oszillationen dadurch vermieden, daß bei der Bildung der Fehlerwerte Sprachsignalschätzwerte x1int(i) verwendet werden, durch die Werte des Sprachsignals x1(i) auch für Verzögerungen um nicht ganzzahlige Vielfache eines Abtastintervalls verfügbar sind, also auch an Zeitpunkten ungleich der Abtastzeitpunkte i des Sprachsignals x1(i).Would be used to determine the error values e₁₂ (i) instead of the speech signal estimates x1 int (i) the delayed samples of the speech signal x1 (i) present at the output of the delay element 4, as can be seen from "IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL ASSP-29, No. 3, June 1981, pp. 582-587 "would be known when error values were reached e₁₂ (i) = 0
Figure imgb0010
the delay values T1 (i) with which the delay element 4 is set no longer converge. There would be strong oscillations of the rounded delay values T1 (i). These would fluctuate between two delay values with the interval of a sampling interval. The corresponding true time delay between the speech signal components caused by the different distances from Speaker to the microphones M1 and M2 is determined, would lie between these two delay values. In the present exemplary embodiment, such oscillations are avoided by using speech signal estimates x1 int (i) in the formation of the error values, by means of which the values of the speech signal x1 (i) are also available for delays by non-integer multiples of a sampling interval, that is to say also unequal at times the sampling times i of the speech signal x1 (i).

Der zur Glättung der Gradientenschätzwerte grad(i) dienende Funktionsblock 12 bewirkt eine verbesserte Ermittlung der Verzögerungschätzwerte T1'(i).The function block 12 used to smooth the gradient estimated values grad (i) brings about an improved determination of the delay estimated values T1 '(i).

Die Steuervorrichtung 3 adaptiert die Verzögerungsschätzwerte T1'(i) bzw. die Verzögerungswerte T1(i) so, daß von einem Programmzyklus zum nächsten das Quadrat bzw. die Leistung der Fehlerwerte e₁₂(i) verringert wird. Die Konvergenz von T1'(i) bzw. T1(i) ist somit sichergestellt.The control device 3 adapts the delay estimates T1 '(i) or the delay values T1 (i) so that the square or the power of the error values e 1 (i) is reduced from one program cycle to the next. The convergence of T1 '(i) or T1 (i) is thus ensured.

In Fig. 3 ist eine prinzipiell wie die Sprachverarbeitungsvorrichtung aus Fig. 1 arbeitende Sprachverarbeitungsvorrichtung mit nun drei Mikrophonen M1, M2 und M3 zur Lieferung von Mikrophon- bzw. Sprachsignalen dargestellt. Die Mikrophonsignale werden Analog-Digital-Umsetzern 20, 21 und 22 zugeführt, die digitalisierte und damit abgetastete Sprachsignale x1(i), x2(i) und x3(i) liefern, die aus Sprach- und Rauschsignalanteilen bestehen. Die Sprachsignale x1(i) und x3(i) werden einstellbaren Verzögerungsgliedern 23 und 24 zugeführt. Analog zu Fig. 1 wird das Sprachsignal x2(i) einem Verzögerungsglied 27 mit einer festen Verzögerungszeit Tmax zugeführt.Die Ausgangswerte der Verzögerungsglieder 23, 24 und 27 werden von einer Addiervorrichtung 25 zum Summensignal X(i) aufaddiert. Eine Steuervorrichtung 26 wertet die Abtastwerte der Sprachsignale x1(i), x2(i) und x3(i) aus und leitet aus diesen Abtastwerten analog zur Wirkungsweise der Steuervorrichtung 3 aus Fig. 1 und 2 gerundete ganzzahlige Verzögerungswerte T1(i) und T3(i) ab, die ganzzahligen Vielfachen eines Abtastintervalles der abgetasteten Sprachsignale x1(i), x2(i) und x3(i) entsprechen und mit denen die Verzögerungsglieder 23 und 24 eingestellt werden, so daß eine Erweiterung von zwei auf drei zu verarbeitende Mikrophon- bzw. Sprachsignale ermöglicht wird.FIG. 3 shows a speech processing device which works in principle like the speech processing device from FIG. 1 and now has three microphones M1, M2 and M3 for the delivery of microphone or speech signals. The microphone signals are fed to analog-to-digital converters 20, 21 and 22, which deliver digitized and thus sampled speech signals x1 (i), x2 (i) and x3 (i), which consist of speech and noise signal components. The speech signals x1 (i) and x3 (i) are supplied to adjustable delay elements 23 and 24. Analogously to FIG. 1, the speech signal x2 (i) is fed to a delay element 27 with a fixed delay time T max. The output values of the delay elements 23, 24 and 27 are added to the sum signal X (i) by an adding device 25. A control device 26 evaluates the samples of the speech signals x1 (i), x2 (i) and x3 (i) and derives rounded integer delay values T1 (i) and T3 (i) from these samples, analogous to the mode of operation of the control device 3 from FIGS. 1 and 2, the integer values Correspond to multiples of a sampling interval of the sampled speech signals x1 (i), x2 (i) and x3 (i) and with which the delay elements 23 and 24 are set, so that an expansion from two to three microphone or speech signals to be processed is made possible.

In Fig. 4 ist eine erste Ausführungsform der Steuervorrichtung 26 aus Fig. 3 dargestellt. Es sind zwei Funktionseinheiten 10 vorgesehen, deren Aufbau gleich dem Aufbau der Funktionseinheit 10 aus Fig. 2 ist und die zur Einstellung der Verzögerungsglieder 23 und 24 mit den gerundeten Zeitverzögerungswerten T1(i) und T3(i) dienen.FIG. 4 shows a first embodiment of the control device 26 from FIG. 3. Two functional units 10 are provided, the structure of which is identical to the structure of the functional unit 10 from FIG. 2 and which are used to set the delay elements 23 and 24 with the rounded time delay values T1 (i) and T3 (i).

Die obere Funktionseinheit 10 liefert Sprachsignalschätzwerte x1int(i). Die untere Funktionseinheit 10 liefert Sprachsignalschätzwerte x3int(i). Aus einer Differenz x1int(i) - x2(i) und aus einer Differenz x3int(i) - x2(i) werden Fehlerwerte e₁₂(i) und e₃₂(i) gebildet.The upper functional unit 10 provides speech signal estimates x1 int (i). The lower functional unit 10 supplies speech signal estimates x3 int (i). From a difference x1 int (i) - x2 (i) and from a difference x3 int (i) - x2 (i), error values e₁₂ (i) and e₃₂ (i) are formed.

Auch hier ist ein Digitalfilter 6 vorgesehen, das in den Ausführungen zu Fig. 2 bereits näher beschrieben ist, und das zum Empfang der Abtastwerte x2(i) und zur Lieferung von Werten x2H(i) dient, die durch eine Hilbert-Transformation der Abtastwerte x2(i) erzeugt werden. Die Werte x2H(i) werden einerseits mit den Fehlerwerten e₁₂(i) und andererseits mit den Fehlerwerten e₃₂(i) multipliziert. Das erste Produkt x2H(i)*e₁₂(i) wird der oberen, das zweite Produkt x2H(i)*e₃₂(i) wird der unteren Funktionseinheit 10 zugeführt. Die Anordnung der Funktionsblöcke 7 und 8, des Zwischenspeichers 9 und des Schalters 11 wird analog zu Fig. 2 durchgeführt und ist aus Gründen der Übersichtlichkeit nicht in Fig. 4 dargestellt.Here too, a digital filter 6 is provided, which has already been described in more detail in the explanations relating to FIG. 2, and which serves to receive the sample values x2 (i) and to supply values x2 H (i) which are obtained by a Hilbert transformation of the Samples x2 (i) are generated. The values x2 H (i) are multiplied on the one hand by the error values e₁₂ (i) and on the other hand by the error values e₃₂ (i). The first product x2 H (i) * e₁₂ (i) is the upper, the second product x2 H (i) * e₃₂ (i) is fed to the lower functional unit 10. The arrangement of the function blocks 7 and 8, the buffer 9 and the switch 11 becomes analogous to Fig. 2 performed and is not shown in Fig. 4 for reasons of clarity.

Fig. 5 zeigt eine gegenüber Fig. 4 erweiterte Fassung der Steuervorrichtung 26. Im Gegensatz zu Fig. 4 sind anstelle nur eines Digitalfilters 6 nun drei Digitalfilter 6 angeordnet. Diese bilden aus den Sprachsignalabtastwerten x1(i), x2(i) und x3(i) durch Hilbert-Transformation die Werte x1H(i), x2H(i) und x3H(i).FIG. 5 shows a version of the control device 26 that is expanded compared to FIG. 4. In contrast to FIG. 4, three digital filters 6 are now arranged instead of just one digital filter 6. These form the values x1 H (i), x2 H (i) and x3 H (i) from the speech signal samples x1 (i), x2 (i) and x3 (i) by Hilbert transformation.

In der oberen Hälfte des in Fig. 5 dargestellten Blockdiagramms werden Fehlerwerte e₁₃(i) aus der Differenz x1int(i)-x2(i) bebildet, die in ein erstes Produkt 0,3*e₁₃(i)*x3 H (i)

Figure imgb0011
eingehen. Ein zweites Produkt ergibt sich aus 0,7*e₁₂(i)*x2 h (i)
Figure imgb0012
. Die beiden Produkte entsprechen gewichteten Gradientschätzwerten der Quadrate der Fehlerwerte e₁₃(i) und e₁₂(i). Die Summe aus erstem und zweitem Produkt und damit eine Linearkombination der gewichteten Gradientschätzwerten wird der oberen Funktionseinheit 10 zugeführt.In the upper half of the block diagram shown in Fig. 5, error values e₁₃ (i) from the difference x1 int (i) -x2 (i) are formed, which in a first product 0.3 * e₁₃ (i) * x3 H (i)
Figure imgb0011
come in. A second product results from 0.7 * e₁₂ (i) * x2 H (i)
Figure imgb0012
. The two products correspond to weighted gradient estimates of the squares of the error values e₁₃ (i) and e₁₂ (i). The sum of the first and second product and thus a linear combination of the weighted gradient estimated values is fed to the upper functional unit 10.

Analog dazu werden in der unteren Hälfte des in Fig. 5 dargestellten Blockdiagramms Fehlerwerte e₃₁(i) und e₃₂(i) gebildet. Die Fehlerwerte e₃₁(i) ergeben sich aus der Differenz x3int(i)-x1(i). Die Fehlerwerte e₃₂(i) werden durch die Differenz x3int(i)-x2(i) gebildet. Ein drittes Produkt 0,3*e₃₁(i)*x1 H (i)

Figure imgb0013
und ein viertes Produkt 0,7*e₃₂(i)*x2 H (i)
Figure imgb0014
werden aufaddiert und die sich ergebende Summe wird der unteren Funktionseinheit 10 zugeführt.Similarly, error values e₃₁ (i) and e₃₂ (i) are formed in the lower half of the block diagram shown in FIG. 5. The error values e₃₁ (i) result from the difference x3 int (i) -x1 (i). The error values e₃₂ (i) are formed by the difference x3 int (i) -x2 (i). A third product 0.3 * e₃₁ (i) * x1 H (i)
Figure imgb0013
and a fourth product 0.7 * e₃₂ (i) * x2 H (i)
Figure imgb0014
are added up and the resulting sum is fed to the lower functional unit 10.

Mit Hilfe der Sprachverarbeitungsvorrichtung nach Fig. 3, die eine Steuervorrichtung nach Fig. 4 oder 5 enthält, läßt sich ein gegenüber der Sprachverarbeitungsvorrichtung mit zwei Mikrophonen nach Fig. 1 verbessertes Summensignal X(i) erzeugen. Das Signal-/ Rauschleistungsverhältnis und damit die Sprachqualität des Summensignals X(i) der Sprachverarbeitungsvorrichtung nach Fig. 3 ist gegenüber dem von der Sprachverarbeitungsvorrichtung nach Fig. 1 erzeugten Summensignal X(i) weiter erhöht. Die Steuervorrichtung nach Fig. 5 weist gegenüber der Steuervorrichtung nach Fig. 4 beim Einsatz in der Sprachverarbeitungsvorrichtung nach Fig. 3 eine erhöhte Stabilität auf.3, which contains a control device according to FIG. 4 or 5, a sum signal X (i) which is improved compared to the speech processing device with two microphones according to FIG. 1 can be generated. The signal / noise ratio and 3, the speech quality of the sum signal X (i) of the speech processing device according to FIG. 3 is further increased compared to the sum signal X (i) generated by the speech processing device according to FIG. 1. The control device according to FIG. 5 has an increased stability compared to the control device according to FIG. 4 when used in the speech processing device according to FIG. 3.

Sowohl in Fig. 4 als auch in Fig. 5 ist aus Gründen der Übersichtlichkeit auf eine Darstellung von Mitteln (siehe Funktionsblöcke 7 und 8, Zwischenspeicher 9 und Schalter 11 in Fig. 2) verzichtet worden, die eine Abhängigkeit der Sprachverarbeitung von Schätzwerten SNR(i) für eines der Mikrophonsignale x1(i), x2(i) oder x3(i) bewirken. Ebenfalls aus Gründen der Übersichtlichkeit ist die Normierung von Produkten aus Fehlerwerten und der Ausgangswerte der die Hilbert-Transformation durchführenden Digitalfilter 6 auf die Leistung eines zugehörigen Mikrophonsignals (siehe 1/Px2(i) in Fig. 2) nicht dargestellt. Die Erweiterung der Steuervorrichtungen 26 nach Fig. 4 und 5 um diese beiden technischen Merkmale ergibt sich aus ihrer Realisierung in der Steuervorrichung 3 nach Fig. 2.Both in FIG. 4 and in FIG. 5, for the sake of clarity, a representation of means (see function blocks 7 and 8, buffer store 9 and switch 11 in FIG. 2) has been dispensed with, which means that the speech processing is dependent on estimated values SNR ( i) for one of the microphone signals x1 (i), x2 (i) or x3 (i). Also for reasons of clarity, the normalization of products from error values and the output values of the digital filters 6 performing the Hilbert transformation to the power of an associated microphone signal (see 1 / P x2 (i) in FIG. 2) is not shown. The expansion of the control devices 26 according to FIGS. 4 and 5 by these two technical features results from their implementation in the control device 3 according to FIG. 2.

Mit Hilfe der Fig. 6 und 7 wird das Schema erläutert, anhand dessen der Funktionsblock 7 aus einem abgetasteten Sprachsignal x(i), das aus Rausch- und Sprachsignalanteilen besteht, die zugehörigen Schätzwerte SNR(i) des Signal-/ Rauschleistungsverhältnisses, d.h. des Verhältnisses der Leistungen der Sprachsignalanteile zur Leistung der Rauschsignalanteile, ermittelt. Den Abtastwerten x(i) entsprechen in Fig. 2 die Abtastwerte x2(i). In Fig. 6 ist der Funktionsblock 7 anhand eines Blockschaltbildes dargestellt. Ein Funktionsblock 30 dient zur Bildung von Leistungswerten Px(i) der Abtastwerte x(i) durch Quadrieren der Abtastwerte. Weiterhin führt der Funktionsblock 30 eine Glättung dieser Leistungswerte Px(i) durch. Die sich so ergebenden geglätteten Leistungswerte Px,s(i) werden sowohl dem Funktionsblock 31 als auch dem Funktionsblock 32 zugeführt. Der Funktionsblock 31 ermittelt fortlaufend Schätzwerte Pn(i) zur Abschätzung der Leistung des Raussignalanteils der Abtastwerte x(i), d.h. es wird die Leistung der Rauschsignalanteile der Abtastwerte x(i) ermittelt. Aus den geglätteten Leistungswerten Px,s(i) und den Schätzwerten Pn(i) bestimmt der Funktionsblock 32 fortlaufend Schätzwerte SNR(i) des Signal-/ Rauschleistungsverhältnisses der Abtastwerte x(i).With the help of FIGS. 6 and 7, the scheme is explained, on the basis of which the function block 7 from a sampled speech signal x (i), which consists of noise and speech signal components, the associated estimated values SNR (i) of the signal / noise power ratio, that is Ratio of the power of the speech signal components to the power of the noise signal components, determined. In FIG. 2, the sample values x2 (i) correspond to the sample values x (i). The function block 7 is shown in FIG. 6 on the basis of a block diagram. A function block 30 serves to form power values P x (i) of the sample values x (i) by squaring the sample values. Function block 30 also leads a smoothing of these power values P x (i) by. The resulting smoothed power values P x, s (i) are supplied to both function block 31 and function block 32. Function block 31 continuously determines estimated values P n (i) for estimating the power of the noise signal component of the sampled values x (i), ie the power of the noise signal components of the sampled values x (i) is determined. From the smoothed power values P x, s (i) and the estimated values P n (i), the function block 32 continuously determines estimated values SNR (i) of the signal / noise power ratio of the sampled values x (i).

In Fig. 7 ist ein Flußdiagramm dargestellt, das die Funktionsweise des Funktionsblockes 7 näher erläutert. Anhand des Flußdiagramms wird ersichtlich, wie aus den Abtastwerten x(i) des Sprachsignals x durch ein Computerprogramm Schätzwerte SNR(i) des entsprechenden Signal-/ Rauschleistungsverhältnisses gebildet werden. In einem Initialisierungsblock 33 wird zu Beginn des durch Fig. 7 beschriebenen Programms eine Zählervariable Z auf 0 und eine Variable PMmin auf einen Wert Pmax gesetzt. Pmax ist so groß gewählt, daß die geglätteten Leistungswerte Px,s(i) immer kleiner als Pmax sind. Pmax kann beispielsweise auf den maximal darstellbaren Zahlenwert eines zur Realisierung des Programms verwendeten Rechners gesetzt werden. In einem Block 34 wird ein neuer Abtastwert x(i) eingelesen. In Block 35 wird eine Zählervariable Z um den Wert 1 erhöht, wonach in Block 36 ein neuer geglätteter Leistungswert Px,s(i) gebildet wird. Er ergibt sich dadurch, daß zunächst durch

P x (i) = P x (i-1) + x²(i) - x²(i-N)   (1)

Figure imgb0015


ein Kurzzeitleistungswert Px(i) und dann durch

P x,s (i) = α * P x,s (i-1) + (1-α)*P x (i)   (2)
Figure imgb0016


ein neuer geglätteter Leistungswert gebildet wird. Mit Formel (1) wird ein Kurzzeitleistungswert Px(i) einer Gruppe von N aufeinanderfolgenden Abtastwerten x(i) ermittelt. N ist hier beispielsweise gleich 128. Der Wert α aus Gleichung (2) liegt zwischen 0,95 und 0,98. Die Ermittlung von geglätteten Leistungswerten Px,s(i) kann auch nur durch Gleichung (2) durchgeführt werden, wobei dann allerdings der Wert α ungefähr auf den Wert 0,99 zu erhöhen und Px(i) durch x²(i) zu ersetzen ist.FIG. 7 shows a flow chart which explains the function of the function block 7 in more detail. The flow chart shows how estimated values SNR (i) of the corresponding signal / noise power ratio are formed from the sampled values x (i) of the speech signal x by a computer program. In an initialization block 33, a counter variable Z is set to 0 and a variable P Mmin is set to a value P max at the beginning of the program described by FIG. P max is chosen so large that the smoothed power values P x, s (i) are always smaller than P max . P max can, for example, be set to the maximum representable numerical value of a computer used to implement the program. A new sample value x (i) is read in in block 34. In block 35, a counter variable Z is increased by the value 1, after which a new smoothed power value P x, s (i) is formed in block 36. It results from the fact that initially by

P x (i) = P x (i-1) + x² (i) - x² (iN) (1)
Figure imgb0015


a short-term power value P x (i) and then through

P x, p (i) = α * P x, p (i-1) + (1-α) * P x (i) (2)
Figure imgb0016


a new smoothed power value is formed. A short-term power value P x (i) of a group of N successive sample values x (i) is determined using formula (1). N here is 128, for example. The value α from equation (2) is between 0.95 and 0.98. The determination of smoothed power values P x, s (i) can also only be carried out using equation (2), in which case however the value α should be increased approximately to the value 0.99 and P x (i) by x² (i) is replace.

Durch eine Verzweigung 37 wird danach abgefragt, ob der gerade ermittelte geglättete Leistungswert Px,s(i) kleiner als PMmin ist. Wird diese Frage bejaht, d.h. Px,s(i) ist kleiner als PMmin, wird durch Block 38 PMmin auf den Wert von Px,s(i) gesetzt. Falls die Frage von Verzweigung 37 verneint wird, wird Block 38 übersprungen. Damit steht in PMmin nach M Programmzyklen das Minimum von M geglätteten Leistungswerten Px,s. Danach erfolgt mit der Verzweigung 39 die Abfrage, ob die Zählervariable Z einen Wert größer oder gleich einem Wert M hat. Es wird auf diese Weise festgestellt, ob schon M geglättete Leistungswerte abgearbeitet sind.A branch 37 then queries whether the smoothed power value P x, s (i) that has just been determined is less than P Mmin . If this question is answered in the affirmative, ie P x, s (i) is less than P Mmin , block 38 sets P Mmin to the value of P x, s (i). If the question of branch 37 is answered in the negative, block 38 is skipped. This means that the minimum of M smoothed power values P x, s is in P Mmin after M program cycles . Then the branch 39 is used to query whether the counter variable Z has a value greater than or equal to a value M. In this way it is determined whether M smoothed power values have already been processed.

Wird die Frage von Verzweigung 39 verneint, d.h. es sind noch nicht M geglättete Leistungswerte abgearbeitet, wird das Programm mit Block 40 fortgesetzt. Dort wird ein vorläufiger Schätzwert Pn(i) der Rauschsignalleistung des Sprachsignals x durch

P n (i) = min {P x,s (i), P n (i)}   (3)

Figure imgb0017


bestimmt. Diese Operation stellt sicher, daß der vorläufige Schätzwert Pn(i) nicht größer als der aktuelle geglättete Leistungswert Px,s(i) sein kann. Danach wird mit Block 41 nach der Formel

SNR(i) = [P x,s (i) - min{c*P n (i), P x,s (i)}] / [c*P n (i)]   (4)
Figure imgb0018


ein aktueller Schätzwert SNR(i) des Signal-/Rauschleistungsverhältnisses des Sprachsignals x(i) ermittelt. Im Normalfall dient das Produkt c*Pn(i) zur Abschätzung der aktuellen Leistung des Rauschsignalanteils, und die Differenz P x,s (i)-c*P n (i)
Figure imgb0019
dient zur Abschätzung der aktuellen Leistung des Sprachsignalanteils des Sprachsignals x(i). Die aktuelle Leistung des Sprachsignals wird durch den geglätteten Leistungswert Px,s(i) geschätzt. Die Gewichtung mit einem Skalierungsfaktor c verhindert, daß durch Pn(i) die Rauschsignalleistung mit einem zu kleinen Wert abgeschätzt wird. Der Skalierungsfaktor c liegt typisch im Bereich von 1,3 bis 2. Durch die Minimumbildung in Block 41 bzw. Gleichung (4) wird sichergestellt, daß das nicht logarithmierte Signal-/ Rauschleistungsverhältnis SNR(i) auch dann positiv ist, wenn im Ausnahmefall c*Pn(i) größer als Px,s(i) ist. Dann wird die Leistung des Rauschsignalanteils des Sprachsignals gleich der durch Px,s(i) geschätzten Leistung des Sprachsignals gesetzt. Die durch Px,s(i)-Px,s(i) geschätzte Leistung des Sprachsignalanteils des Sprachsignals ist dann wie auch das nicht logarithmische Signal-/ Rauschleistungsverhältnis gleich Null. Das Programm wird nach der Berechnung des Schätzwertes SNR(i) mit dem Einlesen eines neuen Sprachsignalabtastwertes x(i) durch Block 34 fortgesetzt.If the question of branch 39 is answered in the negative, ie M smoothed power values have not yet been processed, the program is continued with block 40. There, a preliminary estimate P n (i) of the noise signal power of the speech signal x is obtained

P n (i) = min {P x, p (i), P n (i)} (3)
Figure imgb0017


certainly. This operation ensures that the preliminary estimate P n (i) is not greater than the current smoothed one Power value P x, s (i) can be. Then with block 41 according to the formula

SNR (i) = [P x, p (i) - min {c * P n (i), P x, p (i)}] / [c * P n (i)] (4)
Figure imgb0018


a current estimate SNR (i) of the signal / noise power ratio of the speech signal x (i) is determined. In the normal case, the product c * P n (i) is used to estimate the current power of the noise signal component, and the difference P x, p (i) -c * P n (i)
Figure imgb0019
is used to estimate the current power of the speech signal component of the speech signal x (i). The current power of the speech signal is estimated by the smoothed power value P x, s (i). The weighting with a scaling factor c prevents P n (i) from estimating the noise signal power with a value that is too small. The scaling factor c is typically in the range from 1.3 to 2. The minimum formation in block 41 or equation (4) ensures that the non-logarithmic signal / noise power ratio SNR (i) is also positive if in exceptional cases c * P n (i) is greater than P x, s (i). Then the power of the noise signal component of the voice signal is set equal to the power of the voice signal estimated by P x, s (i). The power of the speech signal component of the speech signal estimated by P x, s (i) -P x, s (i) is then equal to zero, as is the non-logarithmic signal / noise power ratio. After the calculation of the estimated value SNR (i), the program continues with the reading in of a new speech signal sample value x (i) by block 34.

Wird die Abfrage von Verzweigung 39 bejaht, d.h. es sind M geglättete Abtastwerte Px,s(i) abgearbeitet, werden in Block 42 durch

Figure imgb0020
Figure imgb0021

die Komponenten eines Vektors minvec der Dimension W aktualisiert. Danach wird durch Verzweigung 43 abgefragt, ob die Komponenten minvec₁ bis minvecW mit ansteigendem Vektorindex ansteigen, d.h. ob gilt:

minvec j+1 > minvec j für 1 ≦ j ≦ W-1   (6)
Figure imgb0022


Wird die Abfrage von Verzweigung 43 verneint, d.h. die zuletzt ermittelten in den Komponenten des Vektors minvec stehenden zuletzt ermittelten W Minima steigen nicht monoton an, wird durch Block 44 nach

P n (i) = min{minvec W , minvec W-1 , ... , minvec₁}   (7)
Figure imgb0023


der vorläufige Schätzwert Pn(i) der Rauschsignalleistung aus den Minima der Komponenten des Vektors minvec, d.h aus dem Minimum der letzten L=W*M
Figure imgb0024
aufeinanderfolgenden geglätteten Leistungswerte Px,s(i), bestimmt. Bei einer Bejahung der durch Verzweigung 43 gestellten Frage, d.h. bei einem monotonen Ansteigen der zuletzt ermittelten in den Komponenten des Vektors minvec stehenden W Minima wird in Block 45 Pn(i) gleich PMmin gesetzt, so daß eine Anpassung der Abschätzung des Rauschsignalanteils beschleunigt erfolgt, da Pn(i) an dem Minimum des letzten (M<L) Werte bestimmt wird. Danach wird in Block 46 die Zählervariable Z wieder auf 0 gesetzt und PMmin erhält erneut den Wert Pmax.If the query of branch 39 is answered in the affirmative, ie M smoothed sample values P x, s (i) have been processed, in block 42 by
Figure imgb0020
Figure imgb0021

updated the components of a vector minvec of dimension W. Then it is queried by branch 43 whether the components minvec 1 to minvec W increase with increasing vector index, ie whether:

minvec j + 1 > minvec j for 1 ≦ j ≦ W-1 (6)
Figure imgb0022


If the query of branch 43 is negated, ie the last W minima determined in the components of the vector minvec do not rise monotonously, block 44 follows

P n (i) = min {minvec W , minvec W-1 , ..., minvec₁} (7)
Figure imgb0023


the preliminary estimate P n (i) of the noise signal power from the minima of the components of the vector minvec, ie from the minimum of the last L = W * M
Figure imgb0024
successive smoothed power values P x, s (i). If the question posed by branch 43 is answered in the affirmative, ie if the W minima found last in the components of the vector minvec increases monotonously, P n (i) is set equal to P Mmin in block 45, so that an adaptation of the estimation of the noise signal component is accelerated takes place since P n (i) is determined at the minimum of the last (M <L) values. Then in block 46 the counter variable Z is reset to 0 and P Mmin again receives the value P max .

Durch das beschriebene Programm werden jeweils M aufeinanderfolgende geglättete Px,s(i) Abtastwerte x(i) des Sprachsignals x zu einer Untergruppe zusammengefaßt. Innerhalb einer solchen Untergruppe wird durch die mit Verzweigung 37 und Block 38 durchgeführten Operationen das Minimum der geglätteten Leistungswerte Px,s(i) ermittelt. Die zuletzt ermittelten W Minima werden in den Komponenten des Vektors minvec abgespeichert. Sind die letzten W Minima nicht monoton ansteigend (siehe Verzweigung 43), so wird nach Block 44 ein vorläufiger Schätzwert Pn(i) der Leistung des Rauschsignalanteils aus dem Minimum der Minima der letzten W Untergruppen, d.h. aus dem Minimum einer Gruppe, bestimmt. Es werden jeweils zur Bildung einer Gruppe mit L=W*M

Figure imgb0025
aufeinanderfolgenden geglätteten Leistungswerten Px,s(i) W aufeinanderfolgende Untergruppen zusammengefaßt. Die Gruppen mit jeweils L Werten folgen lückenlos aufeinander und überlappen sich jeweils mit L-M gelätteten Leistungen Px,s(i).Through the described program, M successive smoothed P x, s (i) samples x (i) of the speech signal x are combined into a subgroup. Within In such a subgroup, the minimum of the smoothed power values P x, s (i) is determined by the operations carried out with branch 37 and block 38. The W minima determined last are stored in the components of the vector minvec. If the last W minima are not monotonically increasing (see branch 43), then a preliminary estimate P n (i) of the power of the noise signal component is determined from the minimum of the minima of the last W subgroups, ie from the minimum of a group, according to block 44. They are each used to form a group L = W * M
Figure imgb0025
successive smoothed power values P x, s (i) W summarized successive sub-groups. The groups with L values follow each other without gaps and overlap with powers P x, s (i) smoothed with LM.

Für den Fall, daß die Minima von W aufeinanderfolgenden Untergruppen monoton ansteigen (siehe Verzweigung 43), wird durch Block 45 zur Abschätzung des aktuellen Schätzwertes Pn(i) der Leistung des Rauschsignalanteils jeweils das Minimum der letzten Untergruppe mit M geglätteten Leistungswerten Px,s(i) verwendet. Die Zeitspanne, mit der monoton ansteigende geglättete Leistungswerten Px,s(i) auch eine Änderung der Schätzwerte SNR(i) bewirken, wird damit verkürzt.In the event that the minima of W successive subgroups increase monotonously (see branch 43), the minimum of the last subgroup with M smoothed power values P x is determined by block 45 to estimate the current estimated value P n (i) of the power of the noise signal component . s (i) used. This shortens the time period with which monotonically increasing smoothed power values P x, s (i) also cause a change in the estimated values SNR (i).

Fig. 8 verdeutlicht, wie die geglätteten Leistungswerte Px,s in Gruppen und Untergruppen zusammengefaßt werden. Es werden jeweils M geglättete Leistungswerte Px,s(i), die jeweils zu Abtastzeitpunkten i vorliegen, zu einer Untergruppe zusammengefaßt. Die Untergruppen grenzen aneinander. Für jede Untergruppe wird das Minimum der geglätteten Leistungswerte Px,s(i) bestimmt. Jeweils W Untergruppenminima werden in dem Vektor minvec abgespeichert. In der Regel, d.h. bei nicht monoton ansteigenden W Untergruppen Minima, werden W Untergruppen zu einer Gruppe mit L = W*M

Figure imgb0026
geglätteten Leistungswerten Px,s(i) zusammengefaßt. Nach jeweils M geglätteten Leistungen Px,s(i) wird aus dem Minimum der letzten W Untergruppenminima bzw. der letzten L geglätteten Leistungswerte Px,s(i) der Wert Pn(i) bestimmt, der zur Abschätzung der Rauschsignalleistung dient. In Fig. 8 sind acht Gruppen mit jeweils L Abtastwerten x(i) dargestellt, die jeweils W = 4 Untergruppen mit M geglätteten Leistungswerten Px,s(i) enthalten. Die acht Gruppen überlappen sich teilweise. So enthalten zwei aufeinanderfolgende Gruppen jeweils L-M gleiche geglättete Leistungswerte Px,s(i). Auf diese Weise wird ein guter Kompromiß zwischen dem erforderlichen Rechenaufwand und der jeweiligen Verzögerungszeit erreicht, mit der eine Aktualisierung eines Schätzwertes Pn(i) der Rauschsignalleistung zur Aktualisierung eines Schätzwertes SNR(i) des Signal/ Rauschleistungsverhältnisses erfolgt. Eine Realisierung mit aneinandergrenzenden, d.h. sich nicht überlappenden Gruppen ist auch denkbar. Allerdings ist dann bei verringertem Rechenaufwand die Zeitspanne zwischen zwei Schätzwerten SNR(i) vergrößert, so daß die Reaktionszeit auf sich ändernde SNR des Sprachsignals x(i) vergrößert ist.8 illustrates how the smoothed power values P x, s are combined in groups and subgroups. In each case, M smoothed power values P x, s (i), which are present at sampling times i, are combined into a subgroup. The subgroups are contiguous. The minimum of the smoothed power values P x, s (i) is determined for each subgroup. W subgroup minima are stored in the vector minvec. As a rule, ie with non-monotonically increasing W subgroups Minima, W subgroups become a group with L = W * M
Figure imgb0026
smoothed power values P x, s (i) summarized. After M smoothed powers P x, s (i), the value P n (i) is determined from the minimum of the last W subgroup minima or the last L smoothed power values P x, s (i), which is used to estimate the noise signal power. 8 shows eight groups each with L samples x (i), each of which contains W = 4 subgroups with M smoothed power values P x, s (i). The eight groups partially overlap. Two successive groups each contain the same smoothed power values P x, s (i). In this way, a good compromise is achieved between the required computational effort and the respective delay time with which an update of an estimated value P n (i) of the noise signal power takes place in order to update an estimated value SNR (i) of the signal / noise power ratio. Implementation with adjacent, ie non-overlapping groups is also conceivable. However, the time span between two estimated values SNR (i) is then increased with a reduced computing effort, so that the reaction time to changing SNR of the speech signal x (i) is increased.

Die beschriebene Sprachverarbeitungsvorrichtung weist damit eine Schätzvorrichtung auf, die zum fortlaufenden Bilden von Schätzwerten SNR(i) des Signal-/ Rauschleistungsverhältnisses von verrauschten Sprachsignalen x(i) geeignet ist. Insbesondere sind keine Sprachpausen zur Abschätzung der Rauschsignalleistung erforderlich. Die beschriebene Schätzvorrichtung nutzt den besonderen Zeitverlauf von geglätteten Leistungswerten des Sprachsignals x(i) aus, der durch Spitzen und dazwischenliegende Bereiche mit kleineren geglätteten Leistungswerten Px,s(i) gekennzeichnet ist, deren zeitliche Ausdehnung von der jeweiligen Sprachquelle, d.h. dem jeweiligen Sprecher, abhängt. Dabei werden die Bereiche zwischen den Spitzen zur Abschätzung der Leistung des Rauschsignalanteils verwendet. Die Gruppen mit jeweils L geglätteten Leistungswerten Px,s(i) müssen lückenlos aufeinanderfolgen, d.h. sie müssen entweder aneinandergrenzen oder sich überlappen. Weiterhin muß sichergestellt sein, daß mindestens ein Wert eines zwischen zwei Spitzen liegenden Bereichs mit kleineren geglätteten Leistungswerten Px,s(i) von jeder Gruppe erfaßbar ist, d.h. jede Gruppe muß soviele geglättete Leistungswerte Px,s(i) enthalten, daß mindestens alle zu einer beliebigen Spitze gehörenden Werte erfaßbar sind. Da die zeitlich ausgedehntesten Spitzen jeweils durch die zeitlich ausgedehntesten Phoneme eines Sprachsignals, d.h. die Vokale, abschätzbar sind, kann daraus die die Gruppengröße beschreibende Zahl L abgeleitet werden. Für eine Abtastrate des Sprachsignals von 8 kHz liegt ein sinnvoller Wert von L im Bereich zwischen 3000 und 8000. Ein vorteilhafter Wert für W ist 4. Bei einer solchen Dimensionierung ergibt sich ein guter Kompromiß zwischen Rechenaufwand und Reaktionsschnelligkeit des Funktionsblockes 7.The described speech processing device thus has an estimation device which is suitable for the continuous formation of estimated values SNR (i) of the signal / noise power ratio of noisy speech signals x (i). In particular, no speech pauses are required to estimate the noise signal power. The estimation device described uses the special time profile of smoothed power values of the speech signal x (i), which is characterized by peaks and intermediate areas with smaller smoothed power values P x, s (i), their temporal expansion from the respective speech source, ie the respective speaker , depends. The areas between the peaks are used to estimate the power of the noise signal component. The groups with L smoothed power values P x, s (i) must follow one another without gaps, ie they must either adjoin or overlap. Furthermore, it must be ensured that at least one value of an area lying between two peaks with smaller smoothed power values P x, s (i) can be recorded by each group, ie each group must contain so many smoothed power values P x, s (i) that at least all values belonging to any peak can be recorded. Since the most extended peaks can be estimated by the most extended phonemes of a speech signal, ie the vowels, the number L describing the group size can be derived from this. For a sampling rate of the speech signal of 8 kHz, a useful value of L is in the range between 3000 and 8000. An advantageous value for W is 4. With such a dimensioning, there is a good compromise between the computational effort and the speed of reaction of the function block 7.

In Fig. 9 ist eine Verwendung der Sprachverarbeitungsvorrichtung aus Fig. 3 in einem Mobilfunkendgerät 50 dargestellt. Die Sprachverarbeitungsmittel 20 bis 26 sind in einem Funktionsblock 51 zusammengefaßt, der aus den von den Mikrophonen M1, M2 und M3 erzeugten Mikrophon- bzw. Sprachsignalen die Summensignalwerte X(i) bildet. Ein die Summensignalwerte X(i) verarbeitender Funktionsblock 52 faßt alle übrigen Mittel des Mobilfunkendgerätes 52 zum Empfang, Verarbeiten und Senden von Signalen zusammen, welche zur Kommunikation mit einer nicht dargestellten Basisstation dienen, wobei das Senden und Empfangen von Signalen über eine an den Funktionsblock 52 gekoppelte Antenne 54 erfolgt. Weiterhin ist ein mit dem Funktionsblock 52 gekoppelter Lautsprecher 53 vorgesehen. Die akustische Kommunikation eines Benutzers (Sprecher, Hörer) mit dem Mobilfunkendgerät 50 erfolgt über die Mikrophone M1 bis M3 und den Lautsprecher 53, die Teile eines in das Mobilfunkendgerät 50 integrierte Freisprecheinrichtung sind. Die Anwendung eines solchen Mobilfunkendgerätes 50 ist insbesondere in Kraftfahrzeugen von Vorteil, da dort das Freisprechen über das Mobilfunkendgerät insbesondere durch Motor- oder Fahrgeräusche (Rauschen) gestört ist.FIG. 9 shows a use of the voice processing device from FIG. 3 in a mobile radio terminal 50. The speech processing means 20 to 26 are combined in a function block 51 which forms the sum signal values X (i) from the microphone or speech signals generated by the microphones M1, M2 and M3. A function block 52 processing the sum signal values X (i) combines all the other means of the mobile radio terminal 52 for receiving, processing and transmitting signals which are used for communication with a base station (not shown), the transmission and reception of signals via a to the function block 52 coupled antenna 54 takes place. Furthermore, one with the function block 52 coupled speakers 53 are provided. A user (speaker, listener) communicates acoustically with the mobile radio terminal 50 via the microphones M1 to M3 and the loudspeaker 53, which are parts of a hands-free device integrated in the mobile radio terminal 50. The use of such a mobile radio terminal 50 is particularly advantageous in motor vehicles, since there the hands-free communication via the mobile radio terminal is particularly disturbed by engine or driving noise (noise).

Claims (6)

Mobilfunkendgerät (50) mit einer Sprachverarbeitungsvorrichtung zur Verarbeitung von aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignalen (x(i)) mit einer Schätzvorrichtung (3) zum fortlaufenden Bilden von Schätzwerten (SNR(i)) des Signal-/ Rauschleistungsverhältnisses der Sprachsignale (x(i)) durch Mittel zur - Ermittlung der Leistungswerte (Px(i)) von Abtastwerten der Sprachsignale (x(i)) - Glättung der Leistungswerte (Px(i)) - Ermittlung jeweils des Minimums einer Gruppe von L aufeinanderfolgenden geglätteten Leistungswerten (Px,s(i)), wobei die Gruppen lückenlos aufeinanderfolgen und mindestens so viele geglättete Leistungswerte (Px,s(i)) enthalten, daß jeweils alle einem beliebigen Phonem des Sprachsignals zugehörigen geglätteten Leistungswerte (Px,s(i)) von einer einzigen Gruppe erfaßbar sind, - Bildung eines aktuellen Schätzwertes (SNR(i)) des Signal-/ Rauschleistungsverhältnisses aus dem aktuellen geglätteten Leistungswert (Px,s(i)) und dem zuletzt ermittelten Minimum. Mobile radio terminal (50) with a speech processing device for processing speech signals (x (i)) consisting of noise and speech signal components, with an estimation device (3) for the continuous formation of estimated values (SNR (i)) of the signal / noise power ratio of the speech signals (x ( i)) by means of - Determination of the power values (P x (i)) of samples of the speech signals (x (i)) - smoothing the power values (P x (i)) - Determination of the minimum of a group of L successive smoothed power values (P x, s (i)), wherein the groups follow one another without gaps and contain at least as many smoothed power values (P x, s (i)) that all each any phoneme the smoothed power values (P x, s (i)) associated with the speech signal can be detected by a single group, - Formation of a current estimate (SNR (i)) of the signal / noise power ratio from the current smoothed power value (P x, s (i)) and the last determined minimum. Mobilfunkendgerät nach Anspruch 1,
dadurch gekennzeichnet,
daß Mittel zur Bildung von aneinandergrenzenden Untergruppen mit jeweils M = L/W
Figure imgb0027
aufeinanderfolgenden geglätteten Leistungswerten und zur Ermittlung des Minimums der Minima von jeweils W aufeinanderfolgenden Untergruppen zur Ermittlung des Minimums der zugehörigen Gruppe vorgesehen sind, wobei W eine natürliche Zahl darstellt und W Untergruppen eine Gruppe bilden.
Mobile radio terminal according to claim 1,
characterized by
that means of forming contiguous sub-groups with each M = L / W
Figure imgb0027
successive smoothed power values and for determining the minimum of the minima of each W successive subgroups for determining the minimum of the associated group are provided, where W represents a natural number and W subgroups form a group.
Mobilfunkendgerät nach Anspruch 2,
dadurch gekennzeichnet,
daß Mittel zur Verwendung jeweils des zuletzt ermittelten Minimums einer Untergruppe anstelle des zuletzt ermittelten Minimums einer Gruppe bei einer vorgebbaren Anzahl an monoton ansteigenden Minima von Untergruppen vorgesehen sind, um einen aktuellen Wert (SNR(i)) des Signal-/ Rauschleistungsverhältnisses zu schätzen.
Mobile radio terminal according to claim 2,
characterized by
that means are provided for using the last determined minimum of a subgroup instead of the last determined minimum of a group with a predeterminable number of monotonically increasing minima of subgroups in order to estimate a current value (SNR (i)) of the signal / noise power ratio.
Mobilfunkendgerät nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
daß Mittel zur Verwendung des aktuellen geglätteten Leistungswerts anstelle eines zuletzt ermittelten Minimums einer Gruppe oder Untergruppe zur Schätzung eines aktuellen Wertes des Signal-/ Rauschleistungsverhältnisses für den Fall vorgesehen sind, daß der aktuelle geglättete Leistungswert kleiner als das zuletzt ermittelte Minimum ist.
Mobile radio terminal according to one of claims 1 to 3,
characterized by
that means are provided for using the current smoothed power value instead of a recently determined minimum of a group or subgroup for estimating a current value of the signal / noise power ratio in the event that the current smoothed power value is less than the last determined minimum.
Mobilfunkendgerät nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet,
daß Sprachverarbeitungsmittel zur Verarbeitung der gestörten Sprachsignale (x(i)) in Abhängigkeit von den Schätzwerten des Signal-/ Rauschleistungsverhältnisses vorgesehen sind.
Mobile radio terminal according to one of claims 1 to 4,
characterized by
that speech processing means are provided for processing the disturbed speech signals (x (i)) as a function of the estimated values of the signal / noise power ratio.
Sprachverarbeitungsvorrichtung (1) zur Verarbeitung von aus Rausch- und Sprachsignalanteilen bestehenden Sprachsignalen (x(i)) mit einer Schätzvorrichtung (3) zum fortlaufenden Bilden von Schätzwerten (SNR(i)) des Signal-/ Rauschleistungsverhältnisses der Sprachsignale (x(i)) durch Mittel zur - Ermittlung der Leistungswerte (Px(i)) von Abtastwerten der Sprachsignale (x(i)) - Glättung der Leistungswerte (Px(i)) - Ermittlung jeweils des Minimums einer Gruppe von L aufeinanderfolgenden geglätteten Leistungswerten (Px,s(i)), wobei die Gruppen lückenlos aufeinanderfolgen und mindestens so viele geglättete Leistungswerte (Px,s(i)) enthalten, daß jeweils alle einem beliebigen Phonem des Sprachsignals zugehörigen geglätteten Leistungswerte (Px,s(i)) von einer einzigen Gruppe erfaßbar sind, - Bildung eines aktuellen Schätzwertes (SNR(i)) des Signal-/ Rauschleistungsverhältnisses aus dem aktuellen geglätteten Leistungswert (Px,s(i)) und dem zuletzt ermittelten Minimum. Speech processing device (1) for processing speech signals (x (i)) consisting of noise and speech signal components with an estimation device (3) for continuously forming estimates (SNR (i)) of the signal / noise power ratio of the speech signals (x (i)) by means of - Determination of the power values (P x (i)) of samples of the speech signals (x (i)) - smoothing the power values (P x (i)) - Determination of the minimum of a group of L successive smoothed power values (P x, s (i)), wherein the groups follow one another without gaps and contain at least as many smoothed power values (P x, s (i)) that all each any phoneme the smoothed power values (P x, s (i)) associated with the speech signal can be detected by a single group, - Formation of a current estimate (SNR (i)) of the signal / noise power ratio from the current smoothed power value (P x, s (i)) and the last determined minimum.
EP19940202647 1993-09-21 1994-09-14 Terminal for mobile radio Expired - Lifetime EP0644527B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP19940202647 EP0644527B1 (en) 1993-09-21 1994-09-14 Terminal for mobile radio

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP93115202 1993-09-21
EP93115202 1993-09-21
DE4421853 1994-06-22
DE4421853A DE4421853A1 (en) 1994-06-22 1994-06-22 Mobile terminal
EP19940202647 EP0644527B1 (en) 1993-09-21 1994-09-14 Terminal for mobile radio

Publications (3)

Publication Number Publication Date
EP0644527A2 true EP0644527A2 (en) 1995-03-22
EP0644527A3 EP0644527A3 (en) 1995-08-30
EP0644527B1 EP0644527B1 (en) 2000-05-17

Family

ID=27206507

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19940202647 Expired - Lifetime EP0644527B1 (en) 1993-09-21 1994-09-14 Terminal for mobile radio

Country Status (1)

Country Link
EP (1) EP0644527B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
DE9212439U1 (en) * 1992-09-16 1992-11-26 Gs Systems, Inc., Highland Park, Ill., Us
EP0556992A1 (en) * 1992-02-14 1993-08-25 Nokia Mobile Phones Ltd. Noise attenuation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
EP0556992A1 (en) * 1992-02-14 1993-08-25 Nokia Mobile Phones Ltd. Noise attenuation system
DE9212439U1 (en) * 1992-09-16 1992-11-26 Gs Systems, Inc., Highland Park, Ill., Us

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IBM TECHNICAL DISCLOSURE BULLETIN, Bd. 34, Nr. 9, Februar 1992 NEW YORK, US, Seiten 267-269, ANONYMOUS 'Method of Endpoint Detection.' *

Also Published As

Publication number Publication date
EP0644527B1 (en) 2000-05-17
EP0644527A3 (en) 1995-08-30

Similar Documents

Publication Publication Date Title
DE112009001003B4 (en) Noise cancellation system with two microphones
EP0948237B1 (en) Method for noise suppression in a microphone signal
DE60120949T2 (en) A HEARING PROSTHESIS WITH AUTOMATIC HEARING CLASSIFICATION
EP0668007B1 (en) Mobile radiotelephone set with handsfree device
EP0290952B1 (en) Speech control circuitry for a telecommunication terminal
EP1388147B1 (en) Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance
EP0747880B1 (en) System for speech recognition
DE102006027673A1 (en) Signal isolator, method for determining output signals based on microphone signals and computer program
EP1143416A2 (en) Time domain noise reduction
EP1251493A2 (en) Method for noise reduction with self-adjusting spurious frequency
DE102008039330A1 (en) Apparatus and method for calculating filter coefficients for echo cancellation
EP0614304A1 (en) Process for improvement of acoustic feedback suppression in electro-acoustic devices
EP1456839B1 (en) Method and device for the suppression of periodic interference signals
EP1189419B1 (en) Method and device for eliminating the loudspeaker interference on microphone signals
EP1155561B1 (en) Method and device for suppressing noise in telephone devices
WO1999041898A1 (en) Method for improving acoustic noise attenuation in hand-free devices
EP0689191B1 (en) Speech processing apparatus and mobile transceiver
EP0644527B1 (en) Terminal for mobile radio
EP0615226B1 (en) Method for noise reduction in disturbed voice channels
EP0592787A1 (en) Procedure for improvement of acoustic feedback suppression of electro-acoustic devices
EP1351550A1 (en) Method for adapting a signal amplification in a hearing aid and a hearing aid
DE10150519B4 (en) Method and arrangement for speech processing
EP0326672A1 (en) Method and arrangement for the transmission of digital signals
EP1282297B1 (en) Method and apparatus for echo and noise suppression
EP0909029B1 (en) Filter coefficients adaptation method and adaptive digital filter device

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB IT

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE FR GB IT

17P Request for examination filed

Effective date: 19960229

17Q First examination report despatched

Effective date: 19981119

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 21/02 A

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT

REF Corresponds to:

Ref document number: 59409348

Country of ref document: DE

Date of ref document: 20000621

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20000616

ITF It: translation for a ep patent filed

Owner name: ING. C. GREGORJ S.P.A.

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20040927

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20040929

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20041115

Year of fee payment: 11

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20050914

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050914

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060401

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20050914

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060531

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20060531