다른 언어로 대화를 나누면서 거의 즉각적으로 보조를 맞춘다고 상상해 보라. 인이어 번역 이어버드는 세 가지 복잡한 프로세스를 단 몇 초 만에 압축하여 이를 가능하게 한다. 첫 번째 단계는 자동 음성 인식(ASR)이다. 아주 작은 마이크가 오디오를 음파 형태(waveform)로 포착한다. 신경 음향 모델이 이를 프레임으로 나누고, 음소(phoneme)를 예측하며, 단어를 조합한다. 현대 시스템은 종종 연속적인 문맥을 가진 트랜스포머 네트워크에 의존하므로, 배경 소음이 방해하더라도 문장을 복구할 수 있다. 다음은 기계 번역, 즉 MT이다. 초기 도구는 문장이 완성될 때까지 기다렸고 종종 속어(slang)나 대명사에서 실수를 했다. 더 새로운 모델은 스트리밍 모드로 번역하며, 토큰이 도착하는 대로 처리하고 화자가 여전히 말하는 동안 목표 언어 출력을 예측한다. 디코더는 빔 검색과 같은 기술로 속도와 정확성의 균형을 맞추며, 문맥은 "은행(bank)"과 같은 애매모호한 단어를 해결하는 데 도움을 준다. 그 결과, 어떤 지연 시간도 자연스럽게 느껴지며, 종종 1초 정도에 머무른다. 마지막으로, 텍스트 음성 변환(TTS)은 번역된 텍스트를 다시 소리로 변환한다. 신경 보코더는 운율(prosody)로 알려진 적절한 리듬과 강세를 가진 자연스러운 음성을 생성한다. 운율이 맞지 않으면, 정확한 번역이라도 퉁명스럽거나 혼란스럽게 들릴 수 있으므로, 최신 모델은 각 언어의 일반적인 음조와 휴지 패턴을 학습한다. 많은 이어버드는 이제 엣지 컴퓨팅으로 알려진 설정으로 실행되는데, 이는 데이터를 클라우드로 보내지 않고 기기 내에서 처리하는 방식이다. 그것은 지연을 줄이고, 원본 오디오를 휴대폰에 보관하여 사용자 프라이버시를 보호하며, 약한 신호에서도 대화를 원활하게 유지한다. 하지만 풍자(sarcasm), 빠른 코드 전환, 전문 용어(technical jargon), 그리고 문화적 참조는 여전히 번역 시스템을 실패하게 한다. 따라서 설계자들은 실시간 녹취록, 빠른 재생, 그리고 번역이 활성화되었을 때의 명확한 신호와 같은 기능을 추가하고 있다.