구글이 거의 매주 스타트업들을 압살하고 있네요 ㅋ
이 글은 Google Blog의 "Improved Gemini audio models for powerful voice interactions"를 번역한 글입니다.

이번 주 초에 Gemini 2.5 Pro/Flash TTS 모델 업그레이드로 오디오 생성에 대한 제어력을 높였는데요. 하지만 표현력 있는 음성을 생성하는 건 대화의 한쪽 면일 뿐이죠.
오늘, 라이브 음성 에이전트를 위한 업데이트된 Gemini 2.5 Flash Native Audio를 공개합니다. 이번 업데이트로 복잡한 워크플로우 처리, 사용자 지시 탐색, 자연스러운 대화 유지 능력이 개선됐습니다.
Gemini 2.5 Flash Native Audio는 이제 Google AI Studio, Vertex AI를 포함한 구글 제품 전반에서 사용 가능하고, Gemini Live와 Search Live에도 롤아웃이 시작됐어요. Search Live에 네이티브 오디오의 자연스러움이 적용되는 건 이번이 처음입니다.
이제 Gemini와 더 효과적으로 실시간 브레인스토밍을 하거나, Search Live에서 실시간 도움을 받거나, 차세대 엔터프라이즈급 고객 서비스 에이전트를 구축할 수 있습니다.
유용한 에이전트를 구동하는 것 외에도, 네이티브 오디오는 글로벌 커뮤니케이션을 위한 새로운 가능성을 열어줍니다. 이어폰용 스트리밍 음성-음성 번역을 가능하게 하는 실시간 음성 번역 기능을 소개합니다. 화자의 억양, 속도, 음높이를 그대로 보존하죠. 이 베타 경험은 오늘부터 Google Translate 앱에서 롤아웃됩니다.
다양한 서피스와 제품에서 폭넓은 사용 사례를 지원하기 위해, Gemini 2.5 Native Audio를 세 가지 핵심 영역에서 개선했습니다.
외부 함수를 트리거할 때 모델의 신뢰성을 개선했습니다. 이제 대화 중 실시간 정보를 가져와야 할 때를 더 정확하게 식별하고, 그 데이터를 흐름을 끊지 않고 자연스럽게 오디오 응답에 반영할 수 있어요.
다양한 제약 조건이 있는 다단계 함수 호출을 평가하는 ComplexFuncBench Audio에서 Gemini 2.5 Native Audio가 **71.5%**로 업계 선두를 기록했습니다.
복잡한 지시사항을 처리하는 능력이 향상되어 콘텐츠 완성도에 대한 사용자 만족도가 높아졌습니다. 개발자 지시 준수율이 84%에서 90%로 상승해 더 안정적인 출력을 제공합니다.
멀티턴 대화 품질에서 상당한 개선을 이뤘습니다. Gemini 2.5 Flash Native Audio가 이전 턴의 맥락을 더 효과적으로 가져올 수 있게 되어 더 일관성 있는 대화가 가능해졌어요.
구글 클라우드 고객들은 이미 Gemini의 네이티브 오디오 기능을 활용해 모기지 처리부터 고객 통화까지 실제 비즈니스 성과를 내고 있습니다.
"사용자들이 Sidekick을 사용한 지 1분 안에 AI와 대화하고 있다는 걸 잊어버리는 경우가 많아요. 어떤 경우에는 긴 채팅 후에 봇에게 감사 인사를 하기도 합니다... Gemini 2.5 Flash Native Audio를 통한 새로운 Live API AI 기능이 우리 상인들의 성공을 돕고 있습니다." — David Wurtz, VP of Product, Shopify
"Gemini 2.5 Flash Native Audio 모델을 통합함으로써... 2025년 5월 Mia 런칭 이후 역량을 크게 향상시켰습니다. 이 강력한 조합으로 브로커 파트너들에게 14,000건 이상의 대출을 생성할 수 있었습니다." — Jason Bressler, CTO, United Wholesale Mortgage (UWM)
"Vertex AI를 통해 Gemini 2.5 Flash Native Audio 모델과 작업하면서 Newo.ai AI 리셉셔니스트가 비교할 수 없는 대화 지능을 달성할 수 있게 됐습니다. 시끄러운 환경에서도 주요 화자를 식별하고, 대화 중간에 언어를 전환하고, 놀라울 정도로 자연스럽고 감정적으로 표현력 있게 들립니다." — David Yang, Co-founder, Newo.ai

Gemini가 이제 연속 청취와 양방향 대화를 모두 처리할 수 있도록 설계된 새로운 실시간 음성-음성 번역 기능을 네이티브로 지원합니다.
연속 청취에서는 Gemini가 여러 언어의 음성을 하나의 타겟 언어로 자동 번역합니다. 이어폰을 끼면 주변 세계가 내 언어로 들리는 거죠.
양방향 대화에서는 Gemini의 실시간 음성 번역이 두 언어 간 실시간 번역을 처리하며, 누가 말하는지에 따라 출력 언어를 자동으로 전환합니다. 예를 들어 영어 사용자가 힌디어 사용자와 대화하고 싶다면, 이어폰으로 실시간 영어 번역을 듣고, 말이 끝나면 폰이 힌디어를 방송하는 식이에요.
오늘부터 Google Translate 앱의 새로운 베타 경험에서 사용해볼 수 있어요. 이어폰을 기기에 연결하고 "Live translate"를 탭하면 이어폰에서 실시간 번역을 들을 수 있습니다. 이 경험은 미국, 멕시코, 인도의 모든 Android 기기에 롤아웃되고 있으며, iOS와 추가 지역 지원도 곧 예정되어 있습니다. 피드백을 바탕으로 이 경험을 계속 개선하고 2026년에 Gemini API를 포함한 더 많은 구글 제품에 적용할 예정입니다.
오늘부터 Gemini 2.5 Flash Native Audio로 음성 에이전트 구축을 시작할 수 있습니다. Vertex AI에서 정식 출시(GA)되었고 Gemini API에서는 프리뷰로 제공됩니다. Google AI Studio에서 바로 사용해보세요.
Gemini 2.5 Flash 및 2.5 Pro TTS 모델도 Google AI Studio의 Gemini API를 통해 사용 가능합니다.
자세한 내용은 원문을 참고해주세요!
원문: Google Blog - Improved Gemini audio models for powerful voice interactions
댓글을 작성하려면 로그인이 필요합니다.
구글이 거의 매주 스타트업들을 압살하고 있네요 ㅋ
이 글은 Google Blog의 "Improved Gemini audio models for powerful voice interactions"를 번역한 글입니다.

이번 주 초에 Gemini 2.5 Pro/Flash TTS 모델 업그레이드로 오디오 생성에 대한 제어력을 높였는데요. 하지만 표현력 있는 음성을 생성하는 건 대화의 한쪽 면일 뿐이죠.
오늘, 라이브 음성 에이전트를 위한 업데이트된 Gemini 2.5 Flash Native Audio를 공개합니다. 이번 업데이트로 복잡한 워크플로우 처리, 사용자 지시 탐색, 자연스러운 대화 유지 능력이 개선됐습니다.
Gemini 2.5 Flash Native Audio는 이제 Google AI Studio, Vertex AI를 포함한 구글 제품 전반에서 사용 가능하고, Gemini Live와 Search Live에도 롤아웃이 시작됐어요. Search Live에 네이티브 오디오의 자연스러움이 적용되는 건 이번이 처음입니다.
이제 Gemini와 더 효과적으로 실시간 브레인스토밍을 하거나, Search Live에서 실시간 도움을 받거나, 차세대 엔터프라이즈급 고객 서비스 에이전트를 구축할 수 있습니다.
유용한 에이전트를 구동하는 것 외에도, 네이티브 오디오는 글로벌 커뮤니케이션을 위한 새로운 가능성을 열어줍니다. 이어폰용 스트리밍 음성-음성 번역을 가능하게 하는 실시간 음성 번역 기능을 소개합니다. 화자의 억양, 속도, 음높이를 그대로 보존하죠. 이 베타 경험은 오늘부터 Google Translate 앱에서 롤아웃됩니다.
다양한 서피스와 제품에서 폭넓은 사용 사례를 지원하기 위해, Gemini 2.5 Native Audio를 세 가지 핵심 영역에서 개선했습니다.
외부 함수를 트리거할 때 모델의 신뢰성을 개선했습니다. 이제 대화 중 실시간 정보를 가져와야 할 때를 더 정확하게 식별하고, 그 데이터를 흐름을 끊지 않고 자연스럽게 오디오 응답에 반영할 수 있어요.
다양한 제약 조건이 있는 다단계 함수 호출을 평가하는 ComplexFuncBench Audio에서 Gemini 2.5 Native Audio가 **71.5%**로 업계 선두를 기록했습니다.
복잡한 지시사항을 처리하는 능력이 향상되어 콘텐츠 완성도에 대한 사용자 만족도가 높아졌습니다. 개발자 지시 준수율이 84%에서 90%로 상승해 더 안정적인 출력을 제공합니다.
멀티턴 대화 품질에서 상당한 개선을 이뤘습니다. Gemini 2.5 Flash Native Audio가 이전 턴의 맥락을 더 효과적으로 가져올 수 있게 되어 더 일관성 있는 대화가 가능해졌어요.
구글 클라우드 고객들은 이미 Gemini의 네이티브 오디오 기능을 활용해 모기지 처리부터 고객 통화까지 실제 비즈니스 성과를 내고 있습니다.
"사용자들이 Sidekick을 사용한 지 1분 안에 AI와 대화하고 있다는 걸 잊어버리는 경우가 많아요. 어떤 경우에는 긴 채팅 후에 봇에게 감사 인사를 하기도 합니다... Gemini 2.5 Flash Native Audio를 통한 새로운 Live API AI 기능이 우리 상인들의 성공을 돕고 있습니다." — David Wurtz, VP of Product, Shopify
"Gemini 2.5 Flash Native Audio 모델을 통합함으로써... 2025년 5월 Mia 런칭 이후 역량을 크게 향상시켰습니다. 이 강력한 조합으로 브로커 파트너들에게 14,000건 이상의 대출을 생성할 수 있었습니다." — Jason Bressler, CTO, United Wholesale Mortgage (UWM)
"Vertex AI를 통해 Gemini 2.5 Flash Native Audio 모델과 작업하면서 Newo.ai AI 리셉셔니스트가 비교할 수 없는 대화 지능을 달성할 수 있게 됐습니다. 시끄러운 환경에서도 주요 화자를 식별하고, 대화 중간에 언어를 전환하고, 놀라울 정도로 자연스럽고 감정적으로 표현력 있게 들립니다." — David Yang, Co-founder, Newo.ai

Gemini가 이제 연속 청취와 양방향 대화를 모두 처리할 수 있도록 설계된 새로운 실시간 음성-음성 번역 기능을 네이티브로 지원합니다.
연속 청취에서는 Gemini가 여러 언어의 음성을 하나의 타겟 언어로 자동 번역합니다. 이어폰을 끼면 주변 세계가 내 언어로 들리는 거죠.
양방향 대화에서는 Gemini의 실시간 음성 번역이 두 언어 간 실시간 번역을 처리하며, 누가 말하는지에 따라 출력 언어를 자동으로 전환합니다. 예를 들어 영어 사용자가 힌디어 사용자와 대화하고 싶다면, 이어폰으로 실시간 영어 번역을 듣고, 말이 끝나면 폰이 힌디어를 방송하는 식이에요.
오늘부터 Google Translate 앱의 새로운 베타 경험에서 사용해볼 수 있어요. 이어폰을 기기에 연결하고 "Live translate"를 탭하면 이어폰에서 실시간 번역을 들을 수 있습니다. 이 경험은 미국, 멕시코, 인도의 모든 Android 기기에 롤아웃되고 있으며, iOS와 추가 지역 지원도 곧 예정되어 있습니다. 피드백을 바탕으로 이 경험을 계속 개선하고 2026년에 Gemini API를 포함한 더 많은 구글 제품에 적용할 예정입니다.
오늘부터 Gemini 2.5 Flash Native Audio로 음성 에이전트 구축을 시작할 수 있습니다. Vertex AI에서 정식 출시(GA)되었고 Gemini API에서는 프리뷰로 제공됩니다. Google AI Studio에서 바로 사용해보세요.
Gemini 2.5 Flash 및 2.5 Pro TTS 모델도 Google AI Studio의 Gemini API를 통해 사용 가능합니다.
자세한 내용은 원문을 참고해주세요!
원문: Google Blog - Improved Gemini audio models for powerful voice interactions
댓글을 작성하려면 로그인이 필요합니다.