Construction, IT, Science, Economy etc

구글, 동영상 생성 '프롬프트 엔지니어링' 에이전트 Engineering AI Prompts: Google’s Framework for Benchmarking and Automation ​




Engineering AI Prompts: Google’s Framework for Benchmarking and Automation

“A bad prompt leads to bugs and what I call prompt churn, where we’re just aimlessly changing prompts,” stated Martin Omander, a Cloud Developer Advocate at Google, in a recent tutorial on “How to benchmark your AI prompts.” This candid observation highlights a pervasive challenge in the burgeoning field of generative AI: the often-unstructured and iterative nature of prompt engineering. Omander’s presentation, part of the Serverless Expeditions series, unveiled a robust “Prompt Ops” framework designed to elevate prompt development from an art to a science, ensuring reliability and performance in AI applications.

https://www.startuphub.ai/ai-news/ai-video/2025/engineering-ai-prompts-googles-framework-for-benchmarking-and-automation/

엔지니어링 AI 프롬프트:

벤치마킹 및 자동화를 위한 Google 프레임워크

구글 클라우드 개발자 애드보케이트인 마틴 오만더는 최근 "AI 프롬프트 벤치마킹 방법" 튜토리얼에서 "잘못된 프롬프트는 버그와 제가 프롬프트 이탈이라고 부르는 현상으로 이어집니다. 프롬프트를 목적 없이 바꾸는 것이죠."라고 말했습니다. 이 솔직한 관찰은 급성장하는 생성 AI 분야에서 만연한 과제, 즉 프롬프트 엔지니어링의 구조화되지 않고 반복적인 특성을 잘 보여줍니다. 서버리스 익스페디션 시리즈의 일부인 오만더의 프레젠테이션에서는 프롬프트 개발을 예술에서 과학으로 격상시켜 AI 애플리케이션의 안정성과 성능을 보장하도록 설계된 강력한 "프롬프트 운영" 프레임워크를 공개했습니다.

구글이 인공지능(AI) 영상 생성에 최적화된 프롬프트를 생성하는 추론 에이전트를 공개했다. 사용자가 간단한 설명을 내놓아도 이를 AI가 추론, 구체적이고 현실적인 동영상 출력용 프롬프트로 바꿔주는 프롬프트 엔지니어링 자동화 시스템이다.


구글은 22일(현지시간) 깃허브를 통해 '비디오 반복 자기개선 에이전트(Video Iterative Self Improvement Agent)' 즉, VISTA를 공개했다.



이는 추론을 통해 사용자의 텍스트 프롬프트를 개선, 비디오 생성에 최적화하는 다중 에이전트 프레임워크다. 시각과 오디오, 맥락 등 세가지 측면을 모두 개선하는 것이 목표다.

연구진은 텍스트-비디오 기술의 빠른 발전에도 불구하고, 생성된 영상의 품질은 사용자의 정확한 프롬프트에 크게 의존한다고 지적했다. 또 기존의 프롬프트 최적화 전략은 영상에 포함된 물리 법칙이나 사운드 등 여러 요소 때문에 어려움을 겪는다고 덧붙였다.

따라서 VISTA는 4단계의 개선 작업을 거친다고 밝혔다. ▲사용자 아이디어를 분해한 뒤 프롬프트 재작성 ▲재작성 프롬프트 영상과 원래 프롬프트 영상 비교 ▲선정된 비디오를 시각과 오디오, 맥락 충실도에 중점을 둔 에이전트 3개의 집중 분석 ▲피드백을 종합해 프롬프트를 재작성하는 심층 사고 에이전트 작업 등이다.



먼저 사용자 프롬프트는 시간별 장면으로 분해된다. 각 장면은 9가지 속성, 즉 지속 시간과 장면 유형, 캐릭터, 동작, 대화, 시각적 환경, 카메라, 사운드, 분위기 등을 포함한다. 여기에서 '제미나이 2.5 플래시'는 프롬프트에 빠진 속성을 채우고 사실성, 관련성, 창의성에 대한 제약 조건을 적용한다.


이어 VISTA는 여러 비디오와 프롬프트 쌍을 샘플링, 비교한다. 기준에는 시각적 충실도, 물리적 상식, 텍스트 비디오 정렬, 오디오 비디오 정렬, 그리고 참여도 등이 포함된다. 이를 통해 승리자 영상을 만든 프롬프트를 가려낸다.

승리자 영상과 프롬프트는 시각, 청각, 맥락의 세가지 측면에서 비평받는다. 각 요소는 일반 심사위원, 적대적 심사위원, 그리고 양측을 통합하는 메타 심사위원이라는 세가지 요소를 사용해 수십가지 항목에 1점부터 10점까지 점수를 매긴다.

마지막으로, 심층적 사고 에이전트는 비평 내용을 파악해 6단계의 작업을 진행, 정제된 프롬프트를 만들어 낸다.

또 1~4단계를 반복, 영상 퀄리티를 계속 높일 수 있는 무한 루프 구조를 갖췄다. 반복당 평균 사용하는 토큰은 약 70만개다. 토큰 대부분은 비디오를 긴 맥락 입력으로 처리하는 과정과 비평에서 사용된다.

이 과정을 통하면 원래의 짧은 프롬프트는 구체화한 장문의 프롬프트로 바뀐다.



또, 연구팀은 VISTA를 통해 5번 루프를 거쳐 '비오 3'에서 생성한 영상이 오리지널 프롬프트 영상보다 인간 선호도 평가에서 66.4%로 앞섰다고 밝혔다.

이 연구에 대해 갓 오브 프롬프트(God of Prompt)라는 전문 업체는 X(트위터)를 통해 "이 에이전트는 재교육도, 미세 조정도 필요 없다. 순전히 테스트 중에 자신을 돌아볼 뿐"이라며 "맙소사"라는 반응을 내놓았다.

이번 연구 결과는 온라인 아카이브에도 게시됐다.

임대준 기자 ydj@aitimes.com

출처 : AI타임스(https://www.aitimes.com)


댓글 없음: