LLM 벤치마킹, 7개월마다 역량 두 배 증가
2030년까지 LLM은 단 몇 시간 만에 한 달치 작업을 마칠 수 있습니다.
많은 대규모 언어 모델 (LLM) 의 주요 목적은 사람의 글과 거의 구별할 수 없을 정도로 매력적인 텍스트를 제공하는 것입니다. 바로 여기에 기존 벤치마크를 사용하여 LLM의 상대적 성능을 측정하기 어려운 주요 이유가 있습니다. 바로 글의 품질이 명령어 실행 속도와 같이 프로세서 성능을 측정하는 데 전통적으로 사용되는 지표와 반드시 상관관계가 있는 것은 아니기 때문입니다.
AI's Astonishing Acceleration
LLM Benchmarking Shows Capabilities Doubling Every 7 Months
https://spectrum.ieee.org/llm-benchmarking-metr
캘리포니아주 버클리에 있는 싱크탱크 METR( 모델 평가 및 위협 연구 )의 연구원들은 기발한 아이디어를 생각해냈습니다. 먼저, 다양한 복잡성을 가진 일련의 작업을 파악하고, 한 무리의 사람들이 각 작업을 완료하는 데 걸리는 평균 시간을 기록합니다. 그런 다음, 다양한 버전의 LLM이 동일한 작업을 완료하도록 하고, 특정 버전의 LLM이 일정 수준의 신뢰도(예: 50%의 신뢰도)로 작업을 성공적으로 완료하는 사례를 기록합니다. 결과 데이터 그래프는 시간이 지남에 따라 LLM의 후속 세대가 더 길고(더 복잡한) 작업을 안정적으로 완료할 수 있음을 보여줍니다.
놀랄 일도 아닙니다. 하지만 충격적인 것은 LLM들이 더 어려운 과제를 안정적으로 완수하는 능력이 기하급수적으로 향상되었다는 점입니다 . 약 7개월 만에 두 배로 증가했습니다.
IEEE Spectrum은 이 연구와 그 놀라운 의미를 설명하는 METR 연구 논문 의 저자 중 한 명인 메건 키니먼트 에게 연락했습니다
LLM 성과 지표 평가
이런 결과가 나올 거라고 예상했나요?
메건 키니먼트: 저는 적어도 개인적으로는 그렇게 명확한 지수함수를 얻을 거라고는 예상하지 못했습니다. 하지만 모델이 확실히 빠르게 발전하고 있으니까요. 그래서 빠른 발전 속도가 전혀 예상치 못한 것은 아니었습니다.
논문에서 지적하셨듯이, 미래를 내다보고 외삽하는 것은 항상 위험한 일입니다. 하지만 이러한 상황이 지속될 가능성이 있다고 말씀하셨는데, 이는 2030년이 되면 한 달 분량의 작업이 최첨단 대규모 언어 모델 로도 처리 가능해질 것이라는 의미입니다 .
이 예측이 실현되려면 몇 가지 조건이 충족되어야 합니다. 하드웨어는 현재와 비슷한 속도로 꾸준히 발전해야 하고, 소프트웨어 또한 꾸준히 발전해야 합니다. 최근 몇 년 동안 놀라운 속도로 학습을 지속하려면 충분한 학습 데이터와 그 학습 데이터를 확보해야 합니다.
Kinniment: 저희가 찾아낸 예측과 날짜는 작업 세트에서 확인된 추세를 외삽한 것일 뿐입니다. [추세는] 실제 환경 요인이나 컴퓨팅 확장성 변화를 고려하지 않았습니다.
대규모 언어 모델이 어떻게든 50%의 신뢰도로 167시간 분량의 작업을 완료할 수 있는 능력을 달성할 수 있다면, 현재 대규모 언어 모델의 역량 범위에는 어떤 것들이 있을까요?
Kinniment: 음, 우리가 자주 생각하는 가장 중요한 것은 AI R&D 연구 자체의 가속화입니다. 회사의 더 나은 모델 개발 능력을 가속화하는 모델을 만들 수 있다면, AI 역량이 매우 빠르게 발전하는 상황에 놓일 수 있습니다.

AI의 기하급수적 성장이 인류에게 의미하는 것
당신이 묘사한 내용은 특이점 이라는 개념과 비슷합니다 . 특이점이란 인간의 도움 없이 AI가 스스로 다른 AI를 만드는 것을 말합니다.
Kinniment: 제 생각에는 상당히 강렬한 가속이 가능하지만, 그렇다고 해서 반드시 폭발적인 성장을 가져오지는 않을 것입니다. 실제로는 속도를 늦추는 다양한 병목 현상이 있을 수 있다고 생각할 만한 이유가 있습니다. 매우 똑똑한 AI가 있다고 해도, 이러한 발전 속도는 하드웨어나 로봇 공학 같은 분야에서 병목 현상으로 이어질 수 있습니다 . 하지만 특이점은 분명 이 분야 전체와 관련된 아이디어입니다.
상황이 꽤 빨리 진행될 수도 있지만, 특이점만 아니면 아무것도 없는 건 아닙니다 . 특이점에 비하면 완만한 AI 개발 속도라도 세상이 적응해야 하는 방식에 비하면 여전히 상당히 급격할 수 있습니다.
논문에서 일부 대규모 언어 모델이 실수로부터 적응하고 개선하는 능력이 향상되고 있는 것으로 보인다고 언급하셨습니다.
Kinniment: ChatGPT 이후로, 그리고 어쩌면 그 이전에도 비교적 점진적으로 변화했다고 생각합니다 . 막힐 가능성이 줄었습니다. 잘 안 될 때 전략을 바꾸는 데 조금 더 능숙해졌지만, 그건 약간 불확실합니다. 그리고 예전보다 훨씬 더 잘하고 도구 사용도 더 잘합니다. 하지만 크게 변하지 않은 근본적인 측면이 몇 가지 있는 것 같습니다. 제가 새로운 모델을 받을 때 살펴보는 한 가지는 각 작업에서 모델에 토큰 , 즉 모델이 말할 수 있는 단어 수를 제공한다는 것입니다. 그리고 작업을 수행할 시간이나 토큰을 점점 더 많이 제공한다면, 그것이 성공 가능성에 어떤 영향을 미칠까요? 기본적으로 우리가 보는 것은 그들이 상당히 강하게 정체된다는 것입니다. 더 많은 토큰을 주더라도 별 도움이 되지 않는 지점이 있습니다. 그리고 새로운 모델이 나올 때마다 그 정체기는 조금씩 더 높아집니다.

"복잡성" 점수가 높은 작업에서 모델이 더 낮은 성능을 보이는 것을 발견하셨습니다. 이러한 상황이 변화하고 있다는 것을 데이터에서 확인하셨습니까? 다시 말해, 모델이 더 복잡한 작업을 처리하는 능력이 향상되고 있다는 것을 의미합니까?
Kinniment: '지저분함'은 우리가 하는 일이 현실 세계에 비해 얼마나 비현실적인지를 어느 정도 정량적으로 측정하기 위해 제가 만든 척도입니다. 대부분의 일은 그렇게 지저분하지 않습니다. 16점 척도입니다. 평균은 약 3점이며, 가장 지저분한 일은 16점 중 약 8점입니다.
그러면 16개의 작업은 얼마나 지저분할까요?
Kinniment: 첩보 활동 같은 건데 , 자원이 굉장히 제한적이죠. 굉장히 힘들죠. 요원들이 적극적으로 당신을 겨냥해서 최적화를 시도하는 상황이라, 실수하기 쉽습니다. 참신한 게임이죠.
여러분 모두 이 연구를 계속 진행할 계획이 있나요?
Kinniment: OpenAI는 o3를 출시했는데 , o3는 당시 추세를 고려했을 때 예상보다 성능이 조금 더 좋았습니다. 따라서 다른 모델들을 측정하는 측면에서 어느 정도 후속 조치를 취하고 있습니다. AI 개발과 AI 시스템으로 인한 치명적인 위험에 대해 세상에 알리는 데 계속해서 집중하고 싶습니다.
첨단 AI로 인한 재앙적 위험
AI로 인해 발생할 가능성이 가장 큰 재앙적 위험은 무엇일까요? 제 생각에는 AI가 엄청난 역량을 발휘하게 되면 일자리가 엄청나게 줄어들 것입니다.
키니먼트: 우리가 재앙적 위험에 대해 이야기할 때, 단순히 대량 실업만을 말하는 것이 아닙니다 . 오히려 이런 상황에 더 가깝습니다. 만약 모두가 실업자가 되거나 대부분의 일에 인간 노동자가 필요하지 않게 된다면, 군대를 유지하는 데 인간 노동자가 필요 없게 될 수도 있고, 훨씬 더 적은 인력이 필요할 수도 있습니다. 그렇게 되면 누군가가 쿠데타를 일으키기가 훨씬 쉬워질 수 있습니다. 또는 데이터 센터에 엄청난 수의 천재들이 있다면, 당신은 매우 강력한 인물이 될 수 있습니다. 만약 그 천재들을 군사 장비 생산에 사용한다면, 권력이 집중될 가능성이 있고, 더 이상 민주주의 국가가 존재하지 않을 수도 있습니다.
이 모든 일은 당연히 어떤 형태의 의식 없이도 일어날 것입니다 . 이러한 기계는 계략을 꾸미고, 음모를 꾸미고, 계획을 세울 수 있는 능력을 갖추고 있지만, 인간의 능력을 특징짓는 의식은 없을 것입니다. 의식은 이러한 일에 필수적이지 않습니다.
Kinniment: 의식은 어려운 문제입니다 . 어떤 특정 행동에 의식이 꼭 필요한지는 잘 모르겠습니다. 제 급여 수준을 조금 넘는 것 같습니다. 그리고 지금쯤 의식이 있을 수 있다는 것도 이상하게 생각하지 않습니다. 아주 똑똑할 테니까요.
그러면 그들이 미래의 어느 시점에 의식을 가질 가능성이 있다고 생각하시나요?
킨니먼트: 제 말은, 만약 그들이 당신이나 저만큼 똑똑하다면, 그렇게 이상해 보이지는 않는다는 거예요. 그렇지 않다고 해서 이상해 보이지도 않고, 그렇지 않다고 해서 이상해 보이지도 않아요.
LLM Benchmarking Shows Capabilities Doubling Every 7 Months
https://spectrum.ieee.org/llm-benchmarking-metr
KCONTENTS
댓글 없음:
댓글 쓰기