점 하나하나 생각해봅시다: Transformer 언어 모델에서의 숨겨진 계산

2024-04-27

이 논문은 "점점 생각해보자: 트랜스포머 언어 모델에서의 숨겨진 계산"이라는 제목이며, 저자는 Jacob Pfau, William Merrill, Samuel R. Bowman 입니다.
언어 모델의 사고 연쇄(chain-of-thought) 반응이 대부분의 벤치마크에서 성능을 향상시키지만, 이러한 성능 향상이 인간과 유사한 작업 분해 또는 단순히 추가 토큰으로 인한 더 큰 계산 덕분인지 명확하지 않습니다.
연구자들은 트랜스포머가 의미 없는 채움 토큰(예: '......')을 사용하여 사고 연쇄 없이 해결할 수 없었던 두 가지 어려운 알고리즘 작업을 해결할 수 있음을 보여줍니다.
채움 토큰을 사용하는 방법을 배우는 것은 특정한, 밀집된 감독 없이는 어렵고 수렴하기 어렵다는 점을 경험적으로 발견했습니다.
첫 번째 순서 공식의 양자 깊이 측면에서 채움 토큰이 유용한 문제의 클래스를 이론적으로 특성화합니다. 이 특성화를 만족하는 문제의 경우, 사고 연쇄 토큰은 다중 토큰 계산에 관여하는 중간 계산 단계에 대한 정보를 제공할 필요가 없습니다.
추가 토큰은 토큰 선택과 독립적으로 계산상의 이점을 제공할 수 있음을 보여줍니다. 중간 토큰이 채움 토큰으로 작동할 수 있다는 사실은 대규모 언어 모델이 관찰된 사고 연쇄 토큰과 점점 더 동떨어진 감사할 수 없는 숨겨진 계산을 수행할 수 있다는 우려를 제기합니다.
이 논문은 17 페이지 길이에 10개의 그림을 포함하며, 연산과 언어(Computation and Language, cs.CL), 인공 지능(Artificial Intelligence, cs.AI) 분야에 속해있습니다.

4arxiv.org링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기