새로운 AI 교육 방법이 LLM에서 발생하는 "중간에서의 소실" 문제를 완화합니다.

2024-04-27

마이크로소프트, 베이징 대학교, 시안 교통 대학교 연구자들은 대형 언어 모델(LLMs)의 "중간 소실" 문제를 해결하기 위해 정보 집약적(INformation-INtensive, IN2) 훈련이라는 새로운 데이터 기반 접근 방식을 개발하였습니다.
"중간 소실" 현상은 LLMs가 장문의 맥락의 처음과 끝은 이해하지만, 중간에 있는 정보를 처리하는 데 어려움을 겪는 현상입니다.
IN2 훈련은 모델에 중요한 정보가 맥락 내 어느 위치에나 있을 수 있음을 명시적으로 보여주기 위해 합성 질문-답변 데이터를 사용합니다.
연구자들은 IN2를 Mistral-7B에 적용하여, FILM-7B(FILl-in-the-Middle)를 생성하였고, 이는 장문 맥락을 위해 설계된 세 가지 새로운 추출 작업에서 원래 Mistral 모델의 "중간 소실" 문제를 크게 줄였습니다.
FILM-7B 모델은 장문 맥락에서의 요약, 장문 문서에 대한 질문응답, 여러 문서에 대한 추론 등 실세계 작업에서 큰 개선을 보였습니다.
연구자들은 또한 맥락 성능을 평가하는 데 있어 다양한 맥락 스타일 및 검색 패턴을 커버하는 자체 VAL 탐사 방식을 제안했습니다.
IN2 훈련의 효율성은 원래의 Mistral 7B와 비교하여 주로 나타나며, GPT-4 Turbo는 아직 가장 강력한 모델로 남아 있음에도 불구하고, 긴 맥락에서 문제를 겪고 있습니다.

4the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.