스마트 폰 앱의 조작을 ChatGPT로 자동화 문장 입력으로 앱 조작 중국 팀 "DroidBot-GPT" 개발
중국의 청화대학과 베이징대학에 소속된 연구자들이 발표한 논문 'DroidBot-GPT: GPT-powered UI Automation for Android '는 대규모 언어 모델(LLM)을 이용한 Android 애플리케이션의 자동화에 초점을 맞춘다. 는 자연언어의 기술을 스마트 폰 상의 일련의 액션으로 변환하여 실행하는 시스템을 제안한 연구 보고다.
「DroidBot-GPT」라고 부르는 이 시스템은, Android 애플리케이션과 사용자가 기술한 태스크가 있으면, 우선 앱의 화면상의 상태를 취득해, 취득한 GUI(그래픽 유저 인터페이스)를 ChatGPT가 취급할 수 있는 자연 언어에 변환한다. 예를 들어 "여기를 클릭하면 카메라로 전환" "여기를 클릭하면 편집할 수 있는 첫 번째 이름의 텍스트 뷰가 표시된다”등, 앱상의 GUI를 텍스트에 떨어뜨리는 작업을 시행한다. 다음으로, 화면상의 정보나 행동 이력, 태스크를 조합해 프롬프트를 작성해, ChatGPT에 송신한다. ChatGPT는 적절한 액션을 생성하고 되돌려 보내고, 시스템은 스마트 폰 상에서 조작을 실행한다. DroidBot-GPT의 효능을 평가하기 위해 널리 사용되는 17 안드로이드 응용 프로그램에서 실험. 각 애플리케이션에 대해 2~13단계의 GUI가 포함된 1~3개의 태스크를 설계한다. 실험 결과 33개 작업 중 13개 작업을 완료했으나 전체 작업의 평균 완료율은 66.76%였다. 실패도 많아 개량의 여지는 있지만, 정밀도를 향상하면, 지금까지 손가락으로 하고 있던 모든 앱 조작을 문장 입력이나 음성 입력으로 시행할 수 있게 될지도 모른다.
'UI 뉴스' 카테고리의 다른 글
업무 자동화 로봇 「AUTORO」, 데스크톱 판 제공 개시 (0) | 2023.04.27 |
---|---|
소니가 장착하는 모바일 모션 캡처 "mocopi"의 가능성 (0) | 2023.04.26 |
iPhone 브라우저, 어느 것을 선택? Safari와 Chrome의 사용성을 비교 검증 (0) | 2023.04.24 |
Microsoft Edge에 새로운 허브 UI, 성능 및 안전성을 알기 쉽게 표시 (0) | 2023.04.23 |
잭 도시의 분산형 SNS 'Blue sky', 안드로이드 버전 출시 (0) | 2023.04.22 |
댓글