미니 삼성의 VASTA 시스템은 AI를 사용하여 코딩없이 스마트폰 작업을 시각적으로 프로그래밍 할 수 있습니다
- 다잊어야해욥
- 조회 수 448
- 2019.11.07. 13:18
구글 번역기 돌렸습니다.
삼성의 빅스비(Bixby)와 같은 어시스턴트는 작업 자동화와 관련하여 상당히 다재다능합니다. "페이스북 열기 및 최근 사진 3장 공유"와 같은 다단계 명령을 불만없이 수행할 수 있지만 완벽하지는 않습니다. 개발자는 이러한 작업을 프로그래밍해야합니다. 즉, 사용자에게는 다소 대기중인 게임이됩니다.
아마도 이것이 토론토에 있는 삼성 AI 연구소의 연구원들이 안드로이드 스마트폰 자동화를 위한 언어 지원 "프로그래밍에 의한 프로그래밍"시스템인 VASTA를 개발한 이유일 것입니다. 컴퓨터 비전을 포함한 AI 및 머신러닝 기술을 활용하여 프로토타입은 인터페이스 요소에 의존하지 않고도 상호작용에 레이블을 지정할 수 있습니다. 또한, VASTA는 빅스비를 뒷받침하는 것과 유사한 자연어 이해 알고리즘 덕분에 프로그래밍 된 작업을 트리거하는 음성 명령을 분석하고 인식할 수 있습니다.
“오늘의 스마트폰은 사용자가 여러 가지 복잡한 작업을 수행할 수 있는 정교한 도구와 응용 프로그램을 제공합니다.” 라고 시스템을 설명하는 학술 논문의 공동 저자는 썼습니다. “기존 작업의 다양성과 사용자가 휴대전화에 보내는 시간이 점점 늘어나면서 가장 지루하고 반복적인 작업 (예 : 피자 주문 또는 학교 앱을 사용하여 성적 확인)을 자동화하는 것이 스마트폰 제조업체에게 바람직한 목표입니다 사용자도 마찬가지입니다.”
이를 위해 연구원들은 VASTA를 통해 사용자가 임의의 (또는 여러) 타사 앱을 사용하여 임의의 작업에 대한 자동화 스크립트를 생성하고 실행할 수 있다고 말합니다. 또한 일련의 동작을 유사하게 자동화할 수 있는 스마트폰용 기존 매크로 기록 도구와 달리 앱 인터페이스의 변경에 대한 접근 방식이 강력하다고 말합니다. (기본적으로 로봇 프로세스 자동화 와 같습니다.)
VASTA를 시작하려면 사용자가 음성 명령을 제공해야합니다.이 명령은 Google의 클라우드 음성 텍스트 변환 서비스를 사용하여 텍스트로 변환됩니다. VASTA는 텍스트를 분석하여 새 작업 또는 데모가 존재하는 기존 작업을 참조하는지 확인합니다. 소설이라면 VASTA는 다음과 같이 대답합니다.“어떻게 해야할지 모르겠습니다. 보여줄 수 있습니까?” 시연 단계가 시작됩니다. 이 시점에서 사용자는 홈 화면으로 이동하여 자동화를 생성하려는 작업 순서를 수행하기 전에 실행중인 모든 프로세스를 종료합니다. 그런 다음 VASTA는 학습 단계로 들어가서 객체 감지 및 광학 문자 인식을 활용하여 데모의 요소와 텍스트를 인식합니다.
VASTA는 Android Debug Bridge 를 사용하여 각 상호 작용에서 스크린 샷을 캡처하고 탭, 긴 탭 및 스 와이프와 같은 터치 이벤트의 유형, 지속 시간 및 좌표를 캡처합니다. 앱 시작 이벤트의 경우 시작된 앱 이름을 기록하고 정적 시스템 수준 요소에 대한 정확한 탭 좌표를 기록합니다.
트리거 된 작업은 일반적으로 수정하지 않고 ADB 명령의 형태로 직접 실행됩니다. 비 정적 요소의 경우 VASTA는 인식 된 텍스트 문자 및 인터페이스 요소와 같은 추가 정보를 사용하여 명령을 실시간으로 수정해야하는지 여부를 결정합니다.
각각 6개의 작업 (알람 설정 및 스누즈 옵션 끄기, 이탈리안 레스토랑 찾기 및 거리에 따라 정렬 및 WhatsApp의 특정 연락처에 메시지 보내기 등)을 수행하는 10 명의 참가자가 참여한 사용자 연구에서, 연구원들은 VASTA가 60 개의 스크립트 중 53 개를 성공적으로 실행할 수 있다고 보고했습니다. 또한 사용자가 60회 중 59번과 상호 작용한 모든 요소를 올바르게 찾았으며 60개 중 53개에 대한 정확한 매개변수를 예측했습니다.
연구원들은 이미지 분류 네트워크를 사용하여 각 UI 요소에 시맨틱 레이블 (예 : "로그인"버튼 또는 "보내기"아이콘)을 할당하는 미래의 작업을 떠납니다. 실행. 또한 한 앱에서 다른 앱으로 데이터 전송을 지원하는 모듈 (예 : 다음 버스의 도착 시간을 찾아서 연락처로 전송)을 지원하는 모듈과 VASTA를 돕기 위해 객체 감지와 XML 데이터를 결합하는 메커니즘을 만들고자합니다. 명령 구조는 비슷하지만 매개변수 값이 다른 작업을 구분합니다 (예 : 콘서트 앱에서 "Metallica 티켓 받기" 및 영화 앱에서 "Avengers 티켓 받기").
“우리가 아는 한, VASTA는 스마트폰 작업 자동화를 위해 컴퓨터 비전 기술을 활용하는 최초의 시스템입니다.”라고 이 논문의 공동 저자는 말했습니다. "이 시스템은 여러 운영 체제 및 플랫폼에서 자동화에 적용할 수 있습니다."
와 콘서트 티켓팅 이걸로 하면 꿀이겠네요