본문 바로가기
논문

[STMC-Transformer]Better Sign Language Translation with STMC-Transformer

by DI_Lee 2021. 8. 12.

 


0.     Abstract

 

- 비디오 ->(SLR 이용)-> 수화 gloss 추출 ->(SLT 이용) -> 구어번역 생성

(SLR = Sign Language Recognition

SLT = Sign Language Translation)

 

이 논문은 SLT에 초점을 맞춰 번역 시스템을 개선한 STMC-Transformer를 소개

(기존의 Gloss Supervision의 문제를 보여줌)

 


1.     Introduction

수화는 구어와 독립적으로 발달함-> 구어의 문법을 공유하지 않음(어순이 다른 등)

따라서 수화변환(SLT)는 번역 과정에서 수화의 고유한 언어적 특징을 고려해야한다

 

현재의 SLT 접근법은

(1)   Tokenization system : 수화영상 -> gloss 생성

(2)   Translation system : 인식된 gloss를 번역

(-> 이 논문은 translation system을 Neural Machine Translation을 이용해서 개선한다.)

 

이러한 지금까지의 접근법의 한계는

첫째, translation system을 개선하지 못함

둘째, gloss를 수화의 중간 표현으로 사용한다.

 

따라서 본 논문은 STMC-Transformer 모델을 소개

Gloss가 수화의 결함있는 표현임을 밝히고, 이를 바탕으로 비디오-텍스트 번역을 수행한다.

 

 


2.     Method

수어 : 구어와 달리 manual , non-manual 신호 모두에 의존하는 다차원적 형태의 의사소통

 이러한 신호는 동시에 발생할 수 있는 반면 구어는 단어가 한 번에 하나씩 처리되는 선형 패턴을 따른다. 신호는 또한 공간과 시간에 따라 다르며 단일 기호와 관련된 비디오 프레임의 수도 고정되어 있지 않음

 

2-(1) . Sign Language Glossing

Glossing : 다른 문자언어를 통해 수화 단어를 전사(transcribing)하는 것과 일치함.

이것은 수화 문장의 각 부분이 무엇을 의미하는지를 나타내는 것일 뿐, 구어에서 적절한 문장을 형성하지 않기 때문에 번역과 다름.

본 논문에서는 Sign language glossing이 수화의 부정확한 표현이며, 단일 차원의 glossing으로 다채널 수화를 나타낼 때 정보 병목 현상으로 이어질 수 있다고 지적.

 

2-(2). Sign language recognition

SLR은 비디오에서 분리된 단일 기호를 식별하는 것으로 구성.

연속수화인식(CSLR)은 러닝 비디오에서 러닝 Gloss의 순서를 식별하는 도전적인 작업. 그러나 SLR과 CSLR의 작업은 시각적 인식만 수행할뿐 수화의 기본 언어적 특징을 무시.

 

2-(3). Sign Language Translation

SLT 시스템은 입력 비디오를 gloss로 토큰화하는 첫번째 단계로 CSLR을 취함. 그 다음 추가단계는 gloss를 대상 언어에서 유효한 문장으로 번역. SLT 는 다른 번역문제와 비교해서 새롭고 어려운데, 그 이유는다중 큐 언어의 비디오에서 의미 있는 기능을 정확하게 추출한 다음 소스 언어에서 직접 번역하는 대신 중간 광택 표현에서 번역을 생성하는 두 단계가 포함되기 때문.

 


3.     Model Architecture

 

3-(1). Spatial-Temporal Multi-Cue(STMC) Network

 

자체 포함된 포즈 추정 분기가 있는 공간 다중 큐(SMC) 모듈은 입력 비디오를 여러 시각적 신호(얼굴, 손, 전체 프레임 및 포즈)의 공간 기능으로 분해 -> TMC 블록과 TP 층이 적층된 TMC 모듈은 서로 다른 시간 단계에서 (inter-cue)와 큐(intra-cue) 사이의 시간적 상관을 계산하여, 각각의 고유한 큐를 보존하면서 동시에 그들의 관계를 탐구 -> 큐 간 및 큐 내 특징은 시퀀스 학습 및 추론을 위한 Bi-directional Long Short-Term Memory (BiLSTM) (Sutskever et al., 2014)와 Connectionist Temporal Classification (CTC) (Graves et al., 2006) 단위로 각각 분석

-      이 아키텍처는 수화 비디오로부터 여러 시각적 신호를 효율적으로 처리해서 서로 협력해 달성한다.

 

3-(2). Transformer

번역을 위해, 로그 유사도를 극대화하기 위해 2층 변환기를 훈련한다

여기서 D는 광택 텍스트 쌍(xi, yi)을 포함한다.

 


4.     Datasets

 

-      PHOENIX-Weather 2014T

이 데이터 셋은 독일 TV 방송국 PHOENIX의 일기예보 방송에서 추출.

9명의 다른 사람의 독일어 수화비디오의 병렬 코퍼스 , 1066개의 다른 기호의 어휘를 가진 Gloss level annotations, 2887개의 다른 단어들을 가진 독일어 구어로 번역한 것을 구성.

 

-      ASLG-PC12

규칙 기반 접근법에 따라 ASLglosses로 변환된 project Gutenberg의 영어 데이터 셋

 

 


5.     Experiments and Discussions

-      Pytorch 사용

-      단어 임베딩 크기 : 512, gloss level 토큰화, sinusoidal positional encoding, 2048 hidden units and 8 heads.

-      최적화 : Adam

-      평가 : BLEU

 

 

5-(1). G2T(Gloss2Text)

 

G2T는 원문과 목표문 사이의 언저적 분산, 자원의 희소성, 원문 자체의 정보 손실 혹은 부정확성 때문에 새롭고 도전적인 Text to text 과제임.

-      ASLG-PC12의 경우 많은 ASL 용어가 접두사가 추가된 영어 단어이므로 데이터 사전 처리 중에 이러한 접두사를 모두 제거합니다. 또한 훈련 중 5회 미만으로 나오는 모든 글로스를 <unk>키로 설정하여 어휘 크기를 줄임.

 표 2는 ASLG-PC12의 소스 및 대상 말뭉치가 많은 공유 어휘와 원시 데이터에서 상대적으로 높은 BLEU-4 점수로 서로 더 유사함을 보여주고, 이를 통해 더 크고 덜 까다로운 데이터 세트에서 Transformer 성능을 비교할 수 있음..

 

 

-      Model size

 

(Vaswani et al., 2017)의 원래 Transformer는 NMT용 인코더와 디코더에 6개의 레이어를 사용. 그러나 본 논문의 작업은 두 구어 간의 표준 MT 작업과 다르기 때문에 먼저 1, 2, 4 및 6 인코더-디코더 레이어로 Transformers를 훈련. 네트워크는 배치 크기 2,048 및 초기 학습률 1로 훈련.

 

최상의 모델을 선택하기 위해 현재 MT에서 가장 널리 사용되는 메트릭인 BLEU-4를 주로 고려. 표 3은 PHOENIX-Weather 2014T에서 2개의 레이어를 사용하여 가장 높은 BLEU-4를 얻음.  데이터 세트는 음성 언어 데이터 세트보다 훨씬 작기 때문에 더 큰 네트워크는 불리할 수 있고, 또한 모델이 작을수록 메모리와 계산 시간을 덜 차지한다는 장점이 있다.  

 

-      Embedding schemes

 

Press andWolf(2017)는 언어 모델을 훈련하는 동안 입력 및 출력 임베딩을 묶는 것이 더 나은 성능을 제공할 수 있음을 보여줌. 본 논문에서 디코더는 사실 소스 문장과 이전 출력의 인코딩에 기반한 언어 모델이며, 입력 및 출력 단어 임베딩에 대해 공유 가중치 행렬을 사용하여 디코더 임베딩을 연결할 수 있음. 또한 모델은 종종 전이 학습을 위해 사전 훈련된 임베딩으로 초기화됩니다. 이러한 임베딩은 일반적으로 원하는 언어로 된 대규모 텍스트 코퍼스에서 감독되지 않은 방식으로 훈련. 두 가지 인기 있는 단어 임베딩인 GloVe3(Pennington et al., 2014) 및 fastText(Bojanowski et al., 2017)를 사용하여 PHOENIX-Weather 2014T에 대한 실험을 수행.-> 최초,,

표 4는 독일어 단어와 사전 훈련된 임베딩 사이에 일치하는 토큰이 하나만 있음을 보여주는 반면 독일어 텍스트의 단어 중 90% 이상이 두 사전 훈련된 임베딩에 나타남-> 따라서 디코더에서만 사전 훈련된 임베딩을 초기화하고 인코더에 대한 임의 초기화를 유지 

 

표 5는 새로운 임베딩 방식이 PHOENIX-Weather 2014T에서 성능을 향상시키지 않는다는 것을 보여줌. 따라서 PHOENIX-Weather 2014T에 대한 실험을 위해 단어 임베딩의 무작위 초기화를 유지. GloVe 및 fastText 영어 벡터는 모두 ASL 용어의 어휘 및 영어 대상과 합당하게 겹침(표 4). 따라서 ASLG-PC12에서는 인코더와 디코더 모두뿐만 아니라 디코더에만 사전 훈련된 임베딩을 로드함.

 

표 6은 디코더에 대한 fastText 사전 훈련된 임베딩이 성능을 향상시키고 무작위 초기화가 있는 묶인 디코더 임베딩이 최고의 성능을 제공함을 보여줌. 가중치 결합은 정규화 역할을 하고 과적합을 방지하기 때문에 이 데이터 세트에 더 적합하지만 이전 데이터 세트는 더 복잡하므로 과적합이 덜 발생

 

-      Beam width

 

 

 디코딩을 위한 방법은 greedy search입니다. 여기서 모델은 단순히 각 시간 단계에서 가장 높은 확률을 가진 단어를 선택. 그러나 이 접근 방식은 전체 시퀀스의 맥락에서 차선책이 될 수 있음 -> 빔 검색은 각 시간 단계에서 가능한 모든 후보를 확장하고 가장 가능성이 높은 시퀀스 또는 빔 너비를 유지하여 이 문제를 해결. 빔 폭이 크다고 해서 항상 더 나은 성능을 제공하는 것은 아니며 메모리 및 디코딩 시간에 더 많은 공간을 차지. PHOENIX-Weather 2014T에서는 4, ASLG-PC12에서는 5가 되도록 최적의 빔 너비 값을 검색하고 찾음

 

-      Ensemble decoding

 

앙상블 방법은 성능을 향상시키기 위해 여러 모델을 결합. 본 논문은 예측 분포를 평균화하여 서로 다른 모델의 출력을 결합하는 앙상블 디코딩을 제안. 모델을 적게 사용하면 앙상블이 줄어들지만 약한 모델이 너무 많으면 앙상블 모델의 품질이 떨어질 수 있기 때문에 -> 이러한 모델은 동일한 아키텍처이지만 다른 시드로 초기화되고 다른 배치 크기 및/또는 학습률을 사용하여 훈련.

표 7은 Camgoz et al.에 의해 반복되는 seq2seq 모델의 PHOENIX-Weather 2014T에 대한 성능 비교를 제공. (2018), Camgoz et al.에 의해 동시에 훈련된 Transformer. (2020), 단일 모델 및 앙상블 모델. 또한 이 작업의 어려움을 설명하기 위해 광택 주석에 점수를 제공.

앙상블 모델은 단일 모델에 비해 0.46 BLEU-4의 개선을 보고. 앙상블의 증가가 상대적으로 적은 것은 아마도 서로 다른 모델 간에 분산이 더 적기 때문일 수 있음

 

5-(2).  S2G2T(German Sign2Gloss2Text)

 

S2G2T에서는 동영상의 광택 인식과 텍스트로의 번역이 모두 “자동”으로 수행.

-      S2G->G2T

 

독일 G2T에 대해 가장 성능이 좋은 모델을 사용하여 훈련된 STMC 네트워크에서 예측한 gloss를 번역. 표 9에서 번역을 위한 추가 교육이 없음에도 불구하고 이 모델은 이미 5 BLEU-4 이상으로 현재 최신 기술을 능가하는 비교적 높은 점수를 얻었음 

 

-      Recurrent seq2seq networks

 

비교를 위해 번역을 위해 순환 seq2seq 네트워크와 함께 사용되는 STMC도 훈련하고 평가. 번역 모델은 Luong(Luong et al., 2015) 또는 Bahdanau(Bahdanau et al., 2015) 주의와 함께 GRU(Gated Recurrent Units)(Chung et al., 2014)의 4개의 스택 레이어로 구성-> 이러한 모델은 GT gloss 번역하는 유사한 아키텍처의 이전 모델보다 성능이 뛰어남.  

 

-      Transformer

 

STMC-Transformer의 경우 G2T와 동일한 아키텍처로 Transformer 모델을 train.Ground truth gloss는 실제 수화의 단순화된 중간 표현일 뿐이므로 그것을 번역하는 것이 최상의 성능을 제공하지 않음. STMC-Transformer는 또한 GT glosses를 번역하는 Transformer보다 성능이 좋음. 이 결과는 또한 더 정확한 gloss를 출력하도록 인식 모델을 훈련하는 것이 번역을 향상시키지 않는다는 것을 보여줌!

 


6.    Qualitative comparison

G2T 및 S2G2T 모델의 출력 예(표 10)는 BLEU 점수가 낮더라도 번역 품질이 일반적으로 우수함을 보여줌. 대부분의 번역은 문장의 전체 의미를 변경하지 않거나 문법적 오류를 만들지 않는 단어 선택에 약간의 차이가 있을 수 있는데, 이는 BLEU가 SLT에 대한 인간의 유용한 기능을 잘 대표하지 않음을 시사함. G2T와 S2G2T 네트워크 간의 비교에 관해서는 S2G2T가 G2T를 능가하는 경우와 그 반대의 경우 사이에 명확한 패턴이 없는 것 같지만, 그러나 PHOENIX-Weather 2014T는 일기 예보 도메인으로 제한되며 보다 일반적인 실제 설정에서 모델의 성능을 완전히 평가하려면 더 넓은 도메인을 가진 SLT 데이터 세트가 필요하다는 점에 유의해야 함. 또한 부록 A.2에서 ASLG-PC12 말뭉치에 대한 샘플 G2T 출력을 제공.

 

 


 7.     Conclusions and Future Work

 

본 논문에서는 SLT용 Transformer, 특히 STMC-Transformer를 제안. 이 실험은 트랜스포머가 이전 RNN 기반 네트워크보다 더 나은 SLT 성능을 얻는 방법을 보여주고, 또한 PHOENIX-Weather 2014T 및 ASLG-PC12 데이터 세트의 다양한 번역 작업에 대해 새로운 최첨단 결과를 보여줌. 핵심 발견은 GT 용어를 번역하는 대신 토큰화를 위해 STMC 네트워크를 사용하여 더 나은 성능을 얻는다는 것이고, 이것은 reference glosses 자체가 차선책이기 때문에 glosses를 중간 표현으로 사용하는 현재 방법에 의문을 제기. Gloss supervision이 없는 종단 간 교육은 Camgoz et al. (2020)의 end to end모델은 아직 joint training model을 능가하지 않으며, 향후 작업으로 인식 및 번역 모델의 end to end training에 대한 작업을 계속하여 인식 모델이 번역을 최적화하는 중간 표현을 학습하거나 정보 손실이 적은 다른 수화 주석 체계를 사용하는 것이 좋다!

 

 

 

 

논문 출처 : https://arxiv.org/pdf/2004.00588v2.pdf