[1]L. Ngo Dinh, H. Le Ngoc, and L. Quoc Phan, “Ohyeah at VLSP2022-EVJVQA challenge: a jointly language-image model for multilingual visual question answering”, J. Comput. Sci. Cybern., vol. 39, no. 4, p. 381–391, Dec. 2023.