[1]T. Thai and S. T. Luu, “Integrating image features with convolutional sequence-to-sequence network for multilingual visual question answering”, J. Comput. Sci. Cybern., vol. 40, no. 2, p. 117–134, Mar. 2024.