![]() ![]() |
場景文字視覺問答技術(shù)理論與實踐研究
場景文字視覺問答,是指給定場景圖像并回答場景圖像中場景文字相關(guān)問題的技術(shù)。這需要模型具備推理、分析和理解圖片中的文本信息的能力,這是多模態(tài)理解的重要基礎(chǔ),是從感知智能走向認知智能的重要一步。本書主要介紹場景文字視覺問答的最新進展和技術(shù)方向,主要內(nèi)容包括緒論、場景文字視覺問答相關(guān)概念、以場景文本語義為中心的場景文字視覺問答方法、基于文本語義上下文學(xué)習(xí)及空間表示的場景文字視覺問答方法以及基于圖像分割和匹配的場景文字視覺問答方法。
你還可能感興趣
我要評論
|