Document Understanding Dataset and Evaluation (DUDE)

Pragniemy ponownej oceny obecnych metodologii i podjęcia wyzwania, jakim jest stworzenie bardziej praktycznych metod porównań w domenie Rozumienia Dokumentów. Zbiór i metodologia DUDE ma na celu postawienie nowych wyzwań w zakresie zrozumienia Dokumentów Bogatych Wizualnie. Przedstawiamy zbiór danych z nowymi rodzajami pytań, odpowiedzi i układem dokumentów w oparciu o wielobranżowe, wielodomenowe i wielostronicowe Dokumenty Bogate Wizualnie o różnym pochodzeniu i dacie. Co więcej, przesuwamy granice obecnych metod, tworząc wielozadaniowe i wielodomenowe konfiguracje ewaluacji, które dokładniej symulują rzeczywiste sytuacje, w których pożądane są silne uogólnienia i adaptacje w warunkach niskich zasobów. DUDE ma na celu ustanowienie nowego standardu jako bardziej praktycznego, długotrwałego punktu odniesienia dla społeczności i mamy nadzieję, że doprowadzi to do przyszłych rozszerzeń i wkładu, które odpowiadają na wyzwania świata rzeczywistego. Na koniec nasza praca pokazuje, jak ważne jest znalezienie skuteczniejszych sposobów modelowania języka, obrazów i układu w Rozumieniu Dokumentów.

Materiał konferencyjny:

2023 IEEE/CVF International Conference on Computer Vision - ICCV 2023. Proceedings, 2023, Institute of Electrical and Electronics Engineers

Autorzy z PW:

Paweł Józiak

Dyscyplina:

matematyka

Rok wydania:

2024

Zobacz publikację

Zobacz więcej informacji o publikacji