Nowy w NN's. CNN można nauczyć wykrywać jeden obiekt na obrazie. Jednak co zrobić, jeśli każdy obraz w zestawie danych może zawierać dowolną n # obiektów. Nie tworzy, czy to problem dla CNNS, ponieważ wyjściowy gęsta warstwa powinna być stałym rozmiarze? Jak można rozwiązać ten problem?
Na przykład: Powiedzmy, że losowo wybrał 2 zdjęcia z tego zestawu. Obraz 1 zawiera 2 obiektu, a obraz 2 zawiera 5 obiektów. Etykieta y dla img1 będzie zawierać współrzędne ograniczające ramy dla 2 obiektów; etykieta y dla img2 będzie zawierać współrzędne dla 5 obiektów-wektor y o wiele więcej, niż img1.
Możliwe rozwiązanie? :
Trzeba by było znaleźć zdjęcie z największą liczbą obiektów (należy to wartość "M"). Załóżmy również, że obiekt ma 4 współrzędne. Jeśli M = 5, potrzebuję wektor y jest równa 20. Jeśli obraz zawiera 1 obiekt wektor y będzie zawierać 4 niezerowych wartości I 16 zerowych wartości. 4 niezerowych wartości będą reprezentować współrzędne, a 16 zerowych wartości będą reprezentować współrzędne innych nieistniejących obiektów.