Konwerter homoglifów i mylących znaków

Konwerter homoglifów — wykrywanie i czyszczenie Unicode

Konwersja jest najlepszym rozwiązaniem: mapowane elementy mylące i składanie NFKC są deterministyczne, ale niektóre prawidłowe Unicode nie zostaną oznaczone.

Twój tekst

Wklej lub pisz — wyniki są aktualizowane w trakcie pisania (lekko odrzucane w przypadku długiego wprowadzania).

zeskanowano 0 znaków
0 podejrzanych
Zachowaj czytelny Unicode
Tryb konwersji
Oryginał (zaznaczono podejrzane znaki)

Podejrzane znaki w widoku oryginalnym są podkreślone i oznaczone jako „podejrzane”. oprócz podkreślenia koloru.

Oczyszczone wyjście
Analiza charakteru

Nie ma jeszcze znaków do analizy. Wklej tekst powyżej, aby zobaczyć zestawienie homoglifów i elementów mylących.

Wykrywa wizualnie mylące znaki Unicode i zamienia je na bezpieczniejsze ASCII lub znormalizowany Unicode. Darmowo w przeglądarce.

Co robi ten konwerter homoglifów

Konwerter homoglifów wykrywa znaki Unicode, które mogą wyglądać jak zwykłe litery lub cyfry łacińskie (co jest mylące) i pokazuje, w jaki sposób zostały znormalizowane lub zastąpione. Możesz także uruchomić Generuj homoglify, aby zbudować deterministyczne ciągi przypominające fałszywkę ze zwykłego ASCII do testów. Ten darmowy konwerter elementów mylących i moduł sprawdzania kodów konfiguracyjnych Unicode działają całkowicie w przeglądarce — użyj go jako narzędzia do normalizacji Unicode, narzędzia do czyszczenia fałszywego tekstu lub konwertera znaków podobnych do zabezpieczeń i moderacji.

Jak korzystać z tego narzędzia do normalizacji Unicode

  1. Wklej lub wpisz tekst, który chcesz sprawdzić w obszarze wprowadzania.
  2. Wybierz opcję Zachowaj czytelny Unicode, Ścisłe zastępcze ASCII lub Generuj homoglify, w zależności od tego, czy czyścisz wklejony tekst, czy tworzysz próbki testowe z ASCII.
  3. Porównaj oryginał (z wyróżnieniami) i wydruk obok siebie; przejrzyj tabelę analizy pod kątem punktów kodowych i powodów.
  4. Użyj opcji Kopiuj tekst wyjściowy, aby skopiować wynik, lub Wyczyść, aby zresetować.

Tryby konwersji: czytelny Unicode vs Unicode do ASCII vs generowanie

  • Zachowaj czytelny Unicode najpierw stosuje dołączoną mapę, którą można pomylić, a następnie normalizację NFKC, gdy zmienia znak. Dane wyjściowe mogą nadal zawierać litery spoza zestawu ASCII, które nie zostały oznaczone.
  • Ścisła rezerwa ASCII wykorzystuje te same reguły wykrywania, ale preferuje zamienniki ASCII z mapy. Postacie, których nie ma na mapie, pozostają bez zmian, chyba że NFKC je zmieni; ten tryb jest bardziej rygorystyczny i lepszy w przypadku procedur czyszczenia fałszywych tekstów.
  • Generowanie homoglifów przesuwa wprowadzone dane od lewej do prawej i zastępuje każdą literę lub cyfrę ASCII pojedynczym deterministycznym homoglifem z tej samej mapy w pakiecie (odwrotność czyszczenia). Znaki bez wybranego zamiennika pozostają w kodzie ASCII.

Co tutaj uważa się za podejrzane

W trybach czyszczenia znak jest oznaczany, gdy można go pomylić ze zdefiniowanym zamiennikiem lub gdy normalizacja NFKC go zmienia (na przykład cyfry o pełnej szerokości). W trybie generowania „podejrzane” oznacza każdą pozycję, w której zastąpiono literę lub cyfrę ASCII. To nie jest pełny audyt bezpieczeństwa Unicode — tylko reguły deterministyczne.

Typowe przypadki użycia

  • Sprawdzanie sfałszowanych nazw użytkowników, domen lub ataków homoglifowych w wklejonych ciągach znaków.
  • Przegląd moderacji oraz zaufania i bezpieczeństwa sztuczek z podobnymi postaciami.
  • Debugowanie programistów problemów z kodowaniem wraz z widokiem detektora homoglifów.

Ograniczenia i uwagi dotyczące bezpieczeństwa

Dołączona mapa obejmuje popularne wersje cyrylicy, greckie i podobne do pełnej szerokości — nie wszystkie, które można pomylić z Unicode. Tryb generowania przeznaczony jest wyłącznie do autoryzowanych testów; nie używaj go do oszukiwania ludzi lub omijania zabezpieczeń. Wyniki są deterministycznymi, a nie wynikami ryzyka opartymi na uczeniu maszynowym. W przypadku decyzji o dużej stawce zawsze łącz się z weryfikacją ludzką.

Prywatność

Całe wykrywanie i konwersja działają lokalnie w JavaScript po załadowaniu strony. Żaden tekst nie jest wysyłany do serwera w celu przetworzenia.

Często zadawane pytania

Co to jest homoglif?

Hoglif to znak, który wygląda jak inny znak z innego pisma lub kodowania, np. cyrylica „а”, która przypomina łacińskie „a”. Atakujący wykorzystują je w fałszywych domenach, nazwach użytkowników i wiadomościach. To narzędzie wyświetla te znaki z punktami kodowymi i zamiennikami.

Czym to się różni od normalizacji Unicode?

Normalizacja Unicode (na przykład NFKC) składa warianty kompatybilności i szerokości w standardowy sposób. To narzędzie łączy NFKC z małą, wyraźną, możliwą do pomylenia mapą, dzięki czemu możesz zobaczyć, dlaczego każdy znak został oflagowany — przydatne poza zwykłym przejściem narzędzia normalizacji Unicode.

Czy ścisły tryb ASCII zmieni prawidłowy tekst w języku innym niż angielski?

Ścisła awaria ASCII zastępuje znaki pojawiające się na dołączonej mapie, którą można pomylić, lub zmieniające się w NFKC. Pozostałe litery spoza zestawu ASCII pozostają niezmienione. Prawidłowy tekst może nadal ulec zmianie, jeśli zawiera te odwzorowane znaki, dlatego przejrzyj listę analiz.

Czy mój SMS jest wysyłany na serwer?

Nie. Po załadowaniu strony wykrywanie i konwersja wykorzystują wyłącznie JavaScript. Ten konwerter mylących danych nie przesyła Twojej pasty do analizy.

Czy to wykryje każdy spoof?

Nie. Zasięg jest deterministyczny i oparty na mapach, a nie na uczeniu maszynowym. Pomaga w przypadku typowych sztuczek z podobnymi postaciami, ale nie stanowi pełnego audytu bezpieczeństwa.

Do czego służy tryb Generuj homoglify?

Zastępuje litery i cyfry ASCII we wprowadzanych danych deterministycznymi obrazami z tej samej mapy, która jest używana do czyszczenia — jest to przydatne do tworzenia ciągów testowych w autoryzowanych środowiskach (na przykład moderowana kontrola jakości). Nie służy do podszywania się pod inne osoby ani omijania zabezpieczeń.