online.muni.cz Přejít na hlavní obsah

Jak funguje chytré psaní zpráv na mobilu

psani_na_mobil_web-890x445-1860361069.jpg

Díky chytrému neboli prediktivnímu psaní můžeme napsat slovo na méně stisků kláves, než umožňuje technologie. Rozdělit ho můžeme do dvou skupin. Jedna se uplatňuje u telefonů s číselnou klávesnicí, druhá má uplatnění u klávesnic s písmeny (např. QWERTY), a neomezuje se tudíž jen na telefony.

Na číselných klávesnicích je nejznámější technologií prediktivního psaní T9. Oproti opakovanému tisknutí jedné klávesy (tzv. Multi-tap) stiskneme každou klávesu jednou a software telefonu pomocí vestavěného slovníku uhádne, které slovo chceme napsat. Abychom napsali “telefon", nemusíme vyťukávat 8-3-3-5-5-5-3-3-3-3-3-6-6-6-6-6, stačí jen stisknout postupně 8-3-5-3-3-6-6.

T9 může ušetřit hodně stisků kláves. S dobrým slovníkem stiskneme přesně tolikrát, kolik má slovo písmen. Některý software pro predikci funguje bez slovníku slov a hádá na základě statistických informací o spoluvýskytu písmen a o výskytu skupin písmen pohromadě. V takovém slovníku je uložena informace o frekvenci hláskových skupin jako “př", “vá", “cí", “th" na začátku, uvnitř i na konci slova. Výhodou tohoto přístupu jsou malé paměťové nároky.

Pro hodnocení prediktivních technologií se používá míra KSPC (keyboard stroke per character), což je průměrný počet stisků klávesy potřebný k tomu, abychom napsali určité písmeno. Na obyčejné počítačové klávesnici je KSPC rovno jedné, u Multi-tap je přibližně 2,2, s T9 se KSPC velmi blíží jedné. Při vyčíslení KSPC se nezapočítávají překlepy, použití interpunkce, diakritiky či klávesy Shift a předpokládá se, že všechna slova jsou ve slovníku.

Cílem prediktivního psaní na písmenných klávesnicích je napsat slovo na méně stisků kláves než je délka slova, tzn. dosáhnout KSPC menší než jedna. Program musí uhádnout, jaké slovo chceme napsat, ještě předtím, než ho napíšeme. Software musí mít dobrý jazykový model a dobře natrénovaný model uživatele, k čemuž potřebujeme slovníky a matematiku.

Slovníky pro prediktivní psaní musí (na rozdíl od tištěných slovníků) obsahovat různé slovní tvary, například ke slovu dobrý i dobré, dobrá, dobrej, dobrého, lepší, nejlepší a další. Ke každému slovnímu tvaru obsahuje slovník informaci o tom, jak často se vyskytuje (frekvence).

Slovník kromě jednotlivých slov a jejich frekvencí obsahuje také frekvence dvojic či trojic sousedících slov (tzv. bigramy, trigramy nebo obecně n-gramy). Software nepotřebuje mít uloženy frekvence všech n-gramů, protože může využít specifického rozložení slov v textech. Bez ohledu na konkrétní jazyk totiž pozorujeme, že zatímco některá slova se vyskytují v každém textu (členy, spojky, předložky, sloveso být), zhruba polovina slov se vyskytuje v textu jen jednou. Ostatní slova tvoří shluky, které se rozpouštějí podobně nesnadno jako hrudky kakaa v mléce.

Známe-li tyto shluky, můžeme při výskytu prvního slova z nějakého shluku nabídnout následující slova. Shluky získáme výpočtem z jazykového korpusu, což je obrovský soubor textů v jednom jazyce. Slova v korpusu jsou uložena včetně kontextu. To znamená, že drží informaci o svých sousedech. Z poměru frekvence n-gramů a jednotlivých slov v korpusu lze dobře vypočítat nejpravděpodobnější slovo v textu. Například slovo “telefon" bude mít velkou pravděpodobnost výskytu po n-gramu “vypněte prosím svůj mobilní".

V mobilních zařízeních bývá jazykový model zredukovaný na pár desítek tisíc nejčastějších slov. Naše aktivní slovní zásoba (slova, která říkáme nebo píšeme) je totiž řádově menší než naše pasivní slovní zásoba (slova, kterým rozumíme). Mnoho mobilních aplikací také nabízí přidat slova z kontaktů nebo e-mailů. Program se mlčky učí ze zpráv, které píšete, a do jazykového modelu uživatele zahrne i vaše n-gramy. Při prediktivním psaní program nabízí přednostně vaše vlastní slova, tudíž s dobrým modelem klesá KSPC přibližně na 0,7.

Autorka působí v Centru zpracování přirozeného jazyka Fakulty informatiky MU a vyučuje v Centru počítačové lingvistiky Filozofické fakulty MU.

Masarykova univerzita | Masaryk university