Сколько слов нужно знать, чтобы понять текст

  1. Сколько слов нужно знать, чтобы понять текст на английском?
  2. Сколько слов нужно знать, чтобы понять текст на польском языке?
  3. Сколько слов нужно знать, чтобы понять текст на немецком языке?
  4. Сколько слов нужно знать, чтобы понять текст на французском?
  5. Сколько слов нужно знать, чтобы понять арабский текст?
  6. Если вы хотите провести подобный эксперимент самостоятельно, вот краткое пошаговое руководство:

Несколько дней назад я начал рабочий проект по расширению моего словарного запаса на хинди, основанный на диалогах из фильма «Замороженные» («Frozen») - больше информации здесь , Один из вопросов, которые у меня были в то время, был очень интересным: сколько слов нужно знать, чтобы понять текст?

Я также был вдохновлен статьей: Очень быстрое изучение языков - с помощью некоторой базовой науки о данных чей автор собрал субтитры для многих эпизодов своего любимого сериала на шведском языке и проанализировал содержащиеся в них слова, используя разработанный им сценарий. Он пришел к выводу, что в случае этого языка принцип Парето действительно работает - 20% слов было достаточно, чтобы понять 80% текста.

Я решил провести аналогичный эксперимент, используя субтитры для фильма Frozen на польском, английском, немецком, французском и арабском языках.

Мне было интересно следующее:

  1. Понимают ли 20% слов в субтитрах 80% всего текста на каждом из этих языков?
  2. Относится ли подобная пропорция только к языкам, в которых разнообразие глаголов и существительных очень простое, например, английский, шведский и т. Д.? Это также относится к изучению языков, таких как польский, где слова могут быть найдены в различных формах

Я сделал следующий план для выполнения:

  1. Я буду использовать субтитры к фильму «Земля льда» на разных языках и разбью все предложения на отдельные слова
  2. К слову я отнесусь:
    1. Все слова, включая их собственные имена, например, Эльза, Анна и т. Д.
    2. Любая форма слова, которое появляется в тексте. Например, формы глагола «есть», «был», «будет» или существительные: «снеговик», «снеговик» будут рассматриваться как отдельные слова.
    3. Слова, к которым присоединяется апостроф, будут рассматриваться как одно слово, например, «я», «он» на английском языке или «c'est» на французском языке.
    4. Слова, объединенные с дефисом, в свою очередь, сломают, например, «аттрип-мои» по-французски, два слова «аттра» и «мой»
    5. Если слово может иметь два значения, я включил их как одно слово, например, «возможно» в смысле «возможно» и «возможно» в смысле «он / она может» - это одно слово в моем анализе
    6. Если в правописании слово связано с другим, например арабским «i» или «و», оно будет рассматриваться как часть следующего слова. Так, например, «ولكن» - это одно слово, а не два.

Вот результаты моих экспериментов:

Сколько слов нужно знать, чтобы понять текст на английском?

Вот основные данные: Вот основные данные:

  • количество всех слов (включая повторы): 7747
  • количество отдельных слов: 1241
  • слова повторяются в среднем: 6,2 раза
процент слов:позволяет понять:

5% 52,3% 10% 65,64% 20% 78,55% 35% 87,20% 50% 91,98%

10 самых распространенных слов:

  • ты, я, это, это, и, нет, это я

Сколько слов нужно знать, чтобы понять текст на польском языке?

Вот основные данные: Вот основные данные:

  • количество всех слов (включая повторы): 6374
  • количество отдельных слов: 1885
  • слова повторяются в среднем: 3,4 раза
процент слов:позволяет понять:

5% 48,59% 10% 59,81% 20% 70,76% 35% 80,31% 50% 85,21%

10 самых распространенных слов:

  • нет, это, есть, и, в, что, с, да, на

Сколько слов нужно знать, чтобы понять текст на немецком языке?

Вот основные данные: Вот основные данные:

  • количество всех слов (включая повторы): 6022
  • количество отдельных слов: 1366
  • слова повторяются в среднем: 4,4 раза
Процент слов:позволяет понять:

5% 49,04% 10% 63,05% 20% 75,12% 35% 83,68% 50% 88,66%

10 самых распространенных слов:

  • ich, ist, du, nicht, das, und, sie, es, вихрь, умереть

Сколько слов нужно знать, чтобы понять текст на французском?

Вот основные данные: Вот основные данные:

  • количество всех слов (включая повторы): 7630
  • количество отдельных слов: 1471
  • слова повторяются в среднем: 5,2 раза
процент слов:позволяет понять:

5% 52,27% 10% 65,53% 20% 77,47% 35% 85,56% 50% 90,37%

10 самых распространенных слов:

  • я, де, ля, па, здесь, не, ле, с

Сколько слов нужно знать, чтобы понять арабский текст?

Вот основные данные: Вот основные данные:

  • количество всех слов (включая повторы): 5988
  • количество отдельных слов: 2441
  • слова повторяются в среднем: 2,5 раза
процент слов:позволяет понять:

5% 42,20% 10% 52,83% 20% 63,65% 35% 73,54% 50% 79,64%

10 самых распространенных слов:

  • لا, أن, من, هذا, في, كلا, آنا, أنا, على, ما

Принцип Парето хорошо работает в языках, где преобладают слова с небольшим количеством форм. В случае языков, где слова повторяются до 6 раз, таких как английский, знание 20% слов достаточно для понимания 80% текста.

То же самое относится к французскому и немецкому языкам, где 20% слов достаточно для понимания более 75-77% текста.

В случае с польским языком, где существует большое количество форм существительных, это уже хуже. 20% слов позволяют понять только 70%. Чтобы понять 80% текста, мы уже должны знать 35% слов.

Арабский язык упал хуже всего, но в основном потому, что слово «я» связано со следующим, что значительно сокращает количество повторений отдельных слов в тексте. Из того, что я заметил, в субтитрах, которые были в моем распоряжении, слова не всегда были отделены последовательным пробелом, который мог повлиять на результат. После отделения слова «i» результаты были намного больше похожи на польский язык (20% слов позволили понять 66% текста). Если бы я последовательно разделял все слова, я думаю, что результаты были бы еще ближе к польскому языку.

В целом можно сделать следующие выводы:

  • Знания 20% токенов достаточно для понимания 80% текста практически на каждом языке. Язык понимается здесь как единица, содержащая все формы выражения, поэтому, например, лексема «снеговик» также содержит в себе формы «снеговик», «снеговик» и т. Д.
  • Когда мы учитываем все слова, а не только лексемы, знание 20% позволяет понять 60-80% текста в зависимости от сложности грамматики языка. Чем больше число словесных и существительных форм и возможность объединения слов в одно целое, тем ниже процент понимания текста.
  • Сложность в изучении языка может быть определена показателем среднего числа повторений слов в тексте. Чем оно выше, тем меньше слов требуется для понимания текста. Конечно, также стоит принять во внимание второй показатель, который сложнее определить, то есть процент исключений из правила , когда мы имеем дело с созданием словесных и существительных форм. Например, на польском языке проблема состоит в том, чтобы создать форму дополнения к единственному числу существительных мужского рода. В других языках, в свою очередь, у нас может быть много исключений в случае глагольных вариаций. В свою очередь, эсперанто, который теоретически имеет больше форм, чем английский, легче освоить, потому что все формы регулярны.

Если вы хотите провести подобный эксперимент самостоятельно, вот краткое пошаговое руководство:

  1. Найти субтитры к фильмам и открыть их в Excel
  2. Замените все знаки препинания пробелами, например,.!? "();:
  3. Замените дефис и пробел пробелом или "-" на ""
  4. Замените двойные пробелы пробелами
  5. Сортировать столбец с предложениями по алфавиту
  6. Удалите строки с номерами строк в субтитрах и строки аннотаций времени, например, «00: 01: 56,866 -> 00: 02: 01,037»
  7. Выполните команду «Текст в столбцы» и установите «пробел» в качестве разделителя
  8. Отдельные слова будут выброшены в столбцы
  9. Сортировать каждый столбец, чтобы удалить пустые ячейки
  10. Переверните содержимое каждого столбца в первый столбец
  11. Добавьте заголовок столбца, например «Слова»
  12. Создайте сводную таблицу, вставив «Слова» в поле строки и «Количество слов» в поле данных

Сколько слов нужно знать, чтобы понять текст на английском?
Сколько слов нужно знать, чтобы понять текст на польском языке?
Сколько слов нужно знать, чтобы понять текст на немецком языке?
Сколько слов нужно знать, чтобы понять текст на французском?
Сколько слов нужно знать, чтобы понять арабский текст?