Об одном применении статистического метода А. А.
Марков
(Доложено в заседании Отделения Физико-математических наук
17 февраля 1916 г.).
(публикуется по тексту, изданному в "Известиях Императорской
Академии Наук", 1916г, орфография и пунктуация поправлены в соответствии с
современными нормами)
В ХХ-м томе "Известий Отделения Русского Языка и Словесности"
помещена интересная статья Н.А.Морозова "Лингвистические спектры",
посвященная вопросу о применении статистического метода к исследованию
речи различных писателей.
Подобное исследование, образец которого приведен в моей
заметке "Применение статистическаго исследования" (ИАН, 1913 г.), может
иметь большое значение, но только при условии, что постоянство итогов,
другими словами - устойчивость их, не принимается на веру, а
устанавливается в самом исследовании, при чем должен быть выяснен и размер
колебаний. Ссылки же на постоянство других итогов, если бы даже они были
совершенно верными, и на общий закон больших чисел нисколько не доказывают
устойчивости рассматриваемых итогов.
На указанное условие в статье "Лингвистические спектры" не
обращено надлежащего внимания; в ней нет и попытки доказать, что
приведенные итоги характерны для русских писателей, а не относятся только
к тем немногим отрывкам (по тысяче слов в каждом), которые были
подвергнуты подсчету. Вместо всякого доказательства мы находим, на стр.
101, следующее утверждение: "Возьмем хотя бы отрицание не. Подсчитайте - и
вы увидите, что на каждую тысячу отдельных слов у Толстого оно встречается
обыкновенно немного меньше 20 раз, у Пушкина и Гоголя около 20, а у
Тургенева значительно более, чем у них, - иногда свыше 30 раз. В общем же
колебания ее заключаются в промежутке от 12 до 35 раз на тысячу слов в
зависимости от склонности того или иного автора к отрицаниям. Все это
показывает, что служебная частица "не" в большой мере подвержена
индивидуальным колебаниям, т.е. определяет склад речи автора. То же самое
я в случае подсчета остальных служебных частиц".
Много ли произвел автор таких подсчетов, какие он предлагает
произвести читателю, неизвестно; но приведено им, в таблице XVI, для
Гоголя только 5, для Пушкина и Толстого по 4 числа, а для Тургенева всего
3, притом, довольно различные: 32, 16, 24.
Произведенный же мною подсчет (1) показал, что
"не" встречается у Пушкина в одной тысяче слов 32 раза ("Барышня
крестьянка", со слов "Лиза призналась, что поступок ее казался ей
легкомысленным..."), в другой - 9 ("Дубровский", с начала второй главы), а
в третьей - только 3 ("История Пугачевского бунта", первая тысяча слов).
Примеры большого разноглася итогов, относящихся к одному и
тому же писателю, встретились и автору "Лингвистических спектров", но он
приписал такое разногласие воображаемой особенности писателя (графа
Толстого): какой-то специальной корректурной обработке.
Стоит, однако, подсчитать еще несколько тысяч слов, чтобы
противоречивые выводы получились и для других писателей. Например, по
данным "Лингвистических спектров" устанавливается значительное
преобладание у Пушкина предлога "в" над предлогом "на".
40, 32, 46, 43 "в" и 12, 12, 11, 12 "на";
а подсчет тысячи слов с начала второй главы повести
"Капитанская дочка" дает совесть иной результат:
15 "в" и 21 "на".
Число 15 можно увеличить до 20, если присчитать те "в",
которыми начинаются слова "вправо", "въезжать" и т. п., но существо дела
от этого не изменится. Вместо чисел
1,2 для "в" и 0,6 для "на",
приведенных для этой повести в таблице VI (стр. 112), новый
подсчет даст числа
0,58 (или 0,8) для "в" и 1,05 для "на",
которые по той же таблице VI приходится признать характерными
для Гоголя.
Согласно таблицам XVI и VI речь Гоголя отличается
сравнительно редким употреблением "в" и частым употреблением "на": в XVI
таблице указаны для произведений Гоголя такие числа
15, 16, 23, 23, 22 "в" и 24, 26, 26, 15, 20 "на"
и по ним выведены числа таблицы VI:
0,58, 0,61, 0,9 для "в" и 1,2, 1,3, 1,3 для "на".
В последней таблице пропущена пара чисел
23\26 = 0,88... и 15\20 = 0,75,
которая также вытекает из таблицы XVI ("Нос", 1-ый спектр),
но уже не указывает на пpeoблaдaниe предлога "на". Со своей стороны могу
прибавить результаты подсчета первой тысячи слов девятой главы первой
части поэмы "Мертвые души":
37 "в" и 12 "нa";
откуда по разделении на 26 и 20 получаем числа
1,4... и 0,6,
которые согласно таблице VI соответствуют речи Пушкина, а не
Гоголя.
Итак, подсчеты немногих тысяч последовательных слов в
произведениях различных писателей, подобные приведенным в таблице XVI
статьи "Лингвистические спектры", представляют шаткое основание для
заключений об особенностях речи каждого из этих писателей; замена одних
тысяч слов другими может превращать такие заключения в противоположные,
что и указывает на сомнительность их.
Только значительное расширение поля исследования (подсчет не
5 тысяч, а сотен тысяч слов) может придать заключениям некоторую степень
основательности, если только границы итогов различных писателей окажутся
резко отделенными, а не обнаружится другое весьма вероятное
обстоятельство, что итоги всех писателей будут колебаться около одного
среднего числа, подчиняясь общим законам языка.
Наконец, что касается таких вспомогательных средств, как
преобразование одной таблицы в другую (XVI в VI) посредством осо6ых
делителей (1\26, 1\20 и т.п.) и чертежи, то они существа дела не изменяют
и потому особого значения не имеют.
(1) Во всех случаях я считал "не" в виде
отдельного слова (по изданию 1882 года); если же присоединить и слова,
начинающиеся с отрицания "не", то придется увеличить все числа; однако в
последней тысяче никак нельзя насчитать более 8 "не", а в первой их не
менее 32. К
тексту
17 февраля 1916 года. |