xaker

Распознавание пола по словарному запасу

  • суббота, 28 июня 2014 г. в 03:12:52
http://www.xakep.ru/post/62698/

Есть разные методы деанонимизации пользователя в интернете. Один из них — лингвистическая экспертиза, когда анализируется текст всех сообщений анонима и делаются предположения о его поле, возрасте, образовании, национальности и т.д. например, есть определённые слова-маркеры, которые с высокой точностью позволяют определить пол человека.

Бельгийский Центр исследования чтения (Center for Reading Research) провёл уникальное, в своём роде, исследование словарного запаса населения. Более 500 000 человек согласились пройти простой словарный тест: на экране появляется слово, а пользователь указывает, известно ему это слово или нет.

Один из результатов исследования — разница словарного запаса мужчин и женщин. К примеру, вот список 12 слов с максимальной разницей между полами, с преимуществом в мужскую пользу. В скобках указан процент мужчин и женщин, которым знакомо слово.

  • кодек (88%, 48%)
  • соленоид (87%, 54%)
  • голем (89%, 56%)
  • мах/mach (93%, 63%) — в английском языке mach имеет единственное значение, в отличие от русского
  • хамви (88%, 58%)
  • клеймор (87%, 58%)
  • ятаган (86%, 58%)
  • кевлар (93%, 65%)
  • паладин (93%, 66%)
  • большевизм (85%, 60%)
  • бипед (86%, 61%)
  • дредноут (90%, 66%)

Далее такой же список, где преимущество на стороне женщин.

  • тафта (48%, 87%)
  • локоны/tresses (61%, 93%)
  • бутылочный ёршик/bottlebrush (58%, 89%)
  • оборка/flouncy (55%, 86%)
  • маскарпоне (60%, 90%)
  • декупаж (56%, 86%)
  • прогестерон (63%, 92%)
  • глициния (61%, 89%)
  • тауп (66%, 93%)
  • отделка оборками/flouncing (67%, 94%)
  • пион (70%, 96%)
  • корсаж (71%, 96%)

Собственно, это не нуждается в комментариях. Каждое слово говорит само за себя. С одной стороны — техника, наука, оружие, автомобили и политика. С другой стороны — цветы, рукоделие, внешность, еда и кухонная утварь.

Конечно, указанные слова-маркеры актуальны для английского языка, для русскоязычного населения нужно проводить отдельное исследование.

Кстати, Центр исследования чтения составил ещё несколько рейтингов. Вот парочка из них: 20 самых малоизвестных слов в английском языке, слова с максимальной разницей в узнаваемости между США и Великобританией.