Особенности компьютерной обработки социологических данных
Автор: Антонов Георгий Вячеславович
Журнал: Logos et Praxis @logos-et-praxis
Рубрика: Социология и социальные технологии
Статья в выпуске: 5, 2006 года.
Бесплатный доступ
Короткий адрес: https://sciup.org/14974102
IDR: 14974102
Текст статьи Особенности компьютерной обработки социологических данных
Работа с программами обработки социологических данных начинается уже на этапе подготовки вопросов анкеты. Прежде всего это касается закрытых вопросов, поскольку их конструкция изначально подразумевает присвоение строго определенных числовых кодов всем возможным вариантам ответов. Причем вне зависимости от типа шкалы и уровня измерения любая программа статистической обработки данных работает именно с численными значениями наблюдаемых признаков.
Пример вопроса с номинальной шкалой:
N. Укажите Ваш пол:
-
1 – Мужской
-
2 – Женский
В этом случае обработке с помощью статистической программы подлежат числа «1» и «2». Здесь следует помнить, что шкала, по которой получены эти численные значения, является шкалой очень низкого уровня. С подобными значениями возможно минимальное количество математических операций, а конкретно – некоторые приемы описательной и непараметрической статистики.
Пример вопроса с порядковой, или ранговой, шкалой (в некоторых источниках литературы обосновываются различия между названными типами шкал, но в данном случае это – несущественно):
N. Вы следите за своим здоровьем?
-
1 – Да, постоянно
-
2 – Практически постоянно
-
3 – К сожалению, это не всегда получается
-
4 – Почти нет
-
5 – Нет
Здесь в обработку пойдут числа «1», «2», «3», «4» и «5». И снова не следует забывать, как были получены приведенные чис- ленные значения, поскольку они характеризуют не само изучаемое явление (в данном примере – отношение респондентов к собственному здоровью), а лишь то, как исследователь пожелал условно обозначить разные проявления одного и того же качественного признака. Тем не менее данный тип шкалы гораздо «богаче» на отношения, чем шкала номинальная, а если вспомнить, что практически для каждого статистического теста можно найти непараметрический аналог, то здесь уже появляется возможность для применения достаточно большого числа математических методов.
И, наконец, интервальная шкала:
N. Сколько лет Вы работаете на данном предприятии?
-
1 – До 5 лет включительно
-
2 – 6–10 лет
-
3 – 11–15 лет
-
4 – 16–20 лет
-
5 – 21–25 лет
-
6 – 26–30 лет
-
7 – 31–35 лет
-
8 – 36–40 лет
-
9 – 41 год и более
В этом случае в программу обработки подставляются численные значения от «1» до «9». С данными, полученными по интервальной шкале, можно производить практически весь набор операций, которым располагает современная математическая статистика. Но и здесь существуют некоторые ограничения. В приведенном примере использован тип шкалы с равными интервалами, где пропорциональность числовых кодов ответов соответствует пропорциональности интервалов, в данном случае – их верхним границам. Скажем, если взять соотношение восьмого и второго вариантов ответов, то 8 : 2 = 4 (числовые коды) и 40 : 10 = 4 (верхние границы интервалов). Также обстоит дело и с другими вариантами ответов в приведенном примере (2 : 1 = 2 и, соответственно, 10 : 5 = 2 и т. д.).
Но если используется шкала с неравными интервалами, то корректность применения математических методов, предназначенных для работы с данными высокого уровня, уже требует специального обоснования. Особенно это касается случаев, когда используется логарифмическая шкала или интервалы получены более сложным способом.
Пример логарифмической интервальной шкалы:
N. Укажите Ваш уровень дохода:
-
1 – До 1 тыс. руб. в месяц включительно
-
2 – От 1 001 руб. до 10 тыс. руб. в месяц
-
3 – От 10 001 руб. до 100 тыс. руб. в месяц
-
4 – От 100 001 руб. до 1 млн руб. в месяц
-
5 – Более 1 млн руб. в месяц
Очевидно, что в приведенном примере верхняя граница каждого последующего интервала на порядок (в 10 раз) больше, чем у предыдущего, то есть на одну и ту же величину увеличивается не численное значение признака, а показатель его степени, или логарифм. Отсюда и название шкалы.
Сложнее обстоит дело с открытыми вопросами, поскольку все полученные на них ответы еще нужно каким-то образом сгруппировать по критериям, существенным с точки зрения исследователя, а затем каждой группе присвоить собственный числовой код. Этот числовой код пойдет в обработку, поэтому при выборе критерия группировки и собственно численных значений следует проявлять особую аккуратность.
Существует, правда, одна разновидность открытых вопросов, по которым полученные данные обрабатывать легче всего. Это – вопросы, ответы на которые без предварительных операций с ними уже можно подставлять в программу обработки данных. Например:
N. Укажите Ваш возраст: _______________
В таком случае в программу обработки подставляется само численное значение возраста, то есть количество полных лет. Приведенный ранее вопрос относительно до- хода также можно сделать открытым, но здесь единица измерения не столь очевидна, как в случае с возрастом. Доход – это количество денежных единиц в единицу времени, то есть это могут быть и рубли в месяц, и доллары в год, и т. д. Поэтому в подобных вопросах, если они открытые, желательно специально указывать единицы измерения. Например:
N. Каков средний доход на одного члена Вашей семьи (рублей в месяц)? ______________
Вопросы относительно возраста и дохода – это также примеры интервальных шкал (иногда подобную разновидность интервальной шкалы называют метрической или относительной, но, опять-таки, не это главное). Главное, что ответы здесь численно выражены, а различия между ними можно сравнивать. Скажем, доход в 10 000 рублей в месяц – это в 2 раза больше, чем 5 000 рублей в месяц. Численные значения имеют вполне понятный и реальный физический смысл.
Если ответы на открытый вопрос не могут быть непосредственно подставлены в программу обработки данных, то предстоит трудоемкая процедура их распределения в более или менее однородные группы. В каждую такую группу попадают ответы, имеющие приблизительно одинаковый смысл по критерию, выбранному исследователем. Критерий этот определяется целью и задачами каждого отдельно взятого исследования.
Пример из практики:
N. Какие каналы телевидения и телепередачи Вы чаще всего смотрите?_______________
В приведенном примере подробность и развернутость ответов на вопрос являлись основным критерием их оценки. Респонденты отвечали следующим образом:
-
- «Никакие», «Я не смотрю телевизор», «Когда как», «Иногда ОРТ» и т. п.;
-
- «ОРТ, РТР, ТВ-6», «Новости и художественные фильмы», «Музыкальные, спортивные и развлекательные программы» и т. п.;
-
- «ОРТ, РТР, НТВ, ТВ-6, СТС, МТВ, фильмы, новости, сериалы, музыку»,
«“Своя игра”, “Умники и умницы”, “Горячая десятка”, “Шоу-бизнес”, кино на СТС, триллеры, “До 16 и старше”, Радзинского», «В свободное время смотрю все, что показывают по телевизору» и т. п.
Очевидно, что приведенные группы ответов респондентов различаются по степени увлеченности последних таким способом заполнения досуга, как просмотр телепередач. Причем оценивалась не только количественная, но и качественная составляющая ответов, поскольку о высоком интересе к телевизионной продукции свидетельствует не только большое количество указанных в ответе единиц такой продукции, но и точное указание названий конкретных фильмов или передач, а не просто их жанра. Ясно, что проявлять подобный энтузиазм при описании того, что именно он смотрит, может лишь респондент, у которого просмотр телепередач является одним из любимых видов деятельности и занимает значительную часть свободного времени. Таким способом выяснялась интенсивность восприятия респондентами информации посредством СМИ.
Ответам, свидетельствующим о низкой интенсивности восприятия респондентом информации, подаваемой СМИ, был присвоен числовой код «0», свидетельствующим о средней интенсивности – числовой код «1» и свидетельствующим о высокой степени интенсивности – числовой код «2». Именно эти численные значения пошли в обработку. В подобных случаях также следует помнить, что числа «0», «1» и «2» не имеют физического смысла, поскольку указанным вариантам ответов можно было бы с тем же успехом присваивать значения соответственно «–1», «0» и «1» или «1», «2» и «3» или какие-то еще. Важен только их порядок, откуда и название шкалы.
Порядковая шкала – это, видимо, наиболее распространенный тип шкалы в социологических опросах, но есть еще шкалы частично порядковые. Например:
N. Способны ли Вы мириться с несоответствием Вашего брачного партнера Вашим представлениям об идеальном спутнике жизни?
-
1 – Да
-
2 – Скорее да, чем нет
-
3 – Пока да
-
4 – Скорее нет, чем да
-
5 – Нет
-
6 – Мой спутник жизни соответствует идеалу
-
7 – Затрудняюсь ответить
Очевидно, что первые пять вариантов ответов представляют собой порядковую шкалу, а два последних к ней не относятся, поэтому с такими данными нельзя производить даже те математические операции, которые предусмотрены для порядковых шкал. Причем если 6-я позиция шкалы вопросов социологической анкеты достаточно нехарактерна, то 7-я – это явление весьма распространенное, поскольку респонденту во многих случаях должна быть предоставлена возможность уклониться от ответа или выразить неопределенное мнение. Это необходимо для повышения корректности собираемой первичной информации.
Более того, даже номинальные шкалы могут быть таковыми только частично. Полученные по таким шкалам данные могут вообще не подлежать никакой обработке. Практически единственное, что в подобных случаях можно сделать – это подсчитать количество ответивших на данный вопрос всего (абсолютное значение и в процентах от общего числа респондентов), количество выбравших каждый вариант ответа (абсолютное значение и процент от общего числа респондентов и общего числа ответивших на вопрос) и то же самое сделать по подвыборкам, выделяемым по значимым для исследователя критериям (скажем, можно выяснить характер распределения ответов на вопрос в разных возрастных группах и ничего больше).
Пример подобного вопроса:
Ваша религиозная принадлежность:
-
1 – Православие
-
2 – Католичество
-
3 – Протестантизм
-
4 – Ислам
-
5 – Буддизм
-
6 – Иудаизм
-
7 – Иная (напишите)__________________
-
8 – Отсутствует
Понятно, что собственно номинальную шкалу образуют только первые шесть позиций, тогда как две оставшиеся относятся к ней достаточно условно. Более того, это – полуоткрытый вопрос, поскольку 7-я позиция предполагает собственный вариант ответа. Таких вариантов может быть достаточно много и каждый из них потребует собственного числового кода.
Существуют и более сложные варианты полуоткрытых вопросов. Например:
N. Ваши действия в случае возможной незапланированной беременности:
-
1 – Рождение ребенка
-
2 – Отказ от рождения ребенка (аборт)
-
3 – Это будет зависеть от обстоятельств (если можете, укажите от каких именно)
-
4 – Затрудняюсь ответить
Фактически здесь содержится два вопроса: первый касается собственно действий в случае незапланированной беременности, а второй – обстоятельств, в которых, по мнению респондента, возможно ее прерывание. Обрабатываться такие данные тоже должны как полученные по двум разным шкалам, обе из которых – номинальные (в лучшем случае одна из них – частично порядковая). По возможности вопросов такой конструкции следует избегать, так как обрабатывать их трудно (поскольку не всегда понятно, какое же численное значение нужно подставлять в программу).
Бывают и такие случаи, когда один вопрос обрабатывается не как два, а как гораздо большее количество вопросов. Например:
N. От чего, на Ваш взгляд, зависит стабильность брака?
-
1 – Взаимное чувство любви друг к другу
-
2 – Супружеская верность
-
3 – Отсутствие проблем в сексуальной сфере
-
4 – Духовное родство
-
5 – Наличие общих взглядов и интересов
-
6 – Стабильное материальное положение семьи
-
7 – Ответственность супругов перед семьей 8 – Одинаковая религиозная принадлежность
-
9 – Совместимость характеров, темпераментов, психологическая совместимость
10– Совпадение брачных ожиданий с реальной ситуацией
-
11 – Отсутствие проблем в бытовой сфере
-
12 – Иное (напишите) ________________
-
13 – Затрудняюсь ответить
На первый взгляд, в приведенном примере использована номинальная шкала, но так ли это на самом деле? Если дать респонденту возможность выбора только одного варианта ответа, то – да. Но ведь ясно, что стабильность брака может, по мнению респондента, в равной степени зависеть от нескольких из перечисленных факторов или от всех сразу. Поэтому респонденту следует разрешить выбирать любое количество вариантов ответов, а также сформулировать собственный. Тогда это уже не один вопрос, а, как минимум, одиннадцать, на каждый из которых можно ответить «Да», «Нет» или «Затрудняюсь ответить». То есть если респондент выбирает какой-то вариант ответа, это значит «Да», если не выбирает, значит «Нет», а если выбрал 13-й вариант, то на все одиннадцать вопросов он затруднился дать ответ.
Обрабатывается приведенный вопрос именно как одиннадцать отдельных вопросов, где каждому варианту ответа («Да», «Нет» или «Затрудняюсь ответить») присваивается числовой код соответственно «2», «0» и «1» или какой-нибудь другой. Вот эти численные значения и идут в обработку. Получается, что фактически вопрос «От чего, на Ваш взгляд, зависит стабильность брака?» состоит из вопросов «Зависит ли, на Ваш взгляд, стабильность брака от взаимного чувства любви друг к другу?», «Зависит ли, на Ваш взгляд, стабильность брака от супружеской верности?» и т. д. с вариантами ответов «Да», «Нет», «Затрудняюсь ответить».
Наконец, следует упомянуть о ситуации, когда, на первый взгляд, данные получены по интервальной шкале, более того, сам ответ непосредственно можно подставлять в программу обработки, но на самом деле это всего лишь порядковая шкала. Например, хорошо известно, что с социологической точки зрения одним из критериев социальной стратификации выступает уровень образования. Как он измеряется?
Одним из показателей может служить количество лет, потраченных на обучение в официально признанном образовательном учреждении. Такие учреждения по их окончании должны выдавать соответствующий документ установленного образца (аттестат, диплом и т. д.). Тогда в нашей стране начальное образование – это 3 или 4 года обучения, среднее – 10 или 11 лет, высшее – от 14 до 17 лет, еще 3 или 4 года может быть потрачено на аспирантуру и еще 5 – на докторантуру. В мировой практике в качестве максимально возможного образовательного уровня принят срок обучения в 25 лет.
Допустим, респондентам предложен открытый вопрос по поводу количества лет, затраченных на обучение. Затем полученные численные значения непосредственно подставлены в программу обработки данных. Можно ли с этими значениями производить все математические операции, использование которых допускается при работе с интервальными шкалами? Очевидно нет, хотя бы уже потому, что построенная в приведенном примере шкала не является непрерывной. Скажем, невозможно иметь образовательный уровень, равный одному, двум, пяти, шести, двенадцати и т. д. годам обучения, поскольку школы не дают официального документа об окончании двух или пяти классов, а вузы – об окончании одного или двух курсов.
Это значит, что не все позиции такой шкалы имеют интересующий исследовате- ля смысл. Здесь уже некорректно, например, вычислять линейный коэффициент корреляции Пирсона, поскольку для этого требуется расчет средних арифметических значений и стандартных отклонений сравниваемых признаков. Конечно, легко рассчитать среднее арифметическое между средним образованием (10 лет обучения) и высшим (15 лет) – (10 + 15) : 2 = 12,5. Но в данном случае говорить об уровне образования, равном 12,5 годам обучения, бессмысленно, поскольку такого уровня образования в нашей стране не бывает.
Более того, не имеют физического смысла даже количественные соотношения между различными сроками обучения. Например, 15 лет – это в полтора раза больше, чем 10 лет, но значит ли это, что высшее образование – это уровень образования, в полтора раза более высокий, чем среднее? Нет, поскольку утверждать такое – тоже бессмысленно. Высшее образование просто выше, чем среднее, но насколько или во сколько раз – сказать невозможно.
Перечисленные особенности обязательно следует учитывать при работе с первичной социологической информацией, в противном случае полученные данные нельзя будет преподносить в качестве содержательных выводов (именно по причине отсутствия реального физического смысла у численных значений, характеризующих, на первый взгляд, изучаемую совокупность).