Что такое диаграммы рассеяния и как их строить
Содержание
Комплексный анализ нередко связан с поиском взаимосвязей между разными наборами данных. В Microsoft Excel для этих задач предусмотрен целый ряд инструментов. В их число входит и диаграмма рассеяния — точечный график, отображающий значения двух переменных. В данном материале рассмотрим, какие задачи можно решать при помощи данного инструмента в Экселе.
Для чего нужны диаграммы рассеяния
Под диаграммой рассеяния понимают графическое отображение взаимосвязей между двумя либо несколькими переменными. Зависимость одной переменной от другой называется корреляцией. Область применения диаграммы рассеяния очень широкая. Для примера, с помощью такого графика можно определить уровень качества продукта, опираясь на сопутствующие факторы.
В зависимости от наличия предполагаемых следственных связей, диаграмма рассеяния в общих случаях позволяет проанализировать зависимость между причинами и следствиями, факторами или набором характеристик. Фактор, влияющий на определенный показатель, также называется факторным признаком, а следствие — результативным признаком. При построении диаграммы рассеяния, как правило, независимый параметр отображается на горизонтальной оси, в то время как зависимый — на вертикальной.
Отметим, что корреляционный анализ на основе графиков не во всех случаях носит достоверный характер. Иногда при построении может использоваться тестовый набор данных, либо обобщенные статистические сведения. В данном случае влияние одних переменных на другие могут носить случайный, а не закономерный характер. Тем не менее в большинстве ситуаций диаграмма рассеивания позволяет получить достоверное представление о влиянии тех или иных факторов на результативный признак. Подробнее о способах применения данного инструмента в Excel поговорим далее.
Как построить диаграмму рассеяния в Excel
При наличии набора статических данных, построить диаграмму рассеивания очень просто. По сути в Excel это будет обычная точечная диаграмма, которая применяется к взаимозависимым значениям в таблице. Существует несколько вариантов построения диаграмм, поэтому рассмотрим наиболее распространенные способы на примерах.
Простая диаграмма с маркерами
В первую очередь необходимо собрать данные, которые подлежат анализу с целью поиска зависимостей. Их необходимо представить в виде таблицы. Программные инструменты Excel позволяют создавать график с любым числом переменных. Однако целесообразно использовать диаграмму рассеяния с большим количеством данных.
В нашем примере предложена таблица, содержащая информацию о количестве посещенных занятий и оценках, полученных студентами на экзамене по определенной дисциплине. На основе этих данных строим диаграмму:
- Выделяем в нашем случае второй и третий столбец таблицы. Именно там содержатся данные, которые подлежат анализу.
- Далее открываем вкладку «Вставка», а затем в Панели инструментов выбираем «Вставить точечную диаграмму». Отметим, что требуется выбрать именно точечный вариант. Пузырьковая диаграмма, а также графики с прямыми для этих задач обычно не используются.
- В результате получаем готовую диаграмму, точки на которой отображают зависимость оценки (ось Y) от количества посещенных занятий (ось X). Для удобства применяем стиль диаграммы, меняя оформление на темное. Это необязательно, т.к. делается только для простоты восприятия.
Готовая диаграмма позволяет определить, как количество посещенных уроков влияет на оценку на экзамене. Можно заметить, что чем больше количество посещений, тем лучше результат на итоговом тесте. Это один из примеров статистического анализа данных с небольшим числом переменных. Создав график, можно довольно быстро оценить зависимость двух параметров. Каждая точка — это пересечение факторного и результативного признака. При наведении на одну из них программа показывает, какие данные из таблицы использовались при построении.
Отметим, что при создании диаграмм рассеяния могут использоваться и линейные графики. Однако такой способ оформления используется редко, так как он менее удобный и не рассчитан на обработку большого числа зависимостей. Точечный график в данных условиях воспринимается и интерпретируется легче. К тому же его проще редактировать, менять или искать новые значения, если они были добавлены в исходную таблицу.
Разброс в диаграмме рассеяния
Один из способов интерпретации результатов — оценка разброса. Иногда статические сведения, которые используются в качестве переменных при построении подобных графиков, не имеют корреляционных зависимостей. Другими словами, при анализе может использоваться набор данных, в которых отсутствует заметная взаимосвязь. Для примера, рассмотрим зависимость итоговых оценок от количества сметаны, съеденной перед экзаменом.
Если в предыдущем примере была заметная связь между числом посещений и итоговой оценкой, то в данном случае такая зависимость отсутствует. Об этом свидетельствует большой разброс между точками, что указывает на то, что факторный признак, размер которого определяется по оси Х, никак не влияет на оценку, отображаемую по оси Y. При значении факторного признака (ось Х) 0 есть студенты, которые получили как низкие, так и высокие оценки.
Отметим, что это только простейший пример, в котором присутствует разброс данных. В более сложных моделях, где присутствует большой набор данных, либо в анализе участвует несколько групп переменных, такой разброс будет выражен сильнее.
Линия тренда в диаграмме рассеяния
Определив наличие корреляции (зависимости) в наборе данных, нередко возникает необходимость определить, является она положительной или отрицательной.
- Положительная корреляция. Также называется прямой. Определяется в том случае, если рост факторного признака приводит к увеличению результативного признака.
- Отрицательная корреляция. Также называется обратной. Характеризуется снижением результативного признака по мере роста факторного, либо наоборот.
В нашем простом примере с числом посещений и оценками проследить взаимосвязь нетрудно. Чем больше посещенных занятий, тем выше результат экзамена — это явно указывает на то, что корреляция носит прямой характер. Однако на практике нередко встречаются явления с обратной зависимостью. К примеру, рассмотрим как число прогулов отражается на оценках. Создаем таблицу с данными и диаграмму на основе введенных данных.
В данном графике явно прослеживается обратная зависимость. Чем больше прогулов тем ниже итоговая оценка. Можно заметить, что в начале графика точки находятся выше, а по мере продвижения по оси Х значение уменьшается.
При работе с большим набором данных проследить направление корреляции бывает довольно трудно. В данной ситуации поможет линия тренда. Это прямая, которая соединяет значения в графике, позволяя определить его динамику. Чтобы быстро сделать линию тренда, нажмите на символ «+» рядом с диаграммой. Затем в выпадающем списке поставьте отметку напротив строчки «Линия тренда».
В результате выполнения данной операции на диаграмме будет отображена прямая, которая отображает динамику изменения переменных в графике. В нашем примере это корреляция носит отрицательный характер, поэтому линия от верхней части оси Y по мере продвижения по оси X снижается.
При помощи такой диаграммы рассеивания можно не только проследить динамику, но и определить, существует ли какая-либо взаимосвязь между заданными переменными. Если линия прямая и ее направление не меняется, это, с большой долей вероятности указывает на то, что взаимосвязь между факторным и результативным признаками отсутствует, либо выражена крайне слабо.
Отметим, что прямая линия может отображать только прямую зависимость двух параметров. Если переменных, определяющих факторный признак, больше, использование линии тренда допускается далеко не во всех случаях.
Настраиваемые параметры в диаграмме рассеяния
В построенную диаграмму можно вносить различные изменения. Сразу же отметим, что в инструменты вставки в Microsoft Excel динамичные и обновляются автоматически, если внести изменения в набор изначальных данных. Это удобно, так как позволяет добавлять новые значения или менять существующие по мере необходимости. Удалять график и создавать новый не придется.
Пользователям также доступен набор дополнительных настраиваемых элементов. Одна из наиболее часто используемых опций — изменение диапазон осей. Если в наборе данных используются значения с ограниченным диапазоном, его можно указать в параметрах графика.
К примеру, в нашей таблице максимальная оценка — 100 баллов. Поэтому лишние значения в графике на оси Y можно удалить. Для этого наводим курсор на цифры в этой оси и делаем двойной клик левой кнопкой мыши. На экране с правой стороны появится окно «Формат оси». Задаем максимальное и, при необходимости, минимальное значение для диаграммы.
В результате диаграмма немного видоизменится, что упростит восприятие информации. Аналогичным образом можно поменять и значения для оси Х, если в этом есть необходимость.
Еще один полезный инструмент — изменение названия диаграммы. По умолчанию эта функция активна. В качестве заголовка используется название столбца из таблицы, который содержит зависимое значение, то есть является результативным признаком. В нашем примере это оценка на экзамене, так как она зависит от количества посещений, а не наоборот.
Чтобы изменить название диаграммы, делаем двойной клик левой кнопкой мыши по текущему заголовку и меняем его на подходящий.
К слову, заголовок можно дать не только самой диаграмме. В Excel предусмотрена возможность внедрения названий для каждой оси, что довольно удобно для визуального отображения, а также помогает при создании презентаций. Для этого нажимаем знак «+» возле созданной диаграммы и нажимаем «Названия осей». После этого добавляем заголовок для каждой части графика.
Еще один инструмент при оформлении диаграммы — указание меток объектов. В нашем примере это точка, которая указывает оценку и ее отношение к числу пропущенных занятий. Чтобы включить отображение меток, нажимаем «+» справа от диаграммы и выбираем в выпадающем списке «Подписи данных».
Такой способ отображения удобен, если диаграмма не содержит большое количество повторяющихся значений. Однако нужно учитывать, что использовать данный инструмент не во всех случаях целесообразно.
Подводим итоги
Среди инструментов для анализа данных, диаграмма рассеяния в редакторе Excel занимает особое место. Данный инструмент позволяет определить, существует ли взаимосвязь между введенными значениями, а также определить характер этой связи — прямая либо обратная. В этом также поможет так называемая линия тренда, которая отображает динамику движения результативного признака по отношению к факторному. Для построения достаточно сделать стандартную вставку точечной диаграммы через соответствующую вкладку в меню Excel. Предварительно для этого нужно заполнить таблицу, на основе которой будет построен график.