дома нескучно
Как весело и с пользой пережить самоизоляцию

Сочетание семейной истории и машинного обучения со связью исторических записей

9 November 2019

По многим наиболее острым вопросам социальных наук эмпирический анализ основывается на доступе к данным, которые позволяют исследователю наблюдать за людьми в разные периоды их жизни или в разных поколениях. Например, для измерения передачи социально-экономического статуса от одного поколения другому нам необходимо иметь возможность связать одного из родителей со своим взрослым ребенком; для оценки долгосрочных последствий обстоятельств, сложившихся в детстве, нам обычно необходимо наблюдать за человеком как в детстве, так и во взрослом возрасте.

https://pixabay.com/images/id-1194186/
https://pixabay.com/images/id-1194186/

К сожалению, такие данные труднодоступны в Соединенных Штатах из-за отсутствия последовательного индивидуального регистрационного номера, который фиксируется в данных переписи и во многих административных массивах данных (как, например, в Швеции и Норвегии). Недавно исследователи, изучающие США, решили эту проблему, получив данные ограниченного использования с информацией о номерах социального страхования, которые позволяют, например, связать налоговые записи разных поколений или с историей образования.

Эта новаторская работа ограничивается тем, что данные имеются только за последние десятилетия, а данные по социальному обеспечению не регистрируются во многих наборах данных, где мы хотели бы их получить, таких как переписи населения или данные демографической статистики. Другая стратегия заключается в использовании методов сопоставления имен для увязки данных переписей населения и других старых наборов данных, таких как данные о призыве на военную службу. Недостатком этого метода является то, что он, как известно, создает непредставительные выборки и обычно не включает женщин, имена которых часто меняются в период между детством и взрослой жизнью. Другая многообещающая стратегия заключается в сочетании исторических записей с генеалогической информацией, предоставляемой пользователями на онлайновых платформах.

В семейно-исторических исследованиях принято собирать различные исходные документы (включая переписные листы) для установления различных жизненных событий и взаимоотношений человека.

Доступ к 100-процентным выборкам переписей населения Соединенных Штатов открывает уникальные возможности для установления контактов между отдельными лицами в течение длительного периода времени. Экономисты использовали несколько подходов для создания крупных взаимосвязанных выборок. Они включают создание заранее определенных правил для идентификации уникальных совпадений с использованием статистического алгоритма, такого как максимизация ожиданий, используя данные, собранные вручную.

Каждый из этих подходов имеет свои преимущества и недостатки, которые они, вероятно, дополнят друг друга и будут способствовать достижению общей цели в конечном счете, связывая как можно больше людей с историческими записями.

Контролируемое машинное обучение требует данных обучения с примерами как правильных, так и неправильных совпадений.

Наряду с характеристиками, основанными на имени, месте рождения, поле и году рождения, они также включают характеристики родительского места рождения, общности имен и плотности рождения (которая является частью переписи, рожденной в конкретных штатах по расе и полу). Другим проектом, в рамках которого были созданы крупные учебные данные, является создание продольной межпоколенческой электронной микроданной семейной базы данных (LIFEM).

Они отмечают, что одной из сильных сторон внедрения алгоритмов привязки записей к историческим записям (по сравнению с современными административными данными) является возможность обмена данными и кодом с другими исследователями, что позволяет обеспечить полную прозрачность образцов и методов.

В рамках проекта LIFEM была создана связанная выборка лиц, начиная от записей о рождении и заканчивая данными переписи населения. Эти учебные данные создаются в процессе канцелярской проверки, в ходе которой каждый совпадение кандидатур проверяется двумя инструкторами по сбору и обработке данных для определения их соответствия действительности или несоответствия. В случае разногласий между двумя тренерами по работе с данными матч кандидатов пересматривается еще тремя тренерами.

Для этого проекта использовались два источника данных. Первый набор данных представляет собой 100% выборку десятилетней переписи населения США за 1900, 1910 и 1920 годы. Эти данные представляют собой исходные записи, которые мы будем связывать вместе. Эти данные включают имя, год рождения, место рождения, пол, расу и место жительства каждого человека, а также место рождения отца и матери. Мы также можем наблюдать за другими членами семьи, проживающими в том же домохозяйстве, что позволяет нам построить схожие характеристики для родителей, братьев и сестер, супругу (супругу) и детям в зависимости от того, с кем они живут в каждой переписи.

Второй набор данных представляет собой набор учебных материалов переписи, которые были предоставлены нам компанией FamilySearch. Эти совпадающие пары происходят от их генеалогической платформы в стиле онлайн, называемой Семейное древо.

Семейное древо было создано в 2001 году и позволяет любому внести свой вклад после того, как он создаст бесплатный аккаунт. Структура сайта построена таким образом, что люди сотрудничают, когда у них есть общий член семьи, и различные родственники одного и того же человека на дереве могут предоставить информацию о жизненных событиях, членах семьи и исторических источниках. Это активная краудсорсинговая платформа с 7,3 миллионами зарегистрированных пользователей, которые делают взносы и включают в себя более 1,2 миллиарда индивидуальных профилей умерших людей.

Слияние записей переписи осуществляется самими пользователями FamilySearch, которые находят записи, используя общедоступные источники, а затем прикрепляют их к каждому отдельному профилю. FamilySearch предоставила нам файл с личным идентификационным номером (PID) для индивидуального профиля в Family Tree и записи переписи, которая позволяет нам наблюдать за этими совпадениями.

Помимо записей переписи населения, отдельный профиль может включать записи демографической статистики, военные записи, школьные записи, городские записи, места рождения и смерти, а также дату смерти; мы также имеем доступ ко всей этой информации. Для этого человека мы можем наблюдать даты рождения, смерти и вступления в брак, а также ссылки на несколько открытых источников информации. Ссылки на записи включают переписи 1900, 1910 и 1920 годов, которые позволяют создать панель с наблюдениями для этого человека в возрасте 9, 19 и 29 лет.

В результате этого процесса создается большой, подробный и весьма репрезентативный набор учебных материалов. Данные являются высоконадежными, поскольку члены семьи, устанавливающие связь, идентифицируют лицо, представляющее интерес, по нескольким наборам данных более точно, чем это можно сделать методами сопоставления имен. Например, члены семьи с большей вероятностью знают девичью фамилию или знают, какая запись переписи "Джона Уильямса" принадлежит члену их семьи.

Точность алгоритмов машинного обучения зависит от качества данные тренинга, которые используются. Одним из способов достижения высокого уровня точности данных обучения может быть сосредоточение внимания только на тех деревьях - членах общества, которые были созданы профессиональными генеалогами-генеалогами.

Один из способов визуализации процесса сопоставления - это гигантская матрица, в которой мы пытаемся объединить строки, являющиеся дубликатами одного и того же человека.

Существует огромный исследовательский потенциал, связанный с возможностью связать большие выборки отдельных лиц по историческим записям. Недавние изменения в методологии увязки доступа к данным и их регистрации резко расширили возможности для выполнения этой важной задачи. Лица, проводящие семейно-исторические исследования, тратят сотни часов на идентификацию записей о людях, с которыми они связаны. Личные знания о человеке или доступ к другим записям позволяют исследователям точно идентифицировать несколько записей для одного и того же человека, особенно в случае более поздних записей.

Вполне вероятно, что такая интеграция семейной истории и машинного обучения станет ключом к созданию полностью взаимосвязанной выборки по данным переписи всех, кто жил в Соединенных Штатах в период с 1850 по 1940 год.