Анализ регрессивности налога на недвижимость Нью-Йорк

#database #statistics #analysis

#База данных #Статистика #анализ

Вопрос:

Я отчаянно нуждаюсь в помощи в анализе данных. Я оцениваю регрессивный налог на недвижимость NYCs. У меня есть данные по каждой из переменных, которые я хочу проанализировать, однако каждая из них находится в разных файлах чрезвычайно большого размера (от 500 000 до 50 миллионов строк). Некоторые переменные включают доходы, счета по налогу на имущество, цены продажи и оценочные цены. Некоторые из этих переменных определяются почтовым индексом, некоторые-блоком недвижимости и партией, некоторые-идентификатором (который включает блок недвижимости и лот), некоторые-округом, а некоторые-адресом. Каждый из этих файлов содержит десятки других идентификаторов(столбцов), которые мне не нужны.

Я хотел бы собрать все это вместе таким образом, чтобы было легко создавать визуальные эффекты с помощью таблицы или мини-таблицы. Кто-нибудь может дать мне какое-нибудь руководство??? Моя главная проблема заключается в А) работе с файлами с таким количеством столбцов и строк, Б) выяснении того, как сопоставлять переменные с тем, где они находятся (я не знаю, имеет ли это смысл, но я могу уточнить)

Я использую данные из ОТКРЫТЫХ данных Нью-Йорка и следующие наборы данных: Рулонные данные по оценке налога на имущество, ежегодные налоговые счета по всему городу Нью-Йорка данные из Сводки по открытому балансу

Все, что у меня есть на данный момент, — это все эти наборы данных, но никакого реального прогресса в этом анализе. Моя цель-проанализировать регрессивность налогов на недвижимость в Нью-Йорке. Блумберг уже провел некоторый анализ по этому поводу, и я приложу эту статью. однако я хочу сделать что-то немного отличное от них или, по крайней мере, воссоздать то, что они сделали, в моем собственном программном обеспечении.

еще один сложный аспект заключается в том, как именно фильтровать продажи на расстоянии вытянутой руки. является ли это просто длительным процессом, в ходе которого вы должны анализировать каждую точку данных, чтобы проверить ее доступность?