¿Vivir cerca de un Mcdonalds o de un hospital?

Houm
6 min readOct 8, 2021

--

Una vez más, Camilo López, también conocido como el gran Cilopez, Data Scientist en Houm, nos comparte este increíble análisis sobre las variables que nos pueden ayudar a estimar el precio de una propiedad.

En este caso, las variables que se tomaron en consideración fueron las básicas de una vivienda pero también su cercanía a hospitales, comisarías al igual que McDonalds y Starbucks. De esta forma podríamos observar qué tan importante es que una propiedad esté más cercana a un hospital o comisaría que a un lugar de comida rápida. Pueden leer más de Cilopez aquí en su medium.

Incorporando variables alternativas para la estimación de precio de una propiedad

Para estimar el precio de una propiedad existen un sinfín de variables que pueden ser consideradas. Las variables más lógicas son las características intrínsecas de la propiedad como su metraje, cantidad de dormitorios, baños, etc.

Cuando le pregunto a alguien qué cosas creen que son importantes para el precio de una propiedad me responden: “La cercanía al metro, a un hospital o a una comisaría”. Así que me hice la siguiente pregunta: ¿Será más valioso estar cerca de un McDonald o de un hospital? ¿Un Starbucks o una comisaría? Veamos qué nos dicen los datos.

Sucursal de McDonalds

Mcdonald, ¿una empresa inmobiliaria?

En la película protagonizada por Michael Keaton: “The Founder” se presenta un punto bastante interesante acerca la empresa de los arcos dorados. En una escena aparece Ryan de “The Office” con un maletín persiguiendo a Keaton diciéndole que lo puede ayudar en su negocio. Este ejecutivo le dice al ex-Batman que el negocio de McDonald no son las hamburguesas, sino que el negocio inmobiliario.

Teniendo en cuenta la excelencia profesional de alguien que trabajó en Dunder Mifflin, la distancia al restaurante debería ser por lo menos algo interesante. Pueden ver la escena en el siguiente video.

La información y metodología

Esta parte te la puedes saltar si no te interesa ni cómo lo hice, ni de dónde saqué la información ni mucho menos el código.

El código en totalidad y su información está incorporada en el jupyter del repositorio a continuación:

GitHub — cilopez/mcdonalds

Primero obtendremos la información de las propiedades listadas a la venta en Houm.com. De estas solo utilizaremos 4 variables para simplificar el problema: El metraje construido, número de dormitorios, número de baños y el número de estacionamientos. Nos olvidaremos de la latitud y longitud para darle relevancia a las distancias que calcularemos a continuación.

Una vez que tengamos este conjunto de datos consultaremos la información a comparar en este experimento: la distancia a hospitales, comisarías, McDonald’s y Starbucks. Para obtener esta información de manera gratuita ocuparemos la librería de OpenStreet Map en Python 3.

Heatmap de locales de Mcdonald’s en Santiago, Chile.

Una vez que obtenemos cada ubicación construiremos un Ball Tree, una estructura de datos que particiona la información de tal forma que será rápido consultar por el vecino más cercano de un dato en específico. En particular construiremos 4 árboles, uno para cada tipo de localidad. Podríamos haber simplemente calculado las distancias… pero me encanta complicarme.

Armando un Ball Tree con Sklearn

Con los árboles ya construidos es muy sencillo generar la distancia al vecino cercano. De esta forma tendremos nuestro dataframe conformado de 8 Columnas. En el código se muestra como generar una columna de distancias mínimas.

El modelo que utilizaremos para estimar el precio de las propiedades será un vil Random Forests. Como me dijo un sensei una vez:

“RF ajusta relativamente bien, es relativamente explicable y no hay tiempo para verle la quinta pata a una regresión lineal.”

¿Vivir cerca de un Mcdonalds, Starbucks, Hospital o Comisaría?

Al entrenar el modelo de predicción , sus resultados no son excepcionales: el error porcentual es de un 18%, es decir que en promedio nuestra predicción se equivoca 1.800 UF para una propiedad de 10.000 UFs (UFs es la divisa usada para publicar propiedades en Chile). Pero lo importante era que fuera relativamente creíble ya que estamos usando un conjunto reducido de variables.

Algo interesante del algoritmo de Random Forest es que tiene un método que permite evaluar la relevancia de variables. La relevancia de variables de RF nos permite saber aquellas variables que permiten separar de manera más efectiva registros “similares”.

Relevancia de variables según RF

De esta forma la superficie construida es claramente la variable que separa mejor propiedades similares, vale destacar que la distancia a un Starbucks o a una estación de policía pareciera ser más relevante que a un Mcdonald o a un hospital.

Aunque este gráfico no nos permite saber si es que la relación es directa o inversa. ¿Es importante estar lejos de un Mcdonalds o estar cerca? Para responder esta pregunta utilizaremos la librería SHAP que permite realizar un doble click a la relevancia de variables.

Shap Values

SHAP es una librería de python que intenta mediante teoría de juegos explicar el impacto de las variables en modelos de caja negra. En este caso lo usaremos para ver si a mayor valor de una variable el impacto es positivo o negativo en el precio de la propiedad.

Código para obtener SHAP values de un modelo

El gráfico Bee Swarm nos muestra el impacto que comentamos, en particular la superficie construida (built surface) muestra el ejemplo más claro: A mayor valor de la variable mayor precio de la propiedad (puntos rojos se ubican a la derecha del gráfico). En cambio la distancia a estaciones de policía pareciera ser un valor que afecta negativamente a la propiedad, ya que a mayor distancia incrementa el precio.

Beeswarm de SHAP para propiedades en venta

Es contraintuitivo que vivir lejos de la policía sea algo bueno, basta con preguntarle a un cercano o familiar. Esta situación es típica en regresiones o en modelos de estimación, de hecho hay un artículo bastante bueno de esto llamado “Oh no! I got the wrong sign! What should i do?”, en el documento se detallan escenarios típicos que generan esto:

  • Mala teoría económica
  • Variables omitidas
  • Alta varianza
  • Error de medida
  • Sesgo de selección
  • Outliers
  • Confusión Ceteris paribus
  • Otras

Conclusiones

Quizás esté pasando un poco de todo, el dataset está relativamente sesgado a las propiedades que se enlistan en Houm, las propiedades no son muy comparables y tampoco es un conjunto muy grande de datos.

Este tema puede dar para una tesis, así que no profundizaré y dejaré el código con dataset para que puedas realizar tus propios experimentos y conclusiones. Vivir cerca de un Mcdonald o un Starbuck parece ser más importante que un hospital o comisaría, ¿Es una conclusión apresurada? Sí.

Notas al pie de página

  • La UF la deje a 30 lucas por simplicidad al crear el dataset
  • Agradecimientos a Nicolás Knockaert por la edición

Si quieres leer más sobre nosotros te invitamos al blog de Houm y a leer más en nuestro medium:

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Houm
Houm

Written by Houm

Con tecnología y diseño hacemos la experiencia arriendo y venta de propiedades algo rápido, fácil y online

No responses yet

Write a response