Recientemente se ha hablado de una nueva metodología para el descubrimiento del conocimiento científico (véase The Fourth Paradigm: Data Intensive Scientific Discovery, Microsoft Research, 2009). Esta está basada en el uso de herramientas computacionales para procesar el gran volumen de información digitalizada que se ha venido almacenando en el mundo desde los inicios de la era informática. Se trata del descubrimiento científico basado en la exploración intensiva de datos o, simplemente, minería de datos. Este seminario introduce a los estudiantes en los pilares teóricos de la moderna teoría de aprendizaje estadístico como marco teórico de la minería de datos (el problema de aprendizaje o machine learning, el compromiso entre sesgo y varianza, aproximación y error, riesgo, consistencia, regularización, complejidad, etc.).
Adicionalmente, tres cuartas partes del seminario, nos dedicaremos a aprender las principales técnicas de minería de datos (método de vecindades, redes neuronales, redes bayesianas, árboles, boosting, cross validation, máquinas de vectores de soporte, clustering, técnicas de minería de texto, etc.) a través de ejemplos y problemas que los estudiantes deberán implementar y resolver haciendo uso de un computador y, en lo posible, relacionados con problemas que sean de su interés (datos de redes sociales, clientes, mediciones de fenómenos naturales, sociales, bases transaccionales, etc.)