Detección de fuentes no citadas

Hasta hace algunos meses, yo no consideraba importante realizar citas bibliográficas en mis trabajos escolares ni mucho menos hacer referencias a las fuentes de información que había consultado.

De hecho, de no ser por… una gran persona, no hubiera adquirido el buen hábito de agregar las referencias necesarias cuando incluyo un texto en una presentación, cómo la que hice algunas semanas para la materia de Problemas actuales de México, y aunque mi estilo realmente necesita una refinación, creo que ya voy al menos por el buen camino de incluir las citas, lo cierto es que intento adoptar el estilo APA así que tendré que documentarme bien para lograr el objetivo.

A raíz de estas buenas costumbres adquiridas por influencia regia, he propuesto el nuevo proyecto que desarrollaré para la DGB y que consiste en lo siguiente:

  • Tomar un archivo de texto, de inicio sólo pdf’s o txt
  • Extraer su contenido
  • Segmentar el documento en fragmentos semánticos de 25 palabras o bien, por oraciones completas (hasta donde aparezca un punto y seguido o un punto final)
  • Buscar el fragmento en Internet usando la API AJAX de Google para búsquedas
  • Si el fragmento está registrado en Internet, quiere decir dos cosas:
    1) El fragmento incluido no es propiedad intelectual del autor
    2) Se ha omitido hacer la cita o referencia pertinente lo cual puede ser penalizado por cuestiones de autoría.
  • Al final del análisis el sistema dirá qué porcentaje de originalidad tiene el documento, en base al número de fragmentos que lo componen y el número de coincidencias localizadas en la web.

En sí, eso fue lo que presenté en la reunión que tuvimos el viernes en la Unidad de Recursos Interactivos como parte de la revisión por la dirección que se efectúa el último viernes de cada mes.

Honestamente, me sentí muy nervioso durante la presentación, especialmente porque estaba mi jefe, los directores de todas las bibliotecas, coordinadores de otras áreas como Sistemas, Diseño gráfico, Bibliometría, etc…. puuffff y a mi que me gusta tener el mayor control posible; la verdad es que no logré mantener el pulso normal.

Al final, mi jefe quedó complacido con la idea del proyecto y también hubo buenas sugerencias aunque no faltó el que me preguntó porqué iba yo a utilizar el API de Google y no a realizar un desarrollo desde cero como siempre lo he realizado.

De entrada, estoy convencido que no voy a re inventar la rueda y este proyecto supone varios retos interesantes pese a lo que pudieran pensar algunas personas; como sea, creo que este proyecto puede ser útil incluso para más personas de las que comprende la DGB; lo cual me pone contento porque de esa manera, se puede impactar en otras áreas de oportunidad y mostrar lo que se está haciendo al interior de las bibliotecas que es más que prestar libros y hacer encuentros bibliotecarios un par de veces al año…

Al final, solo resta una línea:

Gracias por la inspiración.

2 pensamientos en “Detección de fuentes no citadas

  1. Me suena útil hasta para profesores para saber si sus alumnos no se han pirateado la tarea con un simple copy paste, jeje

  2. @gabo: Así es… en realidad en eso pensaba cuando escribo sobre “otras áreas de oportunidad”; has acertado!!

    (Por cierto, me has cachado con las manos en la masa… pensé que ya nadie entraría por aquí)

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s