Commit f3632a7e authored by geobumac's avatar geobumac

tarea

parent 9b06f037
This source diff could not be displayed because it is too large. You can view the blob instead.
...@@ -2732,7 +2732,7 @@ ...@@ -2732,7 +2732,7 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.6.7" "version": "3.7.1"
} }
}, },
"nbformat": 4, "nbformat": 4,
......
...@@ -509,7 +509,7 @@ ...@@ -509,7 +509,7 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.6.7" "version": "3.7.1"
} }
}, },
"nbformat": 4, "nbformat": 4,
......
...@@ -525,127 +525,82 @@ ...@@ -525,127 +525,82 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": 44, "execution_count": 49,
"metadata": {},
"outputs": [],
"source": [
"import re\n",
"from collections import Counter\n",
"\n",
"def removerpunt(s):\n",
" s = re.sub(r\"[,|\\.|:|?|=|​]\", \"\", s)\n",
" return s\n",
"\n",
"def tf_dist(docs, M):\n",
" '''la distribución de frecuencias de n-gramas\n",
" \n",
" Args\n",
" docs: list([texto1, texto2, ...]) lista de textos.\n",
" M: las M palabras más frecuentes, cota.\n",
" \n",
" return\n",
" tf_dic: dict con palabras como llave y frecuencia como valor.\n",
" '''\n",
"\n",
" corpus = ' '.join(docs)\n",
"\n",
" # quitar la puntuación\n",
" sin_pun = removerpunt(corpus)\n",
" # minúsculas\n",
" minusculas = sin_pun.lower()\n",
" # lista de palabras\n",
" lista_de_pals = minusculas.split(' ')\n",
" # frecuencia de cada palabra\n",
" tf_dic = Counter(lista_de_pals)\n",
"\n",
" return tf_dic"
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {}, "metadata": {},
"outputs": [ "outputs": [
{ {
"name": "stdout", "data": {
"output_type": "stream", "image/png": "\n",
"text": [ "text/plain": [
"Counter({'de': 34, 'la': 24, '': 18, 'en': 12, 'el': 11, 'las': 10, 'que': 8, 'con': 7, 'es': 6, 'palabras': 5, 'se': 5, 'a': 5, 'del': 5, 'quijote': 5, 'una': 4, 'un': 4, 'más': 4, 'y': 4, 'por': 4, 'primera': 4, 'o': 3, 'etiquetas': 3, 'para': 3, 'principales': 3, 'don': 3, 'novela': 3, 'su': 3, 'parte': 3, 'obra': 3, 'nube': 2, 'visual': 2, 'tamaño': 2, 'mayor': 2, 'sitio': 2, 'web': 2, 'son': 2, 'clave': 2, 'ser': 2, 'visualizar': 2, 'trabajar': 2, 'título': 2, 'ingenioso': 2, 'mancha': 2, '1605': 2, 'literatura': 2, '1615': 2, 'segunda': 2, 'cuatro': 2, 'representación': 1, 'conforman': 1, 'texto': 1, 'donde': 1, 'aparecen': 1, 'frecuencia\\n': 1, 'uno': 1, 'sus': 1, 'usos': 1, 'visualización': 1, 'modo': 1, 'los': 1, 'temas': 1, 'frecuentes': 1, 'muestren': 1, 'prominencia': 1, 'suelen': 1, 'estar': 1, 'ordenadas': 1, 'alfabéticamente': 1, 'ocasiones': 1, 'agrupadas': 1, 'semánticamente': 1, 'importancia': 1, 'etiqueta': 1, 'muestra': 1, 'fuente': 1, 'y/o': 1, 'color3\\n': 1, 'pesar': 1, 'usadas': 1, 'principalmente': 1, 'contexto': 1, 'educativo': 1, 'van': 1, 'ganando': 1, 'terreno': 1, 'ya': 1, 'muy': 1, 'útiles': 1, 'contenido': 1, 'ideas': 1, 'tema4': 1, 'ellas': 1, 'estimula': 1, 'inteligencias': 1, 'lingüística': 1, 'vez': 1, 'desarrolla': 1, 'capacidad': 1, 'síntesis5': 1, 'manchaa': 1, 'escrita': 1, 'español': 1, 'miguel': 1, 'cervantes': 1, 'saavedra': 1, 'publicada': 1, 'hidalgo': 1, 'comienzos': 1, 'destacada': 1, 'española': 1, 'universal': 1, 'además': 1, 'leída': 1, 'después': 1, 'biblia12': 1, 'apareció': 1, 'continuación': 1, 'caballero': 1, 'publicó': 1, 'dividido': 1, 'partes;': 1, 'pero': 1, 'al': 1, 'aparecer': 1, 'calidad': 1, 'quedó': 1, 'revocada': 1, 'hecho': 1, 'partición': 1, 'secciones': 1, 'volumen': 1, 'publicado': 1, 'diez': 1, 'años': 1, 'antes': 1, 'cervantes3\\n': 1, 'genuinamente': 1, 'desmitificadora': 1, 'tradición': 1, 'caballeresca': 1, 'cortés': 1, 'tratamiento': 1, 'burlesco': 1, 'representa': 1, 'moderna': 1, 'polifónica;': 1, 'como': 1, 'tal': 1, 'ejerció': 1, 'enorme': 1, 'influjo': 1, 'toda': 1, 'narrativa': 1, 'europea': 1, 'considerarse': 1, '«el': 1, 'mejor': 1, 'trabajo': 1, 'literario': 1, 'jamás': 1, 'escrito»': 1, 'encabezó': 1, 'lista': 1, 'mejores': 1, 'obras': 1, 'literarias': 1, 'historia': 1, 'estableció': 1, 'votaciones': 1, 'cien': 1, 'grandes': 1, 'escritores': 1, '54': 1, 'nacionalidades': 1, 'petición': 1, 'club': 1, 'noruego': 1, 'libro': 1, '2002;': 1, 'así': 1, 'fue': 1, 'única': 1, 'excepción': 1, 'estricto': 1, 'orden': 1, 'alfabético': 1, 'había': 1, 'dispuesto4': 1})\n", "<Figure size 936x576 with 1 Axes>"
"dict_keys(['una', 'nube', 'de', 'palabras', 'o', 'etiquetas', 'es', 'representación', 'visual', 'las', 'que', 'conforman', 'un', 'texto', 'en', 'donde', 'el', 'tamaño', 'mayor', 'para', 'aparecen', 'con', 'más', 'frecuencia\\n', '', 'uno', 'sus', 'usos', 'principales', 'la', 'visualización', 'sitio', 'web', 'modo', 'los', 'temas', 'frecuentes', 'se', 'muestren', 'prominencia', 'son', 'clave', 'suelen', 'estar', 'ordenadas', 'alfabéticamente', 'ocasiones', 'agrupadas', 'semánticamente', 'importancia', 'etiqueta', 'muestra', 'fuente', 'y/o', 'color3\\n', 'a', 'pesar', 'ser', 'usadas', 'principalmente', 'contexto', 'educativo', 'van', 'ganando', 'terreno', 'ya', 'muy', 'útiles', 'visualizar', 'del', 'contenido', 'trabajar', 'ideas', 'tema4', 'ellas', 'estimula', 'inteligencias', 'lingüística', 'y', 'vez', 'desarrolla', 'capacidad', 'síntesis5', 'don', 'quijote', 'manchaa', 'novela', 'escrita', 'por', 'español', 'miguel', 'cervantes', 'saavedra', 'publicada', 'su', 'primera', 'parte', 'título', 'ingenioso', 'hidalgo', 'mancha', 'comienzos', '1605', 'obra', 'destacada', 'literatura', 'española', 'universal', 'además', 'leída', 'después', 'biblia12', '1615', 'apareció', 'continuación', 'segunda', 'caballero', 'publicó', 'dividido', 'cuatro', 'partes;', 'pero', 'al', 'aparecer', 'calidad', 'quedó', 'revocada', 'hecho', 'partición', 'secciones', 'volumen', 'publicado', 'diez', 'años', 'antes', 'cervantes3\\n', 'genuinamente', 'desmitificadora', 'tradición', 'caballeresca', 'cortés', 'tratamiento', 'burlesco', 'representa', 'moderna', 'polifónica;', 'como', 'tal', 'ejerció', 'enorme', 'influjo', 'toda', 'narrativa', 'europea', 'considerarse', '«el', 'mejor', 'trabajo', 'literario', 'jamás', 'escrito»', 'encabezó', 'lista', 'mejores', 'obras', 'literarias', 'historia', 'estableció', 'votaciones', 'cien', 'grandes', 'escritores', '54', 'nacionalidades', 'petición', 'club', 'noruego', 'libro', '2002;', 'así', 'fue', 'única', 'excepción', 'estricto', 'orden', 'alfabético', 'había', 'dispuesto4'])\n",
"dict_values([4, 2, 34, 5, 3, 3, 6, 1, 2, 10, 8, 1, 4, 1, 12, 1, 11, 2, 2, 3, 1, 7, 4, 1, 18, 1, 1, 1, 3, 24, 1, 2, 2, 1, 1, 1, 1, 5, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 5, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 5, 1, 2, 1, 1, 1, 1, 1, 1, 4, 1, 1, 1, 1, 3, 5, 1, 3, 1, 4, 1, 1, 1, 1, 1, 3, 4, 3, 2, 2, 1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])\n"
]
}
],
"source": [
"wikis = [\n",
" u'''Una nube de palabras o nube de etiquetas es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.\n",
" Uno de sus usos principales es la visualización de las etiquetas de un sitio web, de modo que los temas más frecuentes en el sitio se muestren con mayor prominencia. Las etiquetas son palabras clave que suelen estar ordenadas alfabéticamente o, en ocasiones, agrupadas semánticamente. La importancia de una etiqueta se muestra con el tamaño de la fuente y/o color.3​\n",
" A pesar de ser usadas principalmente en la web, en el contexto educativo van ganando terreno ya que son muy útiles para visualizar las palabras clave del contenido a trabajar o para visualizar las ideas principales de un tema.4​ Trabajar con ellas estimula las inteligencias lingüística y visual a la vez que desarrolla la capacidad de síntesis.5''',\n",
" u'''Don Quijote de la Manchaa​ es una novela escrita por el español Miguel de Cervantes Saavedra. Publicada su primera parte con el título de El ingenioso hidalgo don Quijote de la Mancha a comienzos de 1605, es la obra más destacada de la literatura española y de las principales de la literatura universal, además de ser la más leída después de la Biblia.1​2​ En 1615 apareció su continuación con el título de Segunda parte del ingenioso caballero don Quijote de la Mancha. El Quijote de 1605 se publicó dividido en cuatro partes; pero al aparecer el Quijote de 1615 en calidad de Segunda parte de la obra, quedó revocada de hecho la partición en cuatro secciones del volumen publicado diez años antes por Cervantes.3​\n",
" Es la primera obra genuinamente desmitificadora de la tradición caballeresca y cortés por su tratamiento burlesco. Representa la primera novela moderna y la primera novela polifónica; como tal, ejerció un enorme influjo en toda la narrativa europea. Por considerarse «el mejor trabajo literario jamás escrito», encabezó la lista de las mejores obras literarias de la historia, que se estableció con las votaciones de cien grandes escritores de 54 nacionalidades a petición del Club Noruego del Libro en 2002; así, fue la única excepción en el estricto orden alfabético que se había dispuesto.4​'''\n",
"]\n",
"\n",
"d = tf_dist(wikis, 50)\n",
"\n",
"print(d)\n",
"\n",
"print(d.keys())\n",
"print(d.values())\n"
] ]
}, },
{ "metadata": {
"cell_type": "code", "needs_background": "light"
"execution_count": 46, },
"metadata": {}, "output_type": "display_data"
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Hola mundo adios mundo\n"
]
} }
], ],
"source": [ "source": [
"import re\n", "import re\n",
"import matplotlib.pyplot as plt\n",
"from collections import Counter\n",
"\n", "\n",
"def removerpunt(s):\n", "def removerpunt(s):\n",
" s = re.sub(r\"[,|\\.|:|?|=]\", \"\", s)\n", " s = re.sub(r\"[,|\\.|:|?|=|​]\", \"\", s)\n",
" return s\n", " return s\n",
"\n", "\n",
"print(removerpunt('Hola mundo, adios mundo.'))" "def cuenta_palabras(texto):\n",
] " \"\"\"cuenta_palabras funcion que devuelve un dictionario con el numero de coincidencias de palabras en un texto\n",
}, "\n",
{ " Args:\n",
"cell_type": "code", " texto (string): texto del cual sera base para generar el diccionario de coincidencias de palabras\n",
"execution_count": 27, " \n",
"metadata": {}, " Examples:\n",
"outputs": [ " >>> ejercicio6(\"este es un texto con texto que es repetido y repetido\")\n",
{ " [('de', 18), ('la', 11), ('el', 9), ('y', 9)]\n",
"name": "stdout", " \"\"\"\n",
"output_type": "stream", " texto = texto.lower()\n",
"text": [ " texto = removerpunt(texto)\n",
"Mundo hola mundo adios mundo\n", " texto = re.sub(r\"[^\\w\\s]\", '', texto)\n",
"mundo hola mundo adios mundo\n", " aText = texto.split(\" \")\n",
"['mundo', 'hola', 'mundo', 'adios', 'mundo'] <class 'list'>\n", " dictCOunt = {i:aText.count(i) for i in aText}\n",
"mundo hola mundo adios mundo <class 'str'>\n", " sortedDict = sorted(dictCOunt.items(), key=lambda x: x[1], reverse=True)\n",
"3\n" " return (sortedDict)\n",
] "\n",
} "def plot_tf(textos, M):\n",
], " datos = getFirstMWords(textos, M)\n",
"source": [ " palabra, frecuencia = list(zip(*datos))\n",
"original= 'Mundo, hola mundo, adios mundo.'\n", " plt.rcParams['figure.figsize']=[13, 8]\n",
"sin_pun= removerpunt(original)\n", " plt.bar(palabra, frecuencia, color='y')\n",
"print(sin_pun)\n", " plt.xlabel('PALABRA')\n",
"lows =sin_pun.lower()\n", " plt.ylabel('FRECUENCIA')\n",
"print(lows)\n", " plt.title('DISTRIBUCION DE PALABRAS')\n",
" plt.xticks(palabra)\n",
" plt.show()\n",
" \n",
"def getFirstMWords(textos, M):\n",
" textoCompleto = ' '.join(textos)\n",
" dictionary = cuenta_palabras(textoCompleto)\n",
" aux = []\n",
" for i in range(M):\n",
" aux.append(dictionary[i])\n",
" #datos = [cuenta_palabras(corpus)[count] for count in range(M)]\n",
" #return datos\n",
" return aux\n",
"\n",
"#def plot_tf(arregloTextos, M):\n",
"\n",
"\n",
"textos = [\n",
" u'''La Informática es la disciplina o campo de estudio que abarca el conjunto de conocimientos, métodos y técnicas referentes al tratamiento automático de la información, junto con sus teorías y aplicaciones prácticas, con el fin de almacenar, procesar y transmitir datos e información en formato digital utilizando sistemas computacionales. Los datos son la materia prima para que, mediante su proceso, se obtenga como resultado información. Para ello, la informática crea y/o emplea sistemas de procesamiento de datos, que incluyen medios físicos (hardware) en interacción con medios lógicos (software) y las personas que los programan y/o los usan (humanware)''',\n",
" u'''La práctica de la medicina se ejerce dentro del marco económico, legal y oficial del sistema médico que es parte de los sistemas nacionales de salud pública (políticas sanitarias estatales). Las características bajo las cuales se maneja el sistema sanitario en general y el órgano médico en particular ejercen un efecto significativo sobre cómo el servicio de salud, y la atención sanitaria puede ser aprovechada por la población general. Una de las variables más importantes para el funcionamiento del sistema se corresponde con el área financiera y el presupuesto que un Estado invierte en materia de salud. Otra variable implica los recursos humanos que articulan las directivas del sistema sanitario. La otra cara de la moneda en materia de atención médica está dada por el servicio privado de salud. Los honorarios y costos del servicio sanitario corren por cuenta del contratista, siendo de esta forma un servicio generalmente restringido a las clases económicamente solventes. Existen no obstante contratos de seguro médico que permiten acceder a estos servicios sanitarios privados; son, fundamentalmente, de dos tipos:'''\n",
"]\n",
"\n", "\n",
"lista_de_pals=lows.split(' ')\n", "plot_tf(textos, 12)\n",
"\n", "\n",
"print(lista_de_pals, type(lista_de_pals))\n", "#print(d)\n",
"palabras = ' '.join(lista_de_pals)\n", " "
"print(palabras, type(palabras))\n",
"print(lista_de_pals.count('mundo'))"
] ]
}, },
{ {
...@@ -962,7 +917,7 @@ ...@@ -962,7 +917,7 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.6.7" "version": "3.7.1"
} }
}, },
"nbformat": 4, "nbformat": 4,
......
...@@ -1007,7 +1007,7 @@ ...@@ -1007,7 +1007,7 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.6.7" "version": "3.7.1"
} }
}, },
"nbformat": 4, "nbformat": 4,
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment