revisión algunos ejercicios de tareas

parent 29ea632b
......@@ -523,6 +523,131 @@
"Nota: Utilice la función 4.6 del primer examen cuyo enunciado original era \"Escribe una funcion que reciba un texto y regrese un diccionario ordenado por frecuencias de cada palabra en el texto.\"\n"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {},
"outputs": [],
"source": [
"import re\n",
"from collections import Counter\n",
"\n",
"def removerpunt(s):\n",
" s = re.sub(r\"[,|\\.|:|?|=|​]\", \"\", s)\n",
" return s\n",
"\n",
"def tf_dist(docs, M):\n",
" '''la distribución de frecuencias de n-gramas\n",
" \n",
" Args\n",
" docs: list([texto1, texto2, ...]) lista de textos.\n",
" M: las M palabras más frecuentes, cota.\n",
" \n",
" return\n",
" tf_dic: dict con palabras como llave y frecuencia como valor.\n",
" '''\n",
"\n",
" corpus = ' '.join(docs)\n",
"\n",
" # quitar la puntuación\n",
" sin_pun = removerpunt(corpus)\n",
" # minúsculas\n",
" minusculas = sin_pun.lower()\n",
" # lista de palabras\n",
" lista_de_pals = minusculas.split(' ')\n",
" # frecuencia de cada palabra\n",
" tf_dic = Counter(lista_de_pals)\n",
"\n",
" return tf_dic"
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Counter({'de': 34, 'la': 24, '': 18, 'en': 12, 'el': 11, 'las': 10, 'que': 8, 'con': 7, 'es': 6, 'palabras': 5, 'se': 5, 'a': 5, 'del': 5, 'quijote': 5, 'una': 4, 'un': 4, 'más': 4, 'y': 4, 'por': 4, 'primera': 4, 'o': 3, 'etiquetas': 3, 'para': 3, 'principales': 3, 'don': 3, 'novela': 3, 'su': 3, 'parte': 3, 'obra': 3, 'nube': 2, 'visual': 2, 'tamaño': 2, 'mayor': 2, 'sitio': 2, 'web': 2, 'son': 2, 'clave': 2, 'ser': 2, 'visualizar': 2, 'trabajar': 2, 'título': 2, 'ingenioso': 2, 'mancha': 2, '1605': 2, 'literatura': 2, '1615': 2, 'segunda': 2, 'cuatro': 2, 'representación': 1, 'conforman': 1, 'texto': 1, 'donde': 1, 'aparecen': 1, 'frecuencia\\n': 1, 'uno': 1, 'sus': 1, 'usos': 1, 'visualización': 1, 'modo': 1, 'los': 1, 'temas': 1, 'frecuentes': 1, 'muestren': 1, 'prominencia': 1, 'suelen': 1, 'estar': 1, 'ordenadas': 1, 'alfabéticamente': 1, 'ocasiones': 1, 'agrupadas': 1, 'semánticamente': 1, 'importancia': 1, 'etiqueta': 1, 'muestra': 1, 'fuente': 1, 'y/o': 1, 'color3\\n': 1, 'pesar': 1, 'usadas': 1, 'principalmente': 1, 'contexto': 1, 'educativo': 1, 'van': 1, 'ganando': 1, 'terreno': 1, 'ya': 1, 'muy': 1, 'útiles': 1, 'contenido': 1, 'ideas': 1, 'tema4': 1, 'ellas': 1, 'estimula': 1, 'inteligencias': 1, 'lingüística': 1, 'vez': 1, 'desarrolla': 1, 'capacidad': 1, 'síntesis5': 1, 'manchaa': 1, 'escrita': 1, 'español': 1, 'miguel': 1, 'cervantes': 1, 'saavedra': 1, 'publicada': 1, 'hidalgo': 1, 'comienzos': 1, 'destacada': 1, 'española': 1, 'universal': 1, 'además': 1, 'leída': 1, 'después': 1, 'biblia12': 1, 'apareció': 1, 'continuación': 1, 'caballero': 1, 'publicó': 1, 'dividido': 1, 'partes;': 1, 'pero': 1, 'al': 1, 'aparecer': 1, 'calidad': 1, 'quedó': 1, 'revocada': 1, 'hecho': 1, 'partición': 1, 'secciones': 1, 'volumen': 1, 'publicado': 1, 'diez': 1, 'años': 1, 'antes': 1, 'cervantes3\\n': 1, 'genuinamente': 1, 'desmitificadora': 1, 'tradición': 1, 'caballeresca': 1, 'cortés': 1, 'tratamiento': 1, 'burlesco': 1, 'representa': 1, 'moderna': 1, 'polifónica;': 1, 'como': 1, 'tal': 1, 'ejerció': 1, 'enorme': 1, 'influjo': 1, 'toda': 1, 'narrativa': 1, 'europea': 1, 'considerarse': 1, '«el': 1, 'mejor': 1, 'trabajo': 1, 'literario': 1, 'jamás': 1, 'escrito»': 1, 'encabezó': 1, 'lista': 1, 'mejores': 1, 'obras': 1, 'literarias': 1, 'historia': 1, 'estableció': 1, 'votaciones': 1, 'cien': 1, 'grandes': 1, 'escritores': 1, '54': 1, 'nacionalidades': 1, 'petición': 1, 'club': 1, 'noruego': 1, 'libro': 1, '2002;': 1, 'así': 1, 'fue': 1, 'única': 1, 'excepción': 1, 'estricto': 1, 'orden': 1, 'alfabético': 1, 'había': 1, 'dispuesto4': 1})\n",
"dict_keys(['una', 'nube', 'de', 'palabras', 'o', 'etiquetas', 'es', 'representación', 'visual', 'las', 'que', 'conforman', 'un', 'texto', 'en', 'donde', 'el', 'tamaño', 'mayor', 'para', 'aparecen', 'con', 'más', 'frecuencia\\n', '', 'uno', 'sus', 'usos', 'principales', 'la', 'visualización', 'sitio', 'web', 'modo', 'los', 'temas', 'frecuentes', 'se', 'muestren', 'prominencia', 'son', 'clave', 'suelen', 'estar', 'ordenadas', 'alfabéticamente', 'ocasiones', 'agrupadas', 'semánticamente', 'importancia', 'etiqueta', 'muestra', 'fuente', 'y/o', 'color3\\n', 'a', 'pesar', 'ser', 'usadas', 'principalmente', 'contexto', 'educativo', 'van', 'ganando', 'terreno', 'ya', 'muy', 'útiles', 'visualizar', 'del', 'contenido', 'trabajar', 'ideas', 'tema4', 'ellas', 'estimula', 'inteligencias', 'lingüística', 'y', 'vez', 'desarrolla', 'capacidad', 'síntesis5', 'don', 'quijote', 'manchaa', 'novela', 'escrita', 'por', 'español', 'miguel', 'cervantes', 'saavedra', 'publicada', 'su', 'primera', 'parte', 'título', 'ingenioso', 'hidalgo', 'mancha', 'comienzos', '1605', 'obra', 'destacada', 'literatura', 'española', 'universal', 'además', 'leída', 'después', 'biblia12', '1615', 'apareció', 'continuación', 'segunda', 'caballero', 'publicó', 'dividido', 'cuatro', 'partes;', 'pero', 'al', 'aparecer', 'calidad', 'quedó', 'revocada', 'hecho', 'partición', 'secciones', 'volumen', 'publicado', 'diez', 'años', 'antes', 'cervantes3\\n', 'genuinamente', 'desmitificadora', 'tradición', 'caballeresca', 'cortés', 'tratamiento', 'burlesco', 'representa', 'moderna', 'polifónica;', 'como', 'tal', 'ejerció', 'enorme', 'influjo', 'toda', 'narrativa', 'europea', 'considerarse', '«el', 'mejor', 'trabajo', 'literario', 'jamás', 'escrito»', 'encabezó', 'lista', 'mejores', 'obras', 'literarias', 'historia', 'estableció', 'votaciones', 'cien', 'grandes', 'escritores', '54', 'nacionalidades', 'petición', 'club', 'noruego', 'libro', '2002;', 'así', 'fue', 'única', 'excepción', 'estricto', 'orden', 'alfabético', 'había', 'dispuesto4'])\n",
"dict_values([4, 2, 34, 5, 3, 3, 6, 1, 2, 10, 8, 1, 4, 1, 12, 1, 11, 2, 2, 3, 1, 7, 4, 1, 18, 1, 1, 1, 3, 24, 1, 2, 2, 1, 1, 1, 1, 5, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 5, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 5, 1, 2, 1, 1, 1, 1, 1, 1, 4, 1, 1, 1, 1, 3, 5, 1, 3, 1, 4, 1, 1, 1, 1, 1, 3, 4, 3, 2, 2, 1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])\n"
]
}
],
"source": [
"wikis = [\n",
" u'''Una nube de palabras o nube de etiquetas es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia.\n",
" Uno de sus usos principales es la visualización de las etiquetas de un sitio web, de modo que los temas más frecuentes en el sitio se muestren con mayor prominencia. Las etiquetas son palabras clave que suelen estar ordenadas alfabéticamente o, en ocasiones, agrupadas semánticamente. La importancia de una etiqueta se muestra con el tamaño de la fuente y/o color.3​\n",
" A pesar de ser usadas principalmente en la web, en el contexto educativo van ganando terreno ya que son muy útiles para visualizar las palabras clave del contenido a trabajar o para visualizar las ideas principales de un tema.4​ Trabajar con ellas estimula las inteligencias lingüística y visual a la vez que desarrolla la capacidad de síntesis.5''',\n",
" u'''Don Quijote de la Manchaa​ es una novela escrita por el español Miguel de Cervantes Saavedra. Publicada su primera parte con el título de El ingenioso hidalgo don Quijote de la Mancha a comienzos de 1605, es la obra más destacada de la literatura española y de las principales de la literatura universal, además de ser la más leída después de la Biblia.1​2​ En 1615 apareció su continuación con el título de Segunda parte del ingenioso caballero don Quijote de la Mancha. El Quijote de 1605 se publicó dividido en cuatro partes; pero al aparecer el Quijote de 1615 en calidad de Segunda parte de la obra, quedó revocada de hecho la partición en cuatro secciones del volumen publicado diez años antes por Cervantes.3​\n",
" Es la primera obra genuinamente desmitificadora de la tradición caballeresca y cortés por su tratamiento burlesco. Representa la primera novela moderna y la primera novela polifónica; como tal, ejerció un enorme influjo en toda la narrativa europea. Por considerarse «el mejor trabajo literario jamás escrito», encabezó la lista de las mejores obras literarias de la historia, que se estableció con las votaciones de cien grandes escritores de 54 nacionalidades a petición del Club Noruego del Libro en 2002; así, fue la única excepción en el estricto orden alfabético que se había dispuesto.4​'''\n",
"]\n",
"\n",
"d = tf_dist(wikis, 50)\n",
"\n",
"print(d)\n",
"\n",
"print(d.keys())\n",
"print(d.values())\n"
]
},
{
"cell_type": "code",
"execution_count": 46,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Hola mundo adios mundo\n"
]
}
],
"source": [
"import re\n",
"\n",
"def removerpunt(s):\n",
" s = re.sub(r\"[,|\\.|:|?|=]\", \"\", s)\n",
" return s\n",
"\n",
"print(removerpunt('Hola mundo, adios mundo.'))"
]
},
{
"cell_type": "code",
"execution_count": 27,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Mundo hola mundo adios mundo\n",
"mundo hola mundo adios mundo\n",
"['mundo', 'hola', 'mundo', 'adios', 'mundo'] <class 'list'>\n",
"mundo hola mundo adios mundo <class 'str'>\n",
"3\n"
]
}
],
"source": [
"original= 'Mundo, hola mundo, adios mundo.'\n",
"sin_pun= removerpunt(original)\n",
"print(sin_pun)\n",
"lows =sin_pun.lower()\n",
"print(lows)\n",
"\n",
"lista_de_pals=lows.split(' ')\n",
"\n",
"print(lista_de_pals, type(lista_de_pals))\n",
"palabras = ' '.join(lista_de_pals)\n",
"print(palabras, type(palabras))\n",
"print(lista_de_pals.count('mundo'))"
]
},
{
"cell_type": "markdown",
"metadata": {},
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment