paip.输入法英文词库的处理 python 代码 o4
2023-09-14 09:03:37 时间
paip.输入法英文词库的处理 python 代码 o4
目标是eng>>>中文>>atian
当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示.. ,在根据英文输入..
=====下载源词库
要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰...
下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql
格式如下:
abandon v./n.放弃;放纵
============需要做如下的数据清理:
分割出词性,分割出多个的中文词..如下
abandon 放弃 v./n.
abandon 放纵 v./n.
作者: 老哇的爪子Attilax 艾龙, EMAIL:1466519819@qq.com
来源:http://blog.csdn.net/attilax
====对应的代码python
conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)
cursorInsert = conn2.cursor()
import dicUtil
from dicUtil import *
#this must match field amout and order in sql
for (en, cn, id) in cursor:
if(hasTsisin(cn)):
tsisin=left_ByDot(cn)
cnstr=right_ByDot(cn)
else:
tsisin="nonx."
cnstr=cn
cnstr=cnstr.replace(";", ",")
cnstr=cnstr.replace(",", ",")
cnstr_a=cnstr.split(",")
# for index8 in range(len(list)):
# print index8
# print list[index8]
print (" "+tsisin+"---"+cnstr)
for index,v in enumerate(cnstr_a):
# print ()index
# print (v) strip
sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())
print(sql)
reslt=cursorInsert.execute(sql)
print("---insert resl:")
print(reslt)
conn2.commit()
def hasTsisin(str):
try:
lastIndex=str.rindex(".")
#print(lastIndex)
return True
except :
print("--no has dot"+ str)
return False
参考
excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET
目标是eng>>>中文>>atian
当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示.. ,在根据英文输入..
=====下载源词库
要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰...
下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql
格式如下:
abandon v./n.放弃;放纵
============需要做如下的数据清理:
分割出词性,分割出多个的中文词..如下
abandon 放弃 v./n.
abandon 放纵 v./n.
作者: 老哇的爪子Attilax 艾龙, EMAIL:1466519819@qq.com
来源:http://blog.csdn.net/attilax
====对应的代码python
conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)
cursorInsert = conn2.cursor()
import dicUtil
from dicUtil import *
#this must match field amout and order in sql
for (en, cn, id) in cursor:
if(hasTsisin(cn)):
tsisin=left_ByDot(cn)
cnstr=right_ByDot(cn)
else:
tsisin="nonx."
cnstr=cn
cnstr=cnstr.replace(";", ",")
cnstr=cnstr.replace(",", ",")
cnstr_a=cnstr.split(",")
# for index8 in range(len(list)):
# print index8
# print list[index8]
print (" "+tsisin+"---"+cnstr)
for index,v in enumerate(cnstr_a):
# print ()index
# print (v) strip
sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())
print(sql)
reslt=cursorInsert.execute(sql)
print("---insert resl:")
print(reslt)
conn2.commit()
def hasTsisin(str):
try:
lastIndex=str.rindex(".")
#print(lastIndex)
return True
except :
print("--no has dot"+ str)
return False
参考
excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET
相关文章
- tf–idf算法解释及其python代码
- python中的range与xrange
- Python中Mock的示例(转)
- python新式类和经典类的区别
- 查看python中已安装的包有哪些
- 【Python实战】python中含有中文字符无法运行
- python中实现延时回调普通函数示例代码
- 用python实现简单EXCEL数据统计的实例
- 全面了解python中的类,对象,方法,属性
- python 的 xlrd模块 读取Excel
- 【代码】python paramiko模块代码示例:远程执行命令及上传和下载
- Python爬虫开发:opener的使用案例
- Python:数据类型转换之将Scikit-learn的Bunch数据类型转换为Pandas的DataFrame类型案例及代码实现
- Python语言学习:python语言代码调试—异常处理之详细攻略
- 100天精通Python(数据分析篇)——第61天:Pandas.to_datetime函数基础+代码实战(处理时间)
- 〖Python 数据库开发实战 - Python与Redis交互篇⑩〗- 综合案例 - 新闻管理系统 - 发表新闻
- 用于时间序列预测的频率增强信道注意力机制(Python代码实现)
- 【Python代码实现】兔年新年快乐——送给女朋友
- Python用27行代码绘制一幅满天星
- 【推荐收藏】一文详解数据分析经典模型RFM(附Python代码)
- 树模型对类别变量的 7 种处理方法(Python代码)
- python查看图像通道数(通过PIL)
- Python学习08:Python基础
- 【LeetCode Python实现】155. 最小栈(简单)
- Python 20行代码检测人脸是否佩戴口罩
- 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题二