Commit 830fed5a by unknown

tools

parent 8058a38d
......@@ -9,212 +9,6 @@ def get_file_content(filePath):
return fp.read()
ocr_example = {"/home/liuxin/work/search_question/data/12677472-语文1-160.pdf.xlsx-题目-原图/1151411.jpg": """"
四、2022·浙江,7~9)阅读下面的文字,完成
1~3题。
中国食客说起中华美食之道,往往喜欢引用
孔子的“食不厌精,脍不厌细”八个字。其实,孔
子所言的“食不厌精,脍不厌细”,更侧重于祭祀
时饮食的态度而非对味道的追求。孔子生活的
春秋末期,烹饪、碓春、切肉工艺均相对原始,将
“食”做“精”“脍”做“细”,体现了厨人与食者严
肃认真的态度。孔子的饮食观背后,是其心怀的
礼制。《礼记》所言“夫礼之初,始诸饮食”,大意
即是“礼仪制度和风俗习惯始于饮食活动”
古代中国对食物的“淡漠”不仅出于食材的
积累、交融的缓慢,更在于儒家对口腹之欲的“打
压”
。一方面,孔子“君子谋道不谋食”的教诲让
士大夫阶层往往远离庖厨而以修齐治平为已任:
另一方面,自汉武帝刘彻“罢黜百家,独尊儒术
后,士大夫阶层仕途通畅,“学而优则仕”也有着
丰富的现实回报。至晚在唐代之前,文人对于饮
食之事是少有重视的。
隋唐时期饮食文化尤其是宴席之风虽有较
大发展,但在盛世文治武功的影响下,士大夫阶
层的追求依然在“提笔安天下、马上定乾坤”之
中,“烹羊宰牛”式的盛筵并没有孕育出与之相当
的饮食文化。唐代盛极一时的“烧尾宴”,也只是
公卿士大夫的盛宴,远非平民百姓所能享受。
转折来自于两宋:从个体角度来看,两宋文
化昌盛导致读书人与日俱增以至于仕途门槛抬
高,同时武功疲弱又令多少人壮志难酬;从朝廷
角度来看,宋室有鉴于唐朝藩镇割据之痛,自宋
太祖赵匡胤“杯酒释兵权”始便鼓励朝臣“择便好
田宅市之,为子孙立永远之业,多致歌儿舞女,日
饮酒相欢,以终其天年”。用舍行藏之下,也不由
得士大夫们不将视线转向饮食了。
元朝统一后,汉族士人愈加边缘化。明清易
代,朝廷中枢又多为满族垄断,“学而优则仕”的
路途不再畅通无阻,文人的兴趣自然而然愈加转
向声色大马。如以“小品圣手”名世的张岱,便在
《陶庵梦忆》中洋洋自得地夸口“越中清馋,无过
余者”,从北京的革婆果到台州的江瑶柱,从山西
的天花菜到临海的枕头瓜,大明两京一十三省的
美食竟被他尝了个遍。又如戏曲大家李渔,一边
醉心于梨园之乐,一边也不忘鲜衣美食这一类
“家居有事”,并在理论巨著《闲情偶寄》中加入
“饮馔”一部,系统阐述其“存原味、求真趣”的饮
食美学思想与“宗自然、尊鲜味”饮食文化观念
特殊的时代背景使得“饮食之人”不再被轻
贱,于是一大批美食家在清代前半叶应运而生:
在这一背景下,“食圣”袁枚登场了。
袁枚在《与薛寿鱼书》中公然提出“夫所谓不
朽者,非必周,孔而后不朽也
羿之射,秋之变
俞跗之医,皆可以不朽也”,而他自己则将饮食之
道视为堪与周公孔子之为相媲美的事业,因此可
以毫无顾忌地“每食于某氏而饱,必使家厨往彼
灶觚,执弟子之礼”。
袁枚作诗以“性灵说”为主张,认为诗应直抒
心灵,表达真意,这一主张也融合到了饮食中:他
认为在烹饪之前要了解食材、尊重物性,注意食
材间的搭配和时间把握;他反对铺张浪费,提出
看佳原不在钱多”,食材之美更在于物尽其用;
他将人文主义引入饮食,宣扬“物为人用,使之死
可也,使之求死不得不可也”。他强调烹饪理论
的重要性,以为中国烹法完全依厨人经验不利于
传承,为了给后世食客厨人树立典范,又煞费苦
心撰写出了《随园食单》--这部南北美食集大
成之作,再一次为中华美食的发展开启了新的
纪元。
《随园食单》之前,中国历代亦不乏饮食著
作,但关于制法的记述往往过于简略,如隋代《食
经》唐代《烧尾宴食单》之类甚至流于“报菜名
宋元以降,饮食著作的烹饪方法逐渐明晰,但亦
停留在“形而下”的层次。而《随园食单》则完成
了饮食文化从经验向理论的最终蜕变,如“须知
单”“戒单”中梳理了物性、作料、洗刷、调剂、搭
配、火候、器具、上菜等方方面面,“上菜须知”中
的“盐者宜先,淡者宜后;浓者宜先,薄者宜后
等,都是对中国千年烹饪经验一次开创性的总结
与编排
在袁枚和他的《随园食单》之后,中国饮食文
化从“形而上”的思想层面迈上了一个新台阶,在
之后的百余年里,帮口菜渐渐发达,“四大菜系’
大菜系”逐渐成形
摘编自江隐龙《中华尚食之道里
自有一个民族坚韧的初心》)
1.下列对文中“中华饮食文化”的相关理解,不正
确的一项是
A.中华饮食文化跟礼仪关系紧密,“夫礼之
初,始诸饮食”说明饮食活动从一开始就被
赋予礼仪要求
B.中华饮食文化发展的影响因素有很多,与国
家的强弱并不一致,而与历代文人士大夫
的态度有较大关联。
C.中华饮食文化发展中,唐代以前的文人很少
重视饮食,跟“君子谋道不谋食”的教诲和
“学而优则仕”的现实回报有关。
D.中华饮食文化在明清时代出现了“存原味、
求真趣”的饮食美学思想与“宗自然、尊鲜
味”的饮食文化观念,
2.下列说法符合原文意思的一项是
A.中国食客喜欢用“食不厌精,脍不厌细”标
榜中华美食之道,这八个字从一个侧面反
映了在孔子时代把饮食做到“精细”并非
B.两宋时期饮食风气发生了变化,产生了转
折,无论从个体角度还是从朝廷角度来看,
这都是经济比较发达造成的。
C.袁枚将自己的饮食之道当作与周公孔子的
饮食之道相媲美的不朽事业,饮宴饱食归
来,都派自己的厨子去对方家学习
D.袁枚把人文主义融入饮食,大致表现在这
样三方面:尊重物性,要了解食材;不要浪
费,要物尽其用;物为人用,要保护生命。
3.概括中华饮食文化得到发展的原因,
""",
"/home/liuxin/work/search_question/data/12677472-语文1-160.pdf.xlsx-题目-原图/1151417.jpg":"""(2024·全国甲,4~6)阅读下面的文字,完成
1~3题
偷梁换柱”多指以假代真,用欺骗的手段改
变事物的性质,然而在古建筑工程领域,偷梁换
柱”却属于一种科学实用的修缮加固方法。
梁是截面形状一般为长方形的木料,且木料
的长度尺寸远大于截面尺寸。梁为水平放置,两
端的底部有支撑构件。梁主要用于承担建筑上
部构件及屋顶的全部重量,并把这些重量向下传
给支撑构件。柱为梁的支撑构件。柱子截面形
状一般为圆形,长度尺寸远大于截面直径。柱子
为竖向放置,主要用于承担上部梁传来的重量,
并向下传递给下部的梁或直接传至地面。梁与
柱采用榫卯形式连接,形成稳固的大木结构体
系。位于屋架内的若干梁在竖向被层层往上
“抬”,上下梁之间由短柱支撑,底部的梁由立于
地面的立柱支撑。梁、柱均为中国木结构古建筑
的核心受力、传力构件,缺一不可。
对于古建筑而言,立于地面的立柱,或因长
期承受上部结构传来的重量而产生开裂残损,或
因柱底部位长期受到地面潮气影响而出现糟朽
残损,这导致木柱强度下降,无法正常支撑梁,
此时可采用“偷梁换柱”的加固方法。“偷梁换
柱”实际就是“托梁换柱”。其基本做法为:首先
将“假柱”即临时的竖向支撑构件)安装在梁底
部、原柱(原有立柱)旁边;再抽去原柱,使梁传来
的重量暂时由“假柱”承担;然后安装新柱,新柱
的材料、尺寸及安装位置与原有立柱相同;最后
将“假柱”移去。
完善的“偷梁换柱”加固方法具有科学性,其
原理主要包括三个方面:其一,从梁的角度而言,
它是水平受力构件,并把外力向下传给立柱。梁
只有保持水平稳定状态,才能保证整个大木结构
的稳定。在加固古建筑的过程中,梁始终受到支
托,因而能一直保持水平稳定状态。其二,从柱
的角度而言,它是竖向支撑构件,并最终把上部
构件的重量传给地基。只有立柱具有充足的承载力,且与梁有可靠连接时,才能有效承担梁传
来的作用力。加固过程中,技术人员虽然将原柱
抽去,但是预先将“假柱”设置于原柱附近,让“假
柱”代替原柱发挥支撑作用,因而换柱过程对结
构整体的稳定基本无影响。换柱完成后,新柱与
原柱有着同样的材料、尺寸,且与梁有着相同的
可靠连接方式,它完全能够代替原柱发挥支撑作
用。其三,从梁、柱整体结构角度而言,“偷梁换
柱”方法对整体结构干扰小,且能达到良好的加
固效果:原柱被新柱原位替换,新柱不仅有很好
的支撑作用,而且与梁仍有可靠连接;“假柱”仅
用于加固过程的临时支撑,且在原柱撤去后新柱
安装前,能够与梁临时组成稳定的结构体系。因
此,在“偷梁换柱”过程中,梁、柱结构整体始终处
于稳定状态 1.下列对原文相关内容的理解和分析,不正确的
一项是
A.“偷梁换柱”这一成语在现今的使用中多含
有贬义的色彩,但在古建筑工程领域,它是
指一种修缮加固的科学方法,完全没有
贬义。
B.中国古建筑大木构架剖面示意图展示了几
种不同位置、不同尺寸的柱,这些柱子中:
立于地面的立柱比较容易发生糟朽残损的
情况。
C.结合图文可以发现,屋顶的重量由上层柱承
担,然后传给梁,再由梁传递给其下的短
柱,依次向下传递,最终由底部的立柱传至
地面。
D.“偷梁换柱”的加固方法包括托梁、抽柱、换
柱等步骤,在每一个步骤中梁一直会得到
很好的支撑,从而始终能够保持水平稳定
状态。
★2.请根据原文内容,在下面文段的横线处补写
出恰当的词语。
工程实例:故宫太和殿是我国最大的木构
大殿,明清两代帝王即位或节日庆典都在此举
行。2004年,技术人员在对太和殿进行勘查
时,发现有一根立柱下部三分之一的位置出现
了严重糟朽,于是采取了“偷梁换柱”的方法对
该立柱进行加固。具体过程如下:先使用“假
柱”托住原柱上部的梁。“假柱”为完好的木
料,被安装在
附近,用于临时支撑
梁。再把柱子底部糟朽部分抽去,以便用
代替。原柱糟朽部分去掉后,剩余的部
分做成巴掌形,与新柱搭接。新柱与被抽去的
糟朽部分同材料、同形状、同尺寸,且顶部亦做
成巴掌榫形状。最后再把
拆除,即
完成了原有立柱的加固,
3.清代的古籍中有另一种“偷梁换柱”的记载:当
某根立柱损坏需要更换时,为节省工料,工匠
只是在原柱旁边设一根新柱,再撤去原柱。为
什么第2题“工程实例”中,太和殿修缮没有采用这种更简便的加固方式呢?请简要分析"""}
# 合合ocr
def recognize_pdf2md( image_path, options=None, is_url=False):
"""
......@@ -277,12 +71,8 @@ def recognize_pdf2md( image_path, options=None, is_url=False):
break
except Exception as e:
count += 1
if image_path in ocr_example:
res = {"result": {"markdown": ocr_example[image_path]}}
break
print(f"合合ocr error:{image_path}; {e}")
print(f"合合ocr while error :{image_path}; {e}")
res = json.dumps(res, ensure_ascii=False)
......@@ -301,11 +91,17 @@ def image_to_base64( image_path: str) -> str:
return image_base64
def doubao_image_embedding( image_file, text):
def doubao_image_embedding( image_file:str, text:str):
# 豆包图文 embedding 模型; 官网:https://www.volcengine.com/docs/82379/1523520
doubao_client = Ark(api_key="35f1674f-22b4-434b-9a8d-0d80e8d1ef6b") # 豆包 图文embedding模型
base64_data = image_to_base64(image_file)
if image_file.startswith("http"):
# 传入需要做embedding图片url链接
pass
else:
image_file = image_to_base64(image_file)
count = 0
image_embedding = []
while count < 5:
try:
......@@ -314,15 +110,14 @@ def doubao_image_embedding( image_file, text):
model="doubao-embedding-vision-250615", # "doubao-embedding-vision-250615" embed_dim=2048
encoding_format="float",
dimensions= 1024,
input=[{"text":text,"type":"text"}, {"image_url": {"url": base64_data}, "type": "image_url"}]
input=[{"text":text,"type":"text"}, {"image_url": {"url": image_file}, "type": "image_url"}]
)
image_embedding = resp.data['embedding']
break
except Exception as e:
count += 1
print(r"doubao embedding error: ", end=" ")
print(f"doubao embedding error: {e}", end=" ")
print(image_file)
pass
return image_embedding
......@@ -369,6 +164,8 @@ if __name__ == "__main__":
image = "/home/liuxin/work/search_question/data/人工标注的手机拍题图片/4-1151471.jpg"
image = "/home/liuxin/work/search_question/data/人工标注的手机拍题图片/7-1151505.jpg"
image= "/home/liuxin/work/search_question/data/12664728-课计划·七年级英语·RJ·上册/93.jpg"
image = "/home/liuxin/work/search_question/data/12s.jpg"
image = "/home/liuxin/work/search_question/data/12677464-2025《创新教程》微点特训(2023-2025真题分类)化学题目.pdf.xlsx-题目-原图/1179756.jpg"
#### 1、合合ocr:传输文件
resp = recognize_pdf2md(image, {
......@@ -382,26 +179,26 @@ if __name__ == "__main__":
})
print(f"耗时:{time.time()-start_time}")
print(f"合合OCR总耗时:{time.time()-start_time}")
result = json.loads(resp)
# result = json.dumps(result, ensure_ascii=False, indent=4)
text = result['result']['markdown']
print("合合ocr")
print("合合ocr")
print(text)
#
# print("\n\n")
#
#
# image = "/home/liuxin/work/search_question/data/12677472-语文1-160.pdf.xlsx-题目-原图/1151411.jpg"
# 2、豆包图文embedding
image = "/home/liuxin/work/search_question/data/12677472-语文1-160.pdf.xlsx-题目-原图/1151411.jpg"
image = "https://oss.5rs.me/oss/upload/image/jpeg/cc008bc80c6d4dceab49dc8d69603c58.jpeg"
# res = doubao_image_embedding(image, text)
# print(res[:5])
#
# res = doubao_text_embedding(text) # 接口调不通
# print(res[:5])
res = monkey_ocr(image)
print("monkey ocr:")
print(res)
# res = monkey_ocr(image)
# print("monkey ocr:")
# print(res)
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment