You said:
简历AI信息挖掘
公司名称 岗位名称 项目名称 项目所属行业(医疗、教育、工控、法律...) 场景类别(专家库系统、智能客服、智能运维、故障预测...) 操作对象(文本、图片、视频、语音...) 用到的大模型(ChartGlm、llama2、chartgpt、Qwen...) 主要技术框架(实体抽取、NLP、知识图谱、Agent...) 项目简介 项目效果
从我上传的简历中提取表格字段中对应的信息
pythonimport zipfile
import os
# Path to the uploaded zip file
zip_file_path = '/mnt/data/file-1TaS85rIn1n1aj3rCLTb61mv.zip'
extract_dir = '/mnt/data/resumes_extracted/'
# Extract the contents of the zip file
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
zip_ref.extractall(extract_dir)
# List the extracted files
extracted_files = os.listdir(extract_dir)
extracted_files
pythonimport pandas as pd
# Creating the data based on the extracted information
data = {
"简历名称": [
"陈先生_34岁_智联简历_79916.pdf",
"谭女士_28岁_智联简历_08069.pdf",
"刘知胜--简历.pdf",
"秦先生_29岁_智联简历_55171.pdf"
],
"公司名称": [
"海信集团、京东集团、深圳绿米联创科技有限公司",
"广州网易互动娱乐有限公司、华为、中国平安保险(集团)股份有限公司",
"萤态镇产业发展有限公司、深圳市领存技术有限公司、聚好看科技有限公司",
"腾讯互动娱乐、平安产险总部科技中心、搜狐"
],
"岗位名称": [
"推荐算法工程师、算法工程师",
"算法工程师",
"技术研究中心副主任、高级算法工程师",
"算法工程师、数据挖掘工程师"
],
"项目名称": [
"排序模型开发、用户画像",
"游戏用户画像及外挂打击、智能运维领域文本分析、政府部门数据平台搭建",
"AIGC在数字人中的应用、开源大语言模型研究、搜索引擎语义系统开发",
"泛安全监控、车险理赔欺诈建模、数据产品分析"
],
"项目所属行业": [
"IT服务、互联网",
"电子商务、人工智能",
"技术研究、隐私计算、搜索引擎",
"互联网"
],
"场景类别": [
"推荐算法",
"游戏外挂、智能运维、数据分析平台",
"数字人、存储领域、搜索意图分类",
"游戏安全监控、车险理赔、数据挖掘"
],
"操作对象": [
"文本、用户行为数据",
"游戏数据、文本、设备数据",
"文本、语音",
"游戏数据、车险数据、广告数据"
],
"用到的大模型": [
"无",
"无",
"Llama, bloom, chatglm, BERT, ALBERT",
"GANs, DeepForest, DCN, VAE"
],
"主要技术框架": [
"TensorFlow, Keras, LSTM, Attention, Q-learning, word2vec",
"NLP, Time Series Forecasting, Anomaly Detection, NER, TextCNN, Bert, 图神经网络",
"深度学习, LSTM, GRU, 零知识证明, ECC加密, 同态加密",
"Python, pytorch, Logistic Regression, Hive SQL"
],
"项目简介": [
"聚焦于长序列建模和多兴趣建模,开发个性化推荐系统。",
"负责开发反外挂算法、根因定位算法和数据分析模型。",
"开展大语言模型的应用研究,并在多个领域进行了技术突破。",
"识别游戏中的代练和作弊行为,提升车险理赔模型的准确率。"
],
"项目效果": [
"提升用户体验,项目上线后效果显著。",
"提升公司盈利,准确率高。",
"提升用户体验,压缩算法大幅度提升文本压缩率。",
"提高模型预测的准确率和召回率。"
]
}
# Creating DataFrame
df = pd.DataFrame(data)
# Save to text file
file_path = '/mnt/data/简历AI信息挖掘.txt'
df.to_csv(file_path, sep='\t', index=False)
file_path
'/mnt/data/简历AI信息挖掘.txt'
python# Adding the new data to the existing data
additional_data = {
"简历名称": [
"蔡先生_35岁_智联简历_24419.pdf",
"王先生_30岁_智联简历_35477.pdf",
"刘女士_30岁_智联简历_52428.pdf",
"庄先生_30岁_智联简历_46227.pdf"
],
"公司名称": [
"汇立集团、广东博智林机器人有限公司、深圳市捷顺科技",
"联通(广东)产业互联网有限公司",
"深圳来觅数据信息科技有限公司",
"康佳集团股份有限公司"
],
"岗位名称": [
"AI 算法工程师、高级图像算法工程师",
"算法工程师",
"nlp算法工程师",
"算法研究员"
],
"项目名称": [
"图像内容理解、人脸识别与防伪、图像背景相似比较、银行账单关键信息提取",
"智慧政务——12345智能客服系统、基于RAG的应急预案智能对话系统、安全大模型——日志关键信息抽取",
"利用LLM实现赛道推理及新概念发现、针对企业的行业打标算法、事件信息结构化",
"LLM智能问答项目、自研远场语音项目、相似论文推荐系统"
],
"项目所属行业": [
"图像识别、智慧交通",
"自然语言处理、智能客服",
"自然语言处理",
"语音识别、智能问答"
],
"场景类别": [
"图像检测、内容理解、车牌识别",
"智能客服、应急预案、日志信息抽取",
"赛道推理、行业打标、事件信息抽取",
"智能问答、语音识别、论文推荐"
],
"操作对象": [
"图像、视频",
"文本、语音",
"文本",
"文本、语音"
],
"用到的大模型": [
"无",
"Chatglm-6B, Baichuan2-13B-Chat",
"LLM, LoRA, Llama 2",
"LlaMA2, LangChain"
],
"主要技术框架": [
"OpenCV, PyTorch, Caffe, ViT, CLIP, RCNN, DNN, Transformer",
"Python, TensorFlow, PyTorch, RAG, LangChain",
"PyTorch, BERT, Guide-Attention, vllm",
"PyTorch, TensorFlow, CNN, LSTM, Transformer"
],
"项目简介": [
"负责图像信息的提取与分析,包括图像检索、图像内容理解、人脸识别等。",
"负责AI模型的开发、调优和部署,包括智能客服系统的对话建议生成和安全日志的信息抽取。",
"利用LLM和知识图谱技术实现赛道推理,行业打标以及事件信息的结构化处理。",
"通过构建大语言模型和远场语音平台,实现智能问答和语音识别的技术创新。"
],
"项目效果": [
"项目成果显著,服务部署成功并优化业务流程。",
"提升了系统的对话精度和响应效率,显著优化了日志抽取任务的准确率。",
"新概念词发现率和赛道推理的正确率显著提升,行业打标精确度提升至0.92。",
"成功部署了智能问答机器人和远场语音系统,显著提升了产品的智能化水平。"
]
}
# Converting additional data into DataFrame
additional_df = pd.DataFrame(additional_data)
# Concatenating with the original DataFrame
full_df = pd.concat([df, additional_df], ignore_index=True)
# Saving the updated DataFrame to a new text file
updated_file_path = '/mnt/data/简历AI信息挖掘_更新版.txt'
full_df.to_csv(updated_file_path, sep='\t', index=False)
updated_file_path
'/mnt/data/简历AI信息挖掘_更新版.txt'
python# Preparing the data for output with $$ separation
output_data = [
"程先生_31岁_智联简历_55657.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到",
"胡先生_36岁_智联简历_56323.pdf$$深圳新曜科技有限公司、陆军航空兵学院 无人机研究中心$$AI算法工程师、工程师$$sidGPT, 盛屯智慧园区监控平台, 航空发动机孔探图像缺陷检测$$图像识别、无人机工程$$图像识别、视频识别、无人机图像处理$$图像、视频$$BERT, Llama2, text2vec$$Python, PyTorch, ResNet, YOLOv5, LSTM, Attention$$负责图像/视频识别检测技术研发及大模型应用研究。$$提高了模型的实时率和准确率,优化了业务流程。",
"贾先生_31岁_智联简历_81593.pdf$$货拉拉、华为技术有限公司$$高级算法工程师、AI算法工程师$$智能补贴项目、cbg销量预测、供应链优化和风控$$推荐算法、智能制造$$推荐算法、销量预测、供应链管理$$用户数据、销售数据、供应链数据$$未找到$$Python, TensorFlow, Xgboost, Keras$$负责用户画像建模、销量预测算法开发和供应链优化。$$提高了预测准确率和供应链的优化效果,降低了成本。",
"刘女士_30岁_智联简历_57889.pdf$$深圳来觅数据信息科技有限公司$$nlp算法工程师$$利用LLM实现赛道推理及新概念发现、针对企业的行业打标算法、事件信息结构化$$自然语言处理$$赛道推理、行业打标、事件信息抽取$$文本$$LLM, LoRA, Llama 2$$PyTorch, BERT, Guide-Attention, vllm$$负责LLM和知识图谱技术在赛道推理和行业打标中的应用。$$提高了赛道推理的准确率和行业打标的精确度。",
"简先生_34岁_智联简历_36003.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到",
"李先生_40岁_智联简历_55823.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到",
"刘女士_30岁_智联简历_57889.pdf$$深圳来觅数据信息科技有限公司$$nlp算法工程师$$利用LLM实现赛道推理及新概念发现、针对企业的行业打标算法、事件信息结构化$$自然语言处理$$赛道推理、行业打标、事件信息抽取$$文本$$LLM, LoRA, Llama 2$$PyTorch, BERT, Guide-Attention, vllm$$负责LLM和知识图谱技术在赛道推理和行业打标中的应用。$$提高了赛道推理的准确率和行业打标的精确度。",
"刘先生_38岁_智联简历_73171.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到",
"刘先生_50岁_智联简历_32023.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到",
"向先生_37岁_智联简历_43281.pdf$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到$$未找到"
]
# Saving the output to a txt file
output_file_path = '/mnt/data/简历AI信息挖掘_输出.txt'
with open(output_file_path, 'w') as f:
for line in output_data:
f.write(line + '\n')
output_file_path
'/mnt/data/简历AI信息挖掘_输出.txt'
简历信息提取分析